Un génome est une collection de tout le matériel génétique présent dans un organisme. Comme la séquence et la structure de ce matériel génétique dirigent toute la vie biologique, les scientifiques sont très intéressés à découvrir à quoi ils servent tous. Une base de données génomique est une collection d’informations croisées sur un ou plusieurs organismes, de sorte qu’un scientifique peut examiner toutes les informations génétiques disponibles pour l’aider dans ses recherches.
Les génomes sont très complexes et contiennent des milliards de bases dans la séquence d’informations. Les bases de données informatisées sont donc le seul moyen pratique d’organiser les détails en un seul endroit. Généralement, ils sont disponibles sous forme de bases de données en ligne pour la recherche scientifique. Un domaine scientifique relativement nouveau, appelé bioinformatique, a vu le jour pour perfectionner la façon dont les données biologiques peuvent être interprétées par le biais de systèmes informatiques.
Les bases de données de génomes contiennent la séquence des gènes d’un organisme si la séquence entière est connue. Sinon, il peut contenir des séquences partielles. Les génomes de l’homme, de la souris et de la mouche drosophile ont par exemple été séquencés. Lorsque la séquence d’un génome est connue, les généticiens peuvent identifier des gènes particuliers dans le génome. Chaque gène est la feuille d’instructions pour un produit cellulaire particulier.
Si un gène a une mutation, il a une séquence différente de celle du gène fonctionnel normal. Les mutations peuvent être bénéfiques et produire une caractéristique utile dans l’organisme muté. Ils peuvent également ne faire aucune différence pour le produit, ou ils peuvent être préjudiciables au fonctionnement normal de l’organisme. De nombreuses conditions médicales, par exemple, sont dues à des mutations dans un gène particulier.
Les mutations peuvent également être utilisées pour calculer à quel point une espèce particulière est étroitement liée à une autre, car davantage de mutations s’accumulent au fil du temps. Les individus peuvent également varier dans la séquence du génome, d’autant plus que de grandes parties du génome ne sont pas des gènes et ne codent pour aucun produit cellulaire essentiel. Une base de données du génome contient une séquence d’un organisme désigné comme standard, mais il y aura de nombreuses différences mineures entre le standard choisi arbitrairement et les autres individus d’une espèce.
Malgré la présence de nombreuses différences, les gènes sont reconnaissables à travers des séquences. Si les généticiens savent ce que fait un gène particulier dans un organisme, alors un gène avec une séquence similaire chez un autre animal remplit très probablement la même fonction. Les généticiens peuvent utiliser une base de données du génome soit pour identifier un gène qu’ils étudient, soit pour découvrir ce que fait le gène.
Chaque base de données du génome est consultable. Habituellement, les scientifiques peuvent rechercher une base de données de plusieurs manières différentes. Généralement, il ou elle peut entrer la séquence d’un gène qu’il a séquencé. Ensuite, la base de données trouve une ou plusieurs séquences similaires à comparer.
Une manière plus simple de rechercher dans la base de données consiste à rechercher un mot clé de gène, tel que le nom du gène. Des autorités telles que la National Authority for Biotechnology Information (NCBI) des États-Unis peuvent attribuer des numéros de référence distincts aux séquences, et un généticien peut également effectuer des recherches dans une base de données du génome à l’aide de l’un de ces identifiants. Il ou elle peut également affiner les résultats en utilisant plus de paramètres de recherche. Les informations croisées sont une caractéristique de la plupart des bases de données génomiques, et un résultat de séquence unique fournira également à l’utilisateur de la base de données des liens utiles pour plus d’informations génétiques. En plus des informations sur une séquence spécifique, de nombreuses bases de données fournissent une représentation visuelle de la séquence et des caractéristiques notables de cette zone.
Différents organismes peuvent avoir des bases de données génomiques spécifiques, mais certaines bases de données plus importantes contiennent plus d’une espèce. Diverses autorités contrôlent les différentes bases de données disponibles, de sorte que les bases de données peuvent toutes utiliser des formats et des capacités de recherche distincts. Quelques exemples de ces autorités incluent le NCBI, l’Institut européen de bioinformatique, ou même des universités individuelles.