Une séquence consensus est un ensemble de protéines, ou nucléotides dans l’acide désoxyribonucléique (ADN), qui apparaît régulièrement. L’ADN est composé de nucléotides et chaque nucléotide est composé d’un phosphate, d’un sucre et d’une base azotée. Les bases azotées peuvent être l’adénine (A), la thymine (T), la guanine (G) et la cytosine (C). La séquence de ces bases chimiques détermine le code génétique d’un organisme. Le code génétique est comme une instruction sur laquelle un organisme est construit et maintenu. Les biologistes moléculaires utilisent souvent les statistiques pour prédire l’emplacement des séquences ou pour comprendre où des molécules particulières ont tendance à se lier. Des formules peuvent être utilisées pour représenter des emplacements où les séquences d’acides aminés restent les mêmes et des emplacements où elles varient. Dans le cas d’une séquence de promoteur consensus, par exemple, un type particulier d’enzyme peut se lier à des sites de protéines séquencées de manière similaire.
Les généticiens, comme les chercheurs dans de nombreuses disciplines scientifiques, utilisent souvent des substitutions pour simplifier des systèmes complexes. Il y a tellement de bases d’acides aminés et de gènes dans le corps que les scientifiques ne peuvent pas les compter à moins qu’il n’existe un système général pour le faire. Une séquence consensus peut apparaître à de nombreux endroits dans l’ADN ainsi que dans divers êtres vivants. Les similitudes et les différences qui ont tendance à se produire peuvent être indiquées par une formule.
Statistiquement, les scientifiques peuvent classer les séquences génétiques pour rechercher des modèles. Les motifs répétitifs, appelés motifs de séquence, sont généralement utilisés pour représenter des zones génétiques qui contrôlent des processus biologiques spécifiques. Les séquences de consensus peuvent également offrir un aperçu de la façon dont les protéines sont synthétisées ou comment les molécules sont guidées dans une cellule.
Dans la notation d’une séquence consensus, l’emplacement de certains nucléotides peut montrer qu’ils sont toujours à l’emplacement représenté. On peut aussi indiquer qu’un nucléotide ou un autre peut s’y trouver. Dans ce cas, la fréquence à laquelle un acide aminé apparaît, à la place d’un autre, n’est généralement pas indiquée. Un modèle graphique est parfois utilisé pour indiquer cette fréquence, en augmentant ou en diminuant la taille des symboles. Certains logiciels peuvent générer automatiquement des logos de séquence.
Souvent, une séquence consensus correspond à un site de liaison protéique reconnu. Pour décrire avec précision les séquences du génome, des formules mathématiques sont souvent utilisées. Ceux-ci incluent des formules statistiques telles que des logarithmes et des valeurs numériques, qui peuvent être positives ou négatives, pour représenter l’emplacement de l’information génétique. Les processus du génome pour les fonctions biologiques normales, ainsi que ceux liés aux maladies, peuvent être analysés de cette manière.
Les représentations mathématiques d’une séquence consensus fournissent généralement un modèle de profils d’ADN et d’acides aminés. Une image exacte n’est généralement pas fournie. Les séquences, cependant, peuvent aider les scientifiques à relier les aspects fonctionnels des différentes parties du génome aux modèles évolutifs des organismes.