Una secuencia de consenso es un conjunto de proteínas o nucleótidos en el ácido desoxirribonucleico (ADN) que aparece con regularidad. El ADN está compuesto por nucleótidos y cada nucleótido está compuesto por un fosfato, un azúcar y una base de nitrógeno. Las bases nitrogenadas pueden ser adenina (A), timina (T), guanina (G) y citosina (C). La secuencia de estas bases químicas determina el código genético de un organismo. El código genético es como una instrucción sobre la que se construye y mantiene un organismo. Los biólogos moleculares a menudo usan estadísticas para predecir la ubicación de las secuencias o para comprender dónde tienden a unirse moléculas particulares. Se pueden usar fórmulas para representar ubicaciones donde las secuencias de aminoácidos permanecen iguales y ubicaciones donde varían. En el caso de una secuencia promotora consenso, por ejemplo, un tipo particular de enzima puede unirse a sitios de proteínas secuenciadas de manera similar.
Los genetistas, al igual que los investigadores en muchas disciplinas científicas, a menudo utilizan sustituciones para simplificar sistemas complejos. Hay tantas bases de aminoácidos y genes en el cuerpo que los científicos no pueden contarlos a menos que exista algún sistema general para hacerlo. Una secuencia de consenso puede aparecer en muchos lugares del ADN y también en varios seres vivos. Las similitudes y diferencias que tienden a ocurrir pueden indicarse mediante una fórmula.
Estadísticamente, los científicos pueden clasificar secuencias genéticas para buscar patrones. Los patrones repetidos, llamados motivos de secuencia, se utilizan generalmente para representar áreas genéticas que controlan procesos biológicos específicos. Las secuencias de consenso también pueden ofrecer información sobre cómo se sintetizan las proteínas o cómo se guían las moléculas dentro de una célula.
En la notación de una secuencia de consenso, la ubicación de algunos nucleótidos puede mostrar que siempre están en la ubicación representada. También se puede indicar que puede estar allí un nucleótido u otro. En este caso, generalmente no se indica con qué frecuencia aparece un aminoácido en lugar de otro. A veces se usa un modelo gráfico para indicar esta frecuencia, aumentando o disminuyendo el tamaño de los símbolos. Algunos programas de software pueden generar logotipos de secuencias automáticamente.
A menudo, una secuencia de consenso coincide con un sitio de unión a proteínas reconocido. Para representar con precisión secuencias en el genoma, a menudo se utilizan fórmulas matemáticas. Estos incluyen fórmulas estadísticas como logaritmos y valores numéricos, que pueden ser positivos o negativos, para representar la ubicación de la información genética. Los procesos en el genoma para las funciones biológicas normales, así como los relacionados con enfermedades, se pueden analizar de esta manera.
Las representaciones matemáticas de una secuencia de consenso generalmente proporcionan un modelo de patrones de ADN y aminoácidos. Por lo general, no se proporciona una imagen exacta. Sin embargo, las secuencias pueden ayudar a los científicos a relacionar los aspectos funcionales de diferentes partes del genoma con los patrones evolutivos de los organismos.