Una sequenza consenso è un insieme di proteine, o nucleotidi nell’acido desossiribonucleico (DNA), che appare regolarmente. Il DNA è composto da nucleotidi e ogni nucleotide è composto da un fosfato, uno zucchero e una base azotata. Le basi azotate possono essere adenina (A), timina (T), guanina (G) e citosina (C). La sequenza di queste basi chimiche determina il codice genetico di un organismo. Il codice genetico è come un’istruzione su cui è costruito e mantenuto un organismo. I biologi molecolari usano spesso le statistiche per prevedere la posizione delle sequenze o per capire dove particolari molecole tendono a legarsi. Le formule possono essere utilizzate per rappresentare le posizioni in cui le sequenze di amminoacidi rimangono le stesse e le posizioni in cui variano. Nel caso di una sequenza promotrice di consenso, per esempio, un particolare tipo di enzima può legarsi a siti di proteine sequenziate in modo simile.
I genetisti, come i ricercatori in molte discipline scientifiche, usano spesso le sostituzioni per semplificare i sistemi complessi. Ci sono così tante basi di aminoacidi e geni nel corpo che gli scienziati non possono contarli a meno che non ci sia un sistema generale per farlo. Una sequenza consenso può apparire in molte posizioni nel DNA e in vari esseri viventi. Le somiglianze e le differenze che tendono a verificarsi possono essere indicate da una formula.
Statisticamente, gli scienziati possono classificare le sequenze genetiche per cercare modelli. Schemi ripetuti, chiamati motivi di sequenza, sono generalmente usati per rappresentare aree genetiche che controllano specifici processi biologici. Le sequenze di consenso possono anche offrire informazioni su come vengono sintetizzate le proteine o su come le molecole sono guidate all’interno di una cellula.
Nella notazione di una sequenza consenso, la posizione di alcuni nucleotidi può mostrare che sono sempre nella posizione rappresentata. Può anche essere indicato che può essere presente un nucleotide o un altro. In questo caso, la frequenza con cui compare un amminoacido, al posto di un altro, generalmente non è indicata. A volte viene utilizzato un modello grafico per indicare questa frequenza, aumentando o diminuendo la dimensione dei simboli. Alcuni programmi software possono generare automaticamente loghi di sequenza.
Spesso, una sequenza di consenso corrisponde a un sito di legame proteico riconosciuto. Per rappresentare con precisione le sequenze sul genoma, vengono spesso utilizzate formule matematiche. Questi includono formule statistiche come logaritmi e valori numerici, che possono essere positivi o negativi, per rappresentare la posizione dell’informazione genetica. I processi nel genoma per le normali funzioni biologiche, così come quelli legati alle malattie, possono essere analizzati in questo modo.
Le rappresentazioni matematiche di una sequenza consenso generalmente forniscono un modello di DNA e modelli di amminoacidi. In genere non viene fornita un’immagine esatta. Le sequenze, tuttavia, possono aiutare gli scienziati a mettere in relazione gli aspetti funzionali delle diverse parti del genoma con i modelli evolutivi degli organismi.