L’assemblaggio del genoma si riferisce al processo di prendere molti piccoli pezzi di sequenza genetica e fonderli insieme in un insieme coerente che rappresenta l’intero genoma di un organismo. Questo è uno dei principali obiettivi del campo della bioinformatica ed esistono una varietà di progetti genomici per questo scopo. L’assemblaggio del genoma è stato utilizzato per iniziare ad analizzare i genomi di molte specie, inclusi esseri umani, piante, animali e batteri.
L’analisi dei geni di un organismo è un processo lungo e l’assemblaggio del genoma è uno dei primi passi. Molti altri metodi di analisi sono basati su un assemblaggio di successo e l’identificazione dei geni non può progredire senza di esso. Anche prima che i geni vengano trovati, un assemblaggio del genoma di successo può ancora generare molte informazioni utili per analisi successive, inclusa la dimensione del genoma, la sua struttura e la sua composizione generale.
Il processo di assemblaggio del genoma è come mettere insieme un puzzle senza avere un’immagine o forme utili come guida. Quando ci si confronta con i primi pezzi del genoma, chiamati letture grezze, raramente ci sono indicazioni su dove va un particolare pezzo, o anche su come è orientato. Ogni pezzo è codificato in modo simile con le quattro basi del DNA, abbreviate A, C, G e T. Il genoma potrebbe essere compattato in un grande cromosoma o diviso in molti. Non vi è inoltre alcuna garanzia che alcune delle letture grezze non siano duplicati della stessa area del genoma, il che significherebbe che esistono informazioni meno uniche di quanto appaia a prima vista.
La conoscenza generale della struttura del genoma è preziosa quando si avvia il processo di assemblaggio. Sebbene i genomi tra le specie siano notevolmente diversi, ci sono alcune regole che seguono specifici tipi di genoma e queste possono essere applicate quando si mette insieme un altro genoma dello stesso tipo. Ad esempio, se un certo tipo di organismo ha sempre un particolare modello vicino a dove si trovano i geni, si potrebbe ragionevolmente presumere, quando si assembla un altro organismo simile ad esso, che trovare un tale modello segnalerebbe un gene nelle vicinanze. Su scala più ampia, molti genomi batterici hanno un cromosoma circolare, quindi sarebbe ragionevole prevedere che tutte le letture grezze di un nuovo batterio si adatterebbero in qualche modo su un cromosoma. Applicare la conoscenza genetica generale in questo modo può consentire a un ricercatore di iniziare a dare un senso a potenzialmente centinaia di migliaia di dati.
Esistono molti altri metodi che possono essere utilizzati nell’assemblaggio del genoma, comprese le previsioni computazionali e i confronti manuali. Indipendentemente dal metodo, l’assemblaggio del genoma è un lavoro di grandi dimensioni che spesso richiede tempo e difficoltà. Poiché è la base per molte future analisi genetiche su un organismo, c’è poco spazio per l’errore.