L’assemblage du génome fait référence au processus consistant à prendre de nombreux petits morceaux de séquence génétique et à les fusionner en un tout cohérent qui représente l’ensemble du génome d’un organisme. Il s’agit d’un axe majeur du domaine de la bioinformatique, et une variété de projets de génome existent à cette fin. L’assemblage du génome a été utilisé pour commencer à analyser les génomes de nombreuses espèces, y compris les humains, les plantes, les animaux et les bactéries.
L’analyse des gènes d’un organisme est un long processus, et l’assemblage du génome est l’une des premières étapes. De nombreuses autres méthodes d’analyse reposent sur un assemblage réussi, et l’identification des gènes ne peut progresser sans elle. Même avant que les gènes ne soient trouvés, un assemblage réussi du génome peut encore générer de nombreuses informations utiles pour une analyse ultérieure, notamment la taille du génome, sa structure et sa composition générale.
Le processus d’assemblage du génome est comme assembler un puzzle sans avoir une image ou des formes utiles comme guide. Lorsqu’on est confronté aux premiers morceaux du génome, appelés lectures brutes, il y a rarement des indications où va un morceau particulier, ou même comment il est orienté. Chaque morceau est codé de la même manière avec les quatre bases d’ADN, abrégées A, C, G et T. Le génome pourrait être compacté en un seul gros chromosome ou divisé en plusieurs. Il n’y a également aucune garantie que certaines des lectures brutes ne sont pas des doublons de la même zone génomique, ce qui signifierait qu’il existe moins d’informations uniques qu’il n’y paraît à première vue.
Une connaissance générale de la structure du génome est inestimable lors du démarrage du processus d’assemblage. Bien que les génomes entre les espèces soient nettement différents, il existe certaines règles que des types de génomes spécifiques suivent, et celles-ci peuvent être appliquées lors de l’assemblage d’un autre génome du même type. Par exemple, si un certain type d’organisme a toujours un modèle particulier à proximité de l’endroit où se trouvent les gènes, on pourrait raisonnablement supposer, lors de l’assemblage d’un autre organisme similaire, que la découverte d’un tel modèle signalerait un gène à proximité. À plus grande échelle, de nombreux génomes bactériens ont un chromosome circulaire, il serait donc raisonnable d’anticiper que toutes les lectures brutes d’une nouvelle bactérie s’emboîteraient d’une manière ou d’une autre sur un chromosome. L’application des connaissances génétiques générales de cette manière peut permettre à un chercheur de commencer à comprendre potentiellement des centaines de milliers de données.
Il existe de nombreuses autres méthodes qui peuvent être utilisées dans l’assemblage du génome, y compris les prédictions informatiques et les comparaisons manuelles. Quelle que soit la méthode, l’assemblage du génome est un travail important qui est souvent long et difficile. Puisqu’il est à la base de nombreuses analyses génétiques futures sur un organisme, il y a peu de marge d’erreur.