Techniques de comparaison des génomes
De Wikipedia, l'encyclopédie encyclopedia
L’alignement de séquences est une pratique fondamentale pour de nombreuses applications de biologie comme la découverte de gènes et l’analyse phylogénétique.
Une nouvelle discipline est également née de la connaissance de ces séquences complètes de chromosomes, la génomique comparative. Il est maintenant possible de comparer deux organismes vivants à l’échelle de leur génome, de déterminer les gènes qu’ils ont en commun ou qui leur sont propres. Dans le contexte de l’identification sélective de gènes correspondant à des cibles thérapeutiques, en comparant par exemple une bactérie pathogène et une proche cousine non-pathogène, on peut essayer de repérer les gènes impliqués dans la virulence de la souche infectieuse. Ce nouveau domaine d’étude, traite les différents aspects de ce nouveau champ de la connaissance et s’appuie à la fois sur les concepts de la biologie que sur des outils issus de la chimie, de la physique et de l’informatique.
L’accélération du séquençage, permise en particulier par l'automatisation des méthodes d’analyse, nécessite un soutien de plus en plus important des technologies de l’informatique. Dans un premier stade, celui-ci est indispensable pour permettre l’assemblage de la « base de données » que constituent les milliers ou millions de fragments de génome. L’informatique est un outil incontournable pour extraire et analyser l’information contenue dans ces gigabases (1 Gbase =10^9 nucléotides) de séquence. Le volume des données à traiter est considérable. En 2002 les banques de séquences rassemblaient plus de 10^11 nucléotides et leur taille augmente exponentiellement. Les techniques d'accélération des comparaisons de génomes sont l’un des axes les plus importants en bio-informatique qui a pour but de remédier à un problème scientifique posé par la biologie « faire ressortir les régions ou séquences homologues ou différentes » ; on parle donc des méthodes de comparaison de deux ou plusieurs séquences de macromolécules biologiques (ADN, ARN ou protéines) les unes par rapport aux autres.