Remove ads
De Wikipédia, l'encyclopédie libre
Un gène essentiel est un gène supposé crucial pour la survie de l'organisme qui le contient. Cependant, le fait d'être essentiel est largement dépendant des conditions dans lesquelles ledit organisme vit. Par exemple, un gène nécessaire à la digestion de l'amidon n'est essentiel seulement si l'amidon est la seule source d'énergie disponible. Ces derniers temps, des expériences méthodiques ont été conduites afin d'identifier ces gènes absolument nécessaires pour maintenir l'organisme en vie, pourvu que tous les nutriments soient disponibles[1]. De telles expériences ont mené les chercheurs à conclure que le nombre absolu de gènes nécessaires pour la viabilité des bactéries était de l'ordre de 250-300. Ces gènes essentiels codent des protéines permettant la maintenance du métabolisme central, la réplication de l'ADN, la traduction des gènes en protéines, la maintenance d'une structure cellulaire basique et le contrôle des processus de transport vers l'intérieur et vers l'extérieur de la cellule. La plupart des gènes dans un organisme ne sont pas essentiels mais lui confèrent des avantages sélectifs et une meilleure fitness.
Deux stratégies ont été mises en œuvre afin d'identifier les gènes essentiels à l'échelle du génome entier : la suppression ciblée de certains gènes et la mutagénèse aléatoire en utilisant des transposons. Dans le premier cas, des gènes individuels (ou cadres de lecture ouverts ou ORFs en anglais) sont complètement effacés du génome de façon systématique. Dans le cas de la mutagénèse, des transposons sont insérés de façon aléatoire dans le plus de positions possible dans le génome afin de désactiver les gènes ciblés (voir figure ci-dessous). Les mutants d'insertion qui sont encore capables de survivre ou de croître ne se situent pas dans des gènes essentiels. Un résumé des sélections issues de ces expériences est disponible dans le tableau ci-après[1],[2].
Organisme | Mutagénèse | Méthode | Mesure | ORFs | Non essentiels | Essentiels | % d'essentiels | Notes | Références |
---|---|---|---|---|---|---|---|---|---|
Mycoplasma genitalium/pneumoniae | Aléatoire | Population | Séquençage | 482 | 130 | 265-350 | 55-73 | [3] | |
Mycoplasma genitalium | Aléatoire | Clones | Séquençage | 482 | 100 | 382 | 79 | b, c | [4] |
Staphylococcus aureus WCUH29 | Aléatoire | Clones | Séquençage | 2 600 | n/d | 168 | n/d | b, c | [5] |
Staphylococcus aureus RNA4220 | Aléatoire | Clones | Séquençage | 2 892 | n/d | 658 | 23 | [6] | |
Haemophilius influenzae Rd | Aléatoire | Population | Footprint | 1 657 | 602 | 670 | 40 | [7] | |
Streptococcus pneumoniae Rx-1 | Ciblée | Clones | Formation de colonies | 2 043 | 234 | 113 | n/d | c | [8] |
Streptococcus pneumoniae D39 | Ciblée | Clones | Formation de colonies | 2 043 | 560 | 133 | n/d | c | [9] |
Streptococcus pyogenes 5448 | Aléatoire | Transposon | Séquençage de transposon | 1 865 | n/d | 227 | 12 | [10] | |
Streptococcus pyogenes NZ131 | Aléatoire | Transposon | Séquençage de transposon | 1 700 | n/d | 241 | 14 | [10] | |
Streptococcus sanguinis SK36 | Ciblée | Clones | Formation de colonies | 2 270 | 2 052 | 218 | 10 | a | [11],[12] |
Mycobacterium tuberculosis H37Rv | Aléatoire | Population | Puce à ADN | 3 989 | 2 567 | 614 | 15 | [13] | |
Mycobacterium tuberculosis | Aléatoire | Transposon | n/d | 3 989 | n/d | 401 | 10 | [14] | |
Mycobacterium tuberculosis H37Rv | Aléatoire | Transposon | Séquençage Nouvelle Génération | 3 989 | n/d | 774 | 19 | [15],[16] | |
Mycobacterium tuberculosis H37Rv | Aléatoire | Transposon | Séquençage Nouvelle Génération | 3 989 | 3 364 | 625 | 16 | h, i | [17] |
Mycobacterium tuberculosis | Informatique | Informatique | 3 989 | n/d | 283 | 7 | [18] | ||
Bacillus subtilis 168 | Ciblée | Clones | Formation de colonies | 4 105 | 3 830 | 261 | 7 | a, d, g | [19],[20] |
Escherichia coli K-12 MG1655 | Aléatoire | Population | Footprint | 4 308 | 3 126 | 620 | 14 | [21] | |
Escherichia coli K-12 MG1655 | Ciblée | Clones | Formation de colonies | 4 308 | 2 001 | n/d | n/d | a, e | [22] |
Escherichia coli K-12 MG1655 | Ciblée | Clones | Formation de colonies | 4 390 | 3 985 | 303 | 7 | a | [23] |
Pseudomonas aeruginosa PAO1 | Aléatoire | Clones | Séquençage | 5 570 | 4 783 | 678 | 12 | a | [24] |
Porphyromonas gingivalis | Aléatoire | Transposon | Séquençage | 1 990 | 1 527 | 463 | 23 | [25] | |
Pseudomonas aeruginosa PA14 | Aléatoire | Clones | Séquençage | 5 688 | 4 469 | 335 | 6 | a, f | [26] |
Salmonella typhimurium | Aléatoire | Clones | Séquençage | 4 425 | n/d | 257 | ~11 | b, c | [27] |
Helicobacter pylori G27 | Aléatoire | Population | Puce à ADN | 1 576 | 1178 | 344 | 22 | [28] | |
Campylobacter jejuni | Aléatoire | Population | Puce à ADN | 1 654 | n/d | 195 | 12 | [29],[30] | |
Corynebacterium glutamicum | Aléatoire | Population | n/d | 3 002 | 2 352 | 650 | 22 | [31] | |
Francisella novicida | Aléatoire | Transposon | n/d | 1 719 | 1 327 | 392 | 23 | [32] | |
Mycoplasma pulmonis UAB CTIP | Aléatoire | Transposon | n/d | 782 | 472 | 310 | 40 | [33] | |
Vibrio cholerae N16961 | Aléatoire | Transposon | n/d | 3 890 | n/d | 779 | 20 | [34] | |
Salmonella typhi | Aléatoire | Transposon | n/d | 4 646 | n/d | 353 | 8 | [35] | |
Staphylococcus aureus | Aléatoire | Transposon | n/d | ~ 2 600 | n/d | 351 | 14 | [36] | |
Caulobacter crescentus | Aléatoire | Transposon | n/d | 3 767 | n/d | 480 | 13 | [37] | |
Neisseria meningitidis | Aléatoire | Transposon | n/d | 2 158 | n/d | 585 | 27 | [38] | |
Desulfovibrio alaskensis | Aléatoire | Transposon | Séquençage | 3 258 | 2 871 | 387 | 12 | [39] |
n/d = non disponible
Chez la levure bourgeonnante Saccharomyces cerevisiae, 15 à 20 % des gènes sont essentiels. Chez la levure à fission Schizosaccharomyces pombe, 4 836 suppressions hétérozygotes couvrant 98,4 % des 4 914 protéines codant des ORFs ont été construites. Parmi elles, 1 260 suppressions se sont avérées correspondre à des gènes essentiels[40].
Des tests similaires sont plus difficiles à mettre en place dans d'autres organismes pluricellulaires, y compris les mammifères (comme modèles pour les humains), pour des raisons techniques et du fait que leurs résultats soient plus difficilement exploitables. Cependant, plusieurs méthodes ont été développées pour le nématode Caenorhabditis elegans[41], la drosophile[42] et le poisson-zèbre[43] (voir tableau ci-dessous). Une étude récente portant sur 900 gènes de souris a permis de conclure que 42 % d'entre eux étaient essentiels bien que les gènes sélectionnés n'étaient pas représentatifs[44].
Des expériences de knock-out ne sont pas réalisables (d'un point de vue éthique) chez les humains. Néanmoins, des mutations naturelles ont permis d'identifier des mutations conduisant à une mort embryonnaire précoce ou tardive[45]. Il est à noter que beaucoup de gènes humains ne sont pas absolument essentiels pour la survie mais peuvent causer des maladies graves lorsqu'ils sont mutés. De telles mutations sont cataloguées dans la base de données OMIM (Online Mendelian Inheritance in Man, ou Héritage mendélien chez l'Homme en français). Dans leur analyse informatique de variations génétiques et de mutations chez 2 472 orthologues humains de gènes essentiels chez la souris, Georgi et ses collaborateurs ont sélectionné une population de gènes forte et purifiée avec des niveaux de variation de séquence comparativement réduits, indiquant que ces gènes humains sont également essentiels[46].
Même s'il peut être difficile de prouver qu'un gène humain est essentiel, il est possible de démontrer qu'un gène n'est pas essentiel ou ne cause même pas de maladie. Par exemple, le séquençage du génome de 2 636 citoyens islandais et le génotypage de 101 584 autres sujets a mis en évidence 8 041 individus ayant 1 gène complètement invalidé (à noter que ces personnes étaient homozygotes pour un gène non fonctionnel)[47]. Parmi ces derniers, on a estimé que 6 885 étaient homozygotes et 1 249 étaient des hétérozygotes composés (soit ayant les deux allèles d'un gène invalidé mais les deux ayant des mutations différentes). Chez ces individus, un total de 1 171 des 19 135 gènes humains (6,1 %, base de données RefSeq) étaient complètement invalidés. On en a conclu que ces 1 171 gènes étaient non essentiels chez l'humain — en tout cas, aucune des maladies associées n'a été diagnostiquée[47]. De la même façon, les séquences exomiques de 3 222 adultes britanniques d'origine pakistanaise avec un fort taux de consanguinité parentale ont révélé 1 111 génotypes homozygotes variants rares avec une perte prédite de la fonction d'un gène (KO, soit knock-out) chez 781 gènes[48]. Cette étude a trouvé une moyenne de 140 génotypes prédits comme KO (par individu), dont 16 hétérozygotes rares (fréquence allélique < 1 %), 0,34 homozygotes rares, 83,2 hétérozygotes communs et 40,6 homozygotes communs. Presque tous les génotypes KO homozygotes ont été trouvés au sein de segments autozygotes (94,9 %). Même si la plupart de ces individus n'avaient aucun problème de santé apparent lié à leur gènes défectueux, il est possible que des problèmes de santé mineurs soient trouvés après des examens plus poussés.
Un résumé des tests d'essentialité est disponible dans le tableau ci-dessous (basé principalement sur la Base de données des Gènes Essentiels, ou DEG en anglais)[49].
Organisme | Méthode | Gènes essentiels | Références |
---|---|---|---|
Arabidopsis thaliana | Insertion d'ADN-T | 777 | [50] |
Caenorhabditis elegans | Interférence d'ARN | 294 | [41] |
Danio rerio | Mutagénèse d'insertion | 288 | [43] |
Drosophila melanogaster | Mutagénèse d'insertion d'éléments mobiles | 339 | [42] |
Homo sapiens | Recherche bibliographique | 118 | [45] |
Homo sapiens | Test utilisant le complexe CRISPR/Cas 9 | 1 878 | [51] |
Homo sapiens | Test de piège génétique haploïde | ~ 2 000 | [52] |
Homo sapiens | Orthologues chez la souris | 2 472 | [46] |
Mus musculus | Recherche bibliographique | 2 114 | [53] |
Saccharomyces cerevisiae | Suppression d'un seul gène | 878 | [54] |
Saccharomyces cerevisiae | Suppression d'un seul gène | 1 105 | [55] |
Schizosaccharomyces pombe | Suppression d'un seul gène | 1 260 | [40] |
Des tests pour détecter des gènes essentiels ont été réalisés chez quelques virus. Par exemple, on a trouvé chez le Cytomégalovirus humain (CMV en anglais) 41 gènes essentiels, 88 gènes non essentiels et 27 ORFs particuliers (augmenting ORFs en anglais, sur un total de 150). La plupart des gènes essentiels et particuliers se trouvent dans la région centrale du génome viral, et les gènes non essentiels se concentrent généralement près des régions terminales[56].
En 2015, Tscharke et Dobson ont compilé un rapport général des gènes essentiels chez le virus Vaccinia (Vaccinia virus (en)) et ont assigné des rôles à chacun des 223 ORFs de la souche WR et des 207 ORFs de la souche de Copenhague, en testant leur rôle dans la réplication en culture cellulaire. Selon leur définition, un gène est considéré comme essentiel (soit ayant un rôle dans la culture cellulaire) si sa suppression entraîne une baisse supérieure à dix fois moins de titre dans une courbe de croissance, qu'elle soit en une ou en plusieurs étapes. Tous les gènes impliqués dans la production de virions emballés, la formation d'une queue d'actine et la libération de virions dans l'espace extracellulaire ont aussi été considérés comme essentiels. Les gènes influençant la taille de la culture dans la plaque mais pas la réplication ont été définis comme non essentiels. En appliquant ces définitions, 93 gènes se sont avérés nécessaires à la réplication du virus Vaccinia en culture cellulaire, alors que 108 et 94 ORFs, issus respectivement des souches WR et de Copenhague, se sont avérés comme non essentiels. Les virus du type Vaccinia avec des suppressions dans l'une ou l'autre des régions terminales du génome se sont comportés comme prévu, c'est-à-dire en ne présentant que des défauts légers ou nocifs à leur hôte. En revanche, des suppressions aux deux extrémités du génome du virus Vaccinia souche WR ont causé des défauts dévastateurs dans la croissance de toutes les lignées cellulaires testées. Cela démontre que les suppressions d'un seul gène ne sont pas suffisantes pour jauger de l'essentialité des gènes et que le virus Vaccinia contient plus de gènes essentiels que ce que les auteurs pensaient à l'origine[57].
Parmi les bactériophages testés pour l'essentialité des gènes se trouve le mycobactériophage Giles. Au moins 35 des 78 gènes prédits chez Giles (soit 45 %) ne sont pas essentiels pour la croissance lytique. 20 gènes se sont avérés être essentiels[58]. Un problème majeur que l'on rencontre chez les phages est qu'une majorité de leurs gènes reste fonctionnellement inconnue, c'est-à-dire que leur rôle est difficile à déterminer. Un test effectué chez le phage SPN3US infectant Salmonella enterica a révélé 13 gènes essentiels, bien que le nombre exact de gènes réellement testés reste flou[59].
La majorité des gènes rencontrés chez un organisme ne sont ni absolument essentiels, ni absolument non essentiels. Idéalement, leur contribution à la croissance cellulaire ou de l'organisme doit être mesurée de façon quantitative, par exemple en déterminant de combien le taux de croissance est réduit chez un mutant comparé à la souche sauvage (qui peut avoir été choisie de façon arbitraire au sein d'une population). Par exemple, une suppression particulière d'un gène peut réduire le taux de croissance (ou le taux de fertilité ou d'autres caractéristiques) de 90 % chez la souche sauvage.
Deux gènes sont dits létaux synthétiques si aucun d'eux n'est essentiel mais lorsque les deux sont mutés, cette double mutation est létale. Des études ont estimé que le nombre de gènes létaux synthétiques pourrait être de l'ordre de 45 % du nombre total de gènes[60],[61].
Beaucoup de gènes apparaissent comme essentiels seulement dans certaines conditions. Par exemple, si l'acide aminé lysine est disponible pour une cellule, n'importe quel gène nécessaire à la production de lysine n'est pas essentiel. Cependant, lorsqu'il n'y a pas de lysine disponible, les gènes codant les enzymes permettant la biosynthèse de la lysine deviennent alors essentiels, puisqu'aucune synthèse de protéine n'est possible sans la lysine[2].
Chez Streptococcus pneumoniae, il apparaît que 147 gènes sont requis pour la croissance et la survie dans la salive[62], soit plus que les 113-133 qui avaient été trouvés dans des études précédentes.
La suppression d'un gène peut conduire à la mort ou bien à un blocage de la division cellulaire. Alors que le dernier cas peut impliquer une survie pour un certain temps, s'il n'y a pas de division cellulaire, la cellule finira tout de même par mourir. De la même façon, au lieu d'un blocage de la division cellulaire, une cellule peut avoir une croissance ou un métabolisme réduits, allant d'un état proche de l'indétectable à la presque normalité. Ainsi, il existe un gradient entre l'état essentiel d'un gène jusqu'à la complète non-essentialité, dépendant de nouveau des conditions du milieu. Certains auteurs ont ainsi fait la distinction entre des gènes essentiels pour la survie et des gènes essentiels pour la fitness[2].
De même que les conditions environnementales, le contexte génétique peut déterminer l'essentialité d'un gène ; un gène peut être essentiel chez un individu mais pas chez un autre, selon son contexte génétique. Les duplications géniques constituent une explication possible (voir plus bas).
Les gènes impliqués dans certaines voies de biosynthèse, comme la synthèse des acides aminés, peuvent devenir non essentiels si un ou plusieurs acides aminés sont fournis par un autre organisme[63]. C'est la principale raison pour laquelle beaucoup bactéries parasites ou endosymbiotiques ont perdu beaucoup de gènes (par exemple chez les Chlamydia). De tels gènes peuvent être essentiels mais présents seulement dans l'organisme-hôte. Par exemple, Chlamydia trachomatis ne peut pas synthétiser les purines et les pyrimidines de novo (à partir de molécules simples comme des sucres et des acides aminés), et donc cette bactérie est dépendante des gènes codant la biosynthèse des nucléotides présents dans le génome de l'hôte[64].
Beaucoup de gènes sont dupliqués au sein d'un génome. De telles duplications (paralogues) transforment souvent des gènes essentiels en gènes non essentiels parce que le duplicata peut remplacer la copie originale. Par exemple, le gène codant l'enzyme aspartokinase est essentiel chez E. coli. Par contre, le génome de B. subtilis contient trois copies de ce gène, aucun n'étant essentiel si pris séparément des autres. Cependant, la suppression des trois gènes à la fois est létale. Dans de tels cas, l'essentialité d'un gène ou d'un groupe de paralogues peut souvent être prédite en se basant sur l'essentialité d'un seul gène essentiel chez une espèce différente. Chez la levure, peu de gènes essentiels sont dupliqués dans le génome (8,5 %), mais seulement 1 % des gènes essentiels ont un homologue dans le génome de la levure[55].
Chez le nématode C. elegans, les gènes non essentiels sont largement surreprésentés au sein des duplicatas, probablement parce que la duplication des gènes essentiels cause une surexpression de ces gènes. Woods et ses collaborateurs ont trouvé que les gènes non essentiels sont plus souvent dupliqués avec succès (de manière fixe) et perdus comparés aux gènes essentiels. A contrario, les gènes essentiels sont moins souvent dupliqués, mais à la suite d'une duplication réussie ils se maintiennent sur de plus longues périodes[65].
Chez les bactéries, il apparaît que les gènes essentiels sont plus conservés que les gènes non essentiels[66], bien que la corrélation ne soit pas très forte. Par exemple, seulement 34 % des gènes essentiels de B. subtilis possèdent des orthologues fiables chez tous les Firmicutes, et 61 % des gènes essentiels d'E. coli possèdent des orthologues fiables chez toutes les Gammaproteobacteria[67]. En 2005, Fang et ses collaborateurs définissent les gènes persistants comme les gènes présents dans plus de 85 % des génomes du clade[67]. Ils ont trouvé 475 et 611 de ces gènes chez B. subtilis et E. coli, respectivement. De plus, ils ont classifié les gènes en cinq classes selon leur persistance et leur essentialité : les gènes persistants, les gènes essentiels, les gènes non essentiels persistants (276 chez B. subtilis, 409 chez E. coli), les gènes essentiels non persistants (73 chez B. subtilis, 33 chez E. coli) et enfin les gènes non essentiels non persistants (3 558 chez B. subtilis, 3525 chez E. coli). Fang et ses collaborateurs ont trouvé 257 gènes persistants qui existent à la fois chez B. subtilis (pour les FIrmicutes) et chez E. coli (pour les Gammaproteobacteria). Parmi ces gènes, respectivement 144 et 139 ont été préalablement identifiés comme essentiels respectivement chez B. subtilis et E. coli, et respectivement 25 et 18 de ces 257 gènes ne sont pas présents respectivement chez les 475 et 611 gènes persistants de B. subtilis et d'E. coli. Tous les autres membres de ce groupe de gènes sont non essentiels persistants[67].
Chez les eucaryotes, 83 % des orthologues similaires un à un chez Schizosaccharomyces pombe et Saccharomyces cerevisiae ont une essentialité conservée, c'est-à-dire qu'ils sont non essentiels chez les deux espèces ou bien essentiels chez les deux espèces. Les 17 % de gènes restants sont non essentiels chez une espèce et essentiels chez l'autre[68]. Cela est assez notable, sachant que les espèces S. pombe et S. cerevisiae sont séparées par environ 400 millions d'années d'évolution[69].
En général, les gènes fortement conservés, et donc plus anciens (soient les gènes avec une origine phylogénétique plus antérieure), ont plus tendance à être essentiels que les gènes plus jeunes, et ce même s'ils ont été dupliqués[70].
L'étude expérimentale des gènes essentiels est limitée par le fait que, par définition, l'inactivation d'un gène essentiel est létale pour l'organisme. Par conséquent, ils ne peuvent pas être simplement supprimés ou mutés pour analyser les phénotypes résultants (ce que l'on fait habituellement en génétique).
Cependant, il existe des circonstances dans lesquelles les gènes essentiels peuvent être manipulés. Chez les organismes diploïdes, seulement une seule copie fonctionnelle de certains gènes essentiels peut être nécessaire (haplosuffisance), avec l'hétérozygote montrant un phénotype instructif. Certains gènes essentiels peuvent tolérer des mutations qui sont délétères, mais pas complètement létales puisqu'elles ne répriment pas totalement la fonction du gène.
Des analyses informatiques peuvent mettre en évidence beaucoup de propriétés des protéines sans les analyser expérimentalement, par exemple en s'intéressant aux protéines homologues, une fonction ou une structure homologues, etc. (voir également la section Prédire les gènes essentiels). Les produits des gènes essentiels peuvent aussi être étudiés lorsqu'ils sont exprimés chez d'autres organismes ou bien purifiés et étudiés in vitro.
Les gènes conditionnellement essentiels sont plus faciles à étudier. Des variants thermosensibles de gènes essentiels ont été identifiés, dont les produits de traduction perdent leur fonction lorsqu'ils sont soumis à de fortes températures, et ainsi ne montrent un phénotype qu'à de telles températures[71].
Comme les tests pour les gènes essentiels sont répétés dans des laboratoires indépendants, ils résultent souvent en des listes de gènes différentes. Par exemple, des tests chez E. coli ont engendré de 300 à 600 (environ) gènes essentiels (voir Tableau 1). De telles différences sont d'autant plus prononcées lorsque des souches différentes de bactéries sont utilisées (voir Figure 2). L'explication la plus fréquente est que les conditions expérimentales sont différentes, ou que la nature de la mutation pourrait être différente (par exemple, une suppression complète d'un gène versus un mutant issu d'un transposon). En particulier, les tests avec transposons sont difficiles à reproduire, étant donné qu'un transposon peut s'insérer sur plusieurs positions différentes au sein d'un même gène. Les insertions au niveau de l'extrémité 3' d'un gène essentiel pourrait résulter en un phénotype non létal (ou aucun phénotype du tout) et ainsi ne pas être reconnu comme tel. Cela peut mener à des annotations erronées (dans ce cas, des faux négatifs)[72].
Les tests visant à identifier les gènes essentiels impliqués dans la leucémie myéloïde chronique au sein de la lignée cellulaire K562 et réalisés avec ces deux méthodes n'ont montré qu'un chevauchement limité. À un taux de 10 % de faux positifs, il y avait environ 4 500 gènes identifiés dans le test Cas9 contre environ 3 100 dans le test ARNsh, avec seulement1 200 gènes identifiés dans les deux cas[73].
Des organismes différents possèdent des gènes essentiels différents. Par exemple, B. subtilis possède 271 gènes essentiels[19]. Environ la moitié (150) des gènes orthologues chez E. coli sont également des gènes essentiels. Quelque 67 autres gènes sont également essentiels chez E. coli ne sont pas essentiels chez B. subtilis, alors que 86 gènes essentiels chez E. coli n'ont aucun orthologue chez B. subtilis[23].
Chez Mycoplasma genitalium, environ 18 gènes sont essentiels et ne le sont pas chez Mycoplasma bovis[74].
Les gènes essentiels peuvent être prédits par l'informatique. Néanmoins, la plupart des méthodes utilisent des données expérimentales (training sets en anglais) dans une certaine mesure. Chen et ses collaborateurs[75] ont déterminé quatre critères pour sélectionner des training sets pour faire de telles prédictions :
Ils ont également trouvé que la taille du training set doit être d'au moins 10 % du nombre total de gènes afin d'obtenir des prédictions justes. Voici quelques approches pour prédire les gènes essentiels.
Peu de temps après que les premiers génomes (ceux d'Haemophilius influenzae et de Mycoplasma genitalium) ont été disponibles, Mushegian et ses collaborateurs[76] ont tenté de prédire le nombre de gènes essentiels en se basant sur les gènes les plus communs chez ces deux espèces. Ils ont présumé que seuls les gènes essentiels doivent être conservés sur la longue distance d'évolution qui sépare ces deux bactéries. Cette étude a identifié environ 250 gènes essentiels candidats. Comme plus de génomes sont devenus disponibles, le nombre de gènes essentiels prédits a continué à baisser car de plus en plus de génomes ont partagé de moins en moins de gènes. En conséquence, il a été conclu que le « cœur universel conservé » contenait moins de 40 gènes[77],[78]. Cependant, ce set de gènes conservés n'est pas identiques au set de gènes essentiels car des espèces différentes dépendent de gènes essentiels différents.
Une approche similaire a été utilisée pour prédire des gènes essentiels dans le pangénome d'espèces de Brucella. 42 génomes complets de Brucella ainsi qu'un total de 132 143 gènes codant des protéines ont été utilisés pour prédire 1 252 gènes essentiels potentiels, dérivés du noyau du génome par comparaison avec une base de données de gènes essentiels chez des procaryotes[79].
Enfin, Hua et ses collaborateurs ont utilisé un apprentissage automatique (machine learning en anglais) afin de prédire des gènes essentiels chez 25 espèces bactériennes[80].
En 2015, Liu et ses collaborateurs[81] ont utilisé l'indice de Hurst, un paramètre caractéristique pour décrire une corrélation à long rayon d'action dans l'ADN, afin de prédire des gènes essentiels. Dans 31 des 33 génomes bactériens, les valeurs des indices de Hurst des gènes essentiels ont été significativement supérieures au set full-gène correspondant, alors que les valeurs des indices de Hurst des gènes non essentiels sont restées inchangées ou ont augmenté seulement de façon très légère.
On pensait également que les gènes essentiels pouvait être prédits à partir des génomes minimaux, qui contiennent seulement les gènes essentiels avec lesquels les organismes sont supposément censés pouvoir survivre. Le problème posé ici est que les génomes les plus petits se retrouvent chez les espèces parasites (ou symbiotiques) capables de survivre avec un contenu réduit de gènes car ils sont approvisionnés en nutriments par leur hôte. Par exemple, le génome de Hodgkinia cicadicola, un symbionte des cigales, est l'un des plus petits qui existent, avec seulement 144 kb d'ADN codant seulement 188 gènes[82]. Comme d'autres symbiontes, Hodgkinia reçoit la plupart de ses nutriments de son hôte, ainsi ses gènes ne sont pas nécessairement essentiels.
Les gènes essentiels peuvent aussi être prédits au sein de génomes complètement séquencés par le biais de la reconstruction métabolique, soit en reconstruisant le métabolisme complet du contenu génique et en identifiant ensuite les gènes et voies métaboliques qui ont été trouvés comme étant essentiels chez d'autres espèces. Cependant, cette méthode peut être compromise par des protéines dont on ne connaît pas la fonction. De plus, beaucoup d'organismes possèdent des voies métaboliques de secours ou alternatives qui doivent être prises en compte (voir Figure 2). La modélisation métabolique a également été utilisée par Basler en 2015 afin de développer une méthode pour prédire les gènes métaboliques essentiels[83]. La Flux Balance Analysis, une méthode de modélisation métabolique, a récemment été utilisée pour prédire des gènes essentiels dans le métabolisme du carcinome à cellules claires des cellules rénales[84].
De façon surprenante, il existe un nombre significatif de gènes essentiels n'ayant pas de fonction connue. Par exemple, parmi les 385 gènes essentiels candidats chez M. genitalium, aucune fonction n'a pu être attribuée à 95 gènes[4], bien que ce nombre ait été revu à 75 en 2011[78].
Bien que la plupart des gènes essentiels codent des protéines, beaucoup de protéines essentielles n'ont qu'un seul domaine. Cela a été utilisé pour identifier des domaines protéiques essentiels. Goodacre et ses collaborateurs ont identifié des centaines de domaines à fonction inconnue (eDUFS en anglais)[87]. Lu et ses collaborateurs[88] ont présenté une approche similaire et ont identifié 3 450 domaines qui sont essentiels dans au moins une des espèces microbiennes.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.