Un gène essentiel est un gène supposé crucial pour la survie de l'organisme qui le contient. Cependant, le fait d'être essentiel est largement dépendant des conditions dans lesquelles ledit organisme vit. Par exemple, un gène nécessaire à la digestion de l'amidon n'est essentiel seulement si l'amidon est la seule source d'énergie disponible. Ces derniers temps, des expériences méthodiques ont été conduites afin d'identifier ces gènes absolument nécessaires pour maintenir l'organisme en vie, pourvu que tous les nutriments soient disponibles[1]. De telles expériences ont mené les chercheurs à conclure que le nombre absolu de gènes nécessaires pour la viabilité des bactéries était de l'ordre de 250-300. Ces gènes essentiels codent des protéines permettant la maintenance du métabolisme central, la réplication de l'ADN, la traduction des gènes en protéines, la maintenance d'une structure cellulaire basique et le contrôle des processus de transport vers l'intérieur et vers l'extérieur de la cellule. La plupart des gènes dans un organisme ne sont pas essentiels mais lui confèrent des avantages sélectifs et une meilleure fitness.
Deux stratégies ont été mises en œuvre afin d'identifier les gènes essentiels à l'échelle du génome entier: la suppression ciblée de certains gènes et la mutagénèse aléatoire en utilisant des transposons. Dans le premier cas, des gènes individuels (ou cadres de lecture ouverts ou ORFs en anglais) sont complètement effacés du génome de façon systématique. Dans le cas de la mutagénèse, des transposons sont insérés de façon aléatoire dans le plus de positions possible dans le génome afin de désactiver les gènes ciblés (voir figure ci-dessous). Les mutants d'insertion qui sont encore capables de survivre ou de croître ne se situent pas dans des gènes essentiels. Un résumé des sélections issues de ces expériences est disponible dans le tableau ci-après[1],[2].
Mutagénèse: ciblée correspond à des suppressions de gènes, aléatoire correspond à des insertions de transposons
Méthode: clones indique des suppressions uniques de gènes, population indique l'ensemble du type de mutagénèse, par exemple celle qui utilise des transposons. Les gènes essentiels issus des sélections de populations incluent les gènes essentiels pour la fitness.
ORFs: nombre de cadres de lecture ouverts dans le génome.
Notes: a = collection de mutants disponible; b = méthode de dépistage directe du caractère essentiel d'un gène (par exemple via un ARN anti-sens) qui ne donne pas d'information à propos des gènes non essentiels; c = seul une partie du jeu de données est disponible; d = inclut l'essentialité prédite du gène et la compilation de données issues d'études publiées à propos de gènes essentiels; e = projet en cours; f = déduit par comparaison de deux jeux de données de gènes essentiels obtenus de façon indépendante chez les souches de P. aeruginosa PA14 et PAO1; g = le résultat originel de 271 gènes essentiels a été réévalué à 261, avec 31 gènes supposés comme essentiels et ne l'étant finalement pas alors que 20 nouveaux gènes essentiels ont été décrits depuis; h = comptage de gènes avec des domaines essentiels, ainsi que ceux menant à des déficiences dans la croissance lorsque supposés comme essentiels, et ceux avantageant la croissance lorsque supposés comme non essentiels; i = impliquant une banque de mutant complètement saturée de 14 réplicats avec 84,3% de sites possibles d'insertion avec au moins une insertion de transposon.
Chez la levure bourgeonnante Saccharomyces cerevisiae, 15 à 20% des gènes sont essentiels. Chez la levure à fission Schizosaccharomyces pombe, 4 836 suppressions hétérozygotes couvrant 98,4% des 4 914 protéines codant des ORFs ont été construites. Parmi elles, 1 260 suppressions se sont avérées correspondre à des gènes essentiels[40].
Des tests similaires sont plus difficiles à mettre en place dans d'autres organismes pluricellulaires, y compris les mammifères (comme modèles pour les humains), pour des raisons techniques et du fait que leurs résultats soient plus difficilement exploitables. Cependant, plusieurs méthodes ont été développées pour le nématode Caenorhabditis elegans[41], la drosophile[42] et le poisson-zèbre[43] (voir tableau ci-dessous). Une étude récente portant sur 900 gènes de souris a permis de conclure que 42% d'entre eux étaient essentiels bien que les gènes sélectionnés n'étaient pas représentatifs[44].
Des expériences de knock-out ne sont pas réalisables (d'un point de vue éthique) chez les humains. Néanmoins, des mutations naturelles ont permis d'identifier des mutations conduisant à une mort embryonnaire précoce ou tardive[45]. Il est à noter que beaucoup de gènes humains ne sont pas absolument essentiels pour la survie mais peuvent causer des maladies graves lorsqu'ils sont mutés. De telles mutations sont cataloguées dans la base de données OMIM (Online Mendelian Inheritance in Man, ou Héritage mendélien chez l'Homme en français). Dans leur analyse informatique de variations génétiques et de mutations chez 2 472 orthologues humains de gènes essentiels chez la souris, Georgi et ses collaborateurs ont sélectionné une population de gènes forte et purifiée avec des niveaux de variation de séquence comparativement réduits, indiquant que ces gènes humains sont également essentiels[46].
Même s'il peut être difficile de prouver qu'un gène humain est essentiel, il est possible de démontrer qu'un gène n'est pas essentiel ou ne cause même pas de maladie. Par exemple, le séquençage du génome de 2 636 citoyens islandais et le génotypage de 101 584 autres sujets a mis en évidence 8 041 individus ayant 1 gène complètement invalidé (à noter que ces personnes étaient homozygotes pour un gène non fonctionnel)[47]. Parmi ces derniers, on a estimé que 6 885 étaient homozygotes et 1 249 étaient des hétérozygotes composés (soit ayant les deux allèles d'un gène invalidé mais les deux ayant des mutations différentes). Chez ces individus, un total de 1 171 des 19 135 gènes humains (6,1%, base de données RefSeq) étaient complètement invalidés. On en a conclu que ces 1 171 gènes étaient non essentiels chez l'humain — en tout cas, aucune des maladies associées n'a été diagnostiquée[47]. De la même façon, les séquences exomiques de 3 222 adultes britanniques d'origine pakistanaise avec un fort taux de consanguinité parentale ont révélé 1 111 génotypes homozygotes variants rares avec une perte prédite de la fonction d'un gène (KO, soit knock-out) chez 781 gènes[48]. Cette étude a trouvé une moyenne de 140 génotypes prédits comme KO (par individu), dont 16 hétérozygotes rares (fréquence allélique < 1%), 0,34 homozygotes rares, 83,2 hétérozygotes communs et 40,6 homozygotes communs. Presque tous les génotypes KO homozygotes ont été trouvés au sein de segments autozygotes (94,9%). Même si la plupart de ces individus n'avaient aucun problème de santé apparent lié à leur gènes défectueux, il est possible que des problèmes de santé mineurs soient trouvés après des examens plus poussés.
Un résumé des tests d'essentialité est disponible dans le tableau ci-dessous (basé principalement sur la Base de données des Gènes Essentiels, ou DEG en anglais)[49].
Davantage d’informations Organisme, Méthode ...
Tableau 2. Tests d'essentialité chez divers eucaryotes.
Des tests pour détecter des gènes essentiels ont été réalisés chez quelques virus. Par exemple, on a trouvé chez le Cytomégalovirus humain (CMV en anglais) 41 gènes essentiels, 88 gènes non essentiels et 27 ORFs particuliers (augmenting ORFs en anglais, sur un total de 150). La plupart des gènes essentiels et particuliers se trouvent dans la région centrale du génome viral, et les gènes non essentiels se concentrent généralement près des régions terminales[56].
En 2015, Tscharke et Dobson ont compilé un rapport général des gènes essentiels chez le virus Vaccinia (Vaccinia virus(en)) et ont assigné des rôles à chacun des 223 ORFs de la souche WR et des 207 ORFs de la souche de Copenhague, en testant leur rôle dans la réplication en culture cellulaire. Selon leur définition, un gène est considéré comme essentiel (soit ayant un rôle dans la culture cellulaire) si sa suppression entraîne une baisse supérieure à dix fois moins de titre dans une courbe de croissance, qu'elle soit en une ou en plusieurs étapes. Tous les gènes impliqués dans la production de virions emballés, la formation d'une queue d'actine et la libération de virions dans l'espace extracellulaire ont aussi été considérés comme essentiels. Les gènes influençant la taille de la culture dans la plaque mais pas la réplication ont été définis comme non essentiels. En appliquant ces définitions, 93 gènes se sont avérés nécessaires à la réplication du virus Vaccinia en culture cellulaire, alors que 108 et 94 ORFs, issus respectivement des souches WR et de Copenhague, se sont avérés comme non essentiels. Les virus du type Vaccinia avec des suppressions dans l'une ou l'autre des régions terminales du génome se sont comportés comme prévu, c'est-à-dire en ne présentant que des défauts légers ou nocifs à leur hôte. En revanche, des suppressions aux deux extrémités du génome du virus Vaccinia souche WR ont causé des défauts dévastateurs dans la croissance de toutes les lignées cellulaires testées. Cela démontre que les suppressions d'un seul gène ne sont pas suffisantes pour jauger de l'essentialité des gènes et que le virus Vaccinia contient plus de gènes essentiels que ce que les auteurs pensaient à l'origine[57].
Parmi les bactériophages testés pour l'essentialité des gènes se trouve le mycobactériophage Giles. Au moins 35 des 78 gènes prédits chez Giles (soit 45%) ne sont pas essentiels pour la croissance lytique. 20 gènes se sont avérés être essentiels[58]. Un problème majeur que l'on rencontre chez les phages est qu'une majorité de leurs gènes reste fonctionnellement inconnue, c'est-à-dire que leur rôle est difficile à déterminer. Un test effectué chez le phage SPN3US infectant Salmonella enterica a révélé 13 gènes essentiels, bien que le nombre exact de gènes réellement testés reste flou[59].
La majorité des gènes rencontrés chez un organisme ne sont ni absolument essentiels, ni absolument non essentiels. Idéalement, leur contribution à la croissance cellulaire ou de l'organisme doit être mesurée de façon quantitative, par exemple en déterminant de combien le taux de croissance est réduit chez un mutant comparé à la souche sauvage (qui peut avoir été choisie de façon arbitraire au sein d'une population). Par exemple, une suppression particulière d'un gène peut réduire le taux de croissance (ou le taux de fertilité ou d'autres caractéristiques) de 90% chez la souche sauvage.
Deux gènes sont dits létaux synthétiques si aucun d'eux n'est essentiel mais lorsque les deux sont mutés, cette double mutation est létale. Des études ont estimé que le nombre de gènes létaux synthétiques pourrait être de l'ordre de 45% du nombre total de gènes[60],[61].
Beaucoup de gènes apparaissent comme essentiels seulement dans certaines conditions. Par exemple, si l'acide aminé lysine est disponible pour une cellule, n'importe quel gène nécessaire à la production de lysine n'est pas essentiel. Cependant, lorsqu'il n'y a pas de lysine disponible, les gènes codant les enzymes permettant la biosynthèse de la lysine deviennent alors essentiels, puisqu'aucune synthèse de protéine n'est possible sans la lysine[2].
Chez Streptococcus pneumoniae, il apparaît que 147 gènes sont requis pour la croissance et la survie dans la salive[62], soit plus que les 113-133 qui avaient été trouvés dans des études précédentes.
La suppression d'un gène peut conduire à la mort ou bien à un blocage de la division cellulaire. Alors que le dernier cas peut impliquer une survie pour un certain temps, s'il n'y a pas de division cellulaire, la cellule finira tout de même par mourir. De la même façon, au lieu d'un blocage de la division cellulaire, une cellule peut avoir une croissance ou un métabolisme réduits, allant d'un état proche de l'indétectable à la presque normalité. Ainsi, il existe un gradient entre l'état essentiel d'un gène jusqu'à la complète non-essentialité, dépendant de nouveau des conditions du milieu. Certains auteurs ont ainsi fait la distinction entre des gènes essentiels pour la survie et des gènes essentiels pour la fitness[2].
Rôle du contexte génétique
De même que les conditions environnementales, le contexte génétique peut déterminer l'essentialité d'un gène; un gène peut être essentiel chez un individu mais pas chez un autre, selon son contexte génétique. Les duplications géniques constituent une explication possible (voir plus bas).
Dépendance métabolique
Les gènes impliqués dans certaines voies de biosynthèse, comme la synthèse des acides aminés, peuvent devenir non essentiels si un ou plusieurs acides aminés sont fournis par un autre organisme[63]. C'est la principale raison pour laquelle beaucoup bactéries parasites ou endosymbiotiques ont perdu beaucoup de gènes (par exemple chez les Chlamydia). De tels gènes peuvent être essentiels mais présents seulement dans l'organisme-hôte. Par exemple, Chlamydia trachomatis ne peut pas synthétiser les purines et les pyrimidines de novo (à partir de molécules simples comme des sucres et des acides aminés), et donc cette bactérie est dépendante des gènes codant la biosynthèse des nucléotides présents dans le génome de l'hôte[64].
Beaucoup de gènes sont dupliqués au sein d'un génome. De telles duplications (paralogues) transforment souvent des gènes essentiels en gènes non essentiels parce que le duplicata peut remplacer la copie originale. Par exemple, le gène codant l'enzyme aspartokinase est essentiel chez E. coli. Par contre, le génome de B. subtilis contient trois copies de ce gène, aucun n'étant essentiel si pris séparément des autres. Cependant, la suppression des trois gènes à la fois est létale. Dans de tels cas, l'essentialité d'un gène ou d'un groupe de paralogues peut souvent être prédite en se basant sur l'essentialité d'un seul gène essentiel chez une espèce différente. Chez la levure, peu de gènes essentiels sont dupliqués dans le génome (8,5%), mais seulement 1% des gènes essentiels ont un homologue dans le génome de la levure[55].
Chez le nématode C. elegans, les gènes non essentiels sont largement surreprésentés au sein des duplicatas, probablement parce que la duplication des gènes essentiels cause une surexpression de ces gènes. Woods et ses collaborateurs ont trouvé que les gènes non essentiels sont plus souvent dupliqués avec succès (de manière fixe) et perdus comparés aux gènes essentiels. A contrario, les gènes essentiels sont moins souvent dupliqués, mais à la suite d'une duplication réussie ils se maintiennent sur de plus longues périodes[65].
Chez les bactéries, il apparaît que les gènes essentiels sont plus conservés que les gènes non essentiels[66], bien que la corrélation ne soit pas très forte. Par exemple, seulement 34% des gènes essentiels de B. subtilis possèdent des orthologues fiables chez tous les Firmicutes, et 61% des gènes essentiels d'E. coli possèdent des orthologues fiables chez toutes les Gammaproteobacteria[67]. En 2005, Fang et ses collaborateurs définissent les gènes persistants comme les gènes présents dans plus de 85% des génomes du clade[67]. Ils ont trouvé 475 et 611 de ces gènes chez B. subtilis et E. coli, respectivement. De plus, ils ont classifié les gènes en cinq classes selon leur persistance et leur essentialité: les gènes persistants, les gènes essentiels, les gènes non essentiels persistants (276 chez B. subtilis, 409 chez E. coli), les gènes essentiels non persistants (73 chez B. subtilis, 33 chez E. coli) et enfin les gènes non essentiels non persistants (3 558 chez B. subtilis, 3525 chez E. coli). Fang et ses collaborateurs ont trouvé 257 gènes persistants qui existent à la fois chez B. subtilis (pour les FIrmicutes) et chez E. coli (pour les Gammaproteobacteria). Parmi ces gènes, respectivement 144 et 139 ont été préalablement identifiés comme essentiels respectivement chez B. subtilis et E. coli, et respectivement 25 et 18 de ces 257 gènes ne sont pas présents respectivement chez les 475 et 611 gènes persistants de B. subtilis et d'E. coli. Tous les autres membres de ce groupe de gènes sont non essentiels persistants[67].
Chez les eucaryotes, 83% des orthologues similaires un à un chez Schizosaccharomyces pombe et Saccharomyces cerevisiae ont une essentialité conservée, c'est-à-dire qu'ils sont non essentiels chez les deux espèces ou bien essentiels chez les deux espèces. Les 17% de gènes restants sont non essentiels chez une espèce et essentiels chez l'autre[68]. Cela est assez notable, sachant que les espèces S. pombe et S. cerevisiae sont séparées par environ 400 millions d'années d'évolution[69].
En général, les gènes fortement conservés, et donc plus anciens (soient les gènes avec une origine phylogénétique plus antérieure), ont plus tendance à être essentiels que les gènes plus jeunes, et ce même s'ils ont été dupliqués[70].
L'étude expérimentale des gènes essentiels est limitée par le fait que, par définition, l'inactivation d'un gène essentiel est létale pour l'organisme. Par conséquent, ils ne peuvent pas être simplement supprimés ou mutés pour analyser les phénotypes résultants (ce que l'on fait habituellement en génétique).
Cependant, il existe des circonstances dans lesquelles les gènes essentiels peuvent être manipulés. Chez les organismes diploïdes, seulement une seule copie fonctionnelle de certains gènes essentiels peut être nécessaire (haplosuffisance), avec l'hétérozygote montrant un phénotype instructif. Certains gènes essentiels peuvent tolérer des mutations qui sont délétères, mais pas complètement létales puisqu'elles ne répriment pas totalement la fonction du gène.
Des analyses informatiques peuvent mettre en évidence beaucoup de propriétés des protéines sans les analyser expérimentalement, par exemple en s'intéressant aux protéines homologues, une fonction ou une structure homologues, etc. (voir également la section Prédire les gènes essentiels). Les produits des gènes essentiels peuvent aussi être étudiés lorsqu'ils sont exprimés chez d'autres organismes ou bien purifiés et étudiés in vitro.
Les gènes conditionnellement essentiels sont plus faciles à étudier. Des variants thermosensibles de gènes essentiels ont été identifiés, dont les produits de traduction perdent leur fonction lorsqu'ils sont soumis à de fortes températures, et ainsi ne montrent un phénotype qu'à de telles températures[71].
Comme les tests pour les gènes essentiels sont répétés dans des laboratoires indépendants, ils résultent souvent en des listes de gènes différentes. Par exemple, des tests chez E. coli ont engendré de 300 à 600 (environ) gènes essentiels (voir Tableau 1). De telles différences sont d'autant plus prononcées lorsque des souches différentes de bactéries sont utilisées (voir Figure 2). L'explication la plus fréquente est que les conditions expérimentales sont différentes, ou que la nature de la mutation pourrait être différente (par exemple, une suppression complète d'un gène versus un mutant issu d'un transposon). En particulier, les tests avec transposons sont difficiles à reproduire, étant donné qu'un transposon peut s'insérer sur plusieurs positions différentes au sein d'un même gène. Les insertions au niveau de l'extrémité 3' d'un gène essentiel pourrait résulter en un phénotype non létal (ou aucun phénotype du tout) et ainsi ne pas être reconnu comme tel. Cela peut mener à des annotations erronées (dans ce cas, des faux négatifs)[72].
Comparaison des tests CRISPR/Cas9 et ARNi
Les tests visant à identifier les gènes essentiels impliqués dans la leucémie myéloïde chronique au sein de la lignée cellulaire K562 et réalisés avec ces deux méthodes n'ont montré qu'un chevauchement limité. À un taux de 10% de faux positifs, il y avait environ 4 500 gènes identifiés dans le test Cas9 contre environ 3 100 dans le test ARNsh, avec seulement1 200 gènes identifiés dans les deux cas[73].
Différent gènes sont essentiels chez différents organismes
Des organismes différents possèdent des gènes essentiels différents. Par exemple, B. subtilis possède 271 gènes essentiels[19]. Environ la moitié (150) des gènes orthologues chez E. coli sont également des gènes essentiels. Quelque 67 autres gènes sont également essentiels chez E. coli ne sont pas essentiels chez B. subtilis, alors que 86 gènes essentiels chez E. coli n'ont aucun orthologue chez B. subtilis[23].
Chez Mycoplasma genitalium, environ 18 gènes sont essentiels et ne le sont pas chez Mycoplasma bovis[74].
Les gènes essentiels peuvent être prédits par l'informatique. Néanmoins, la plupart des méthodes utilisent des données expérimentales (training sets en anglais) dans une certaine mesure. Chen et ses collaborateurs[75] ont déterminé quatre critères pour sélectionner des training sets pour faire de telles prédictions:
les gènes essentiels dans le training set sélectionné doivent être fiables;
les conditions de croissance dans lesquelles les gènes essentiels sont définis doivent être concordantes entre les training sets et les sets de prédiction;
les espèces utilisées dans les training sets doivent être étroitement apparentées à l'organisme d'étude;
les organismes utilisés dans les training sets et les sets de prédiction doivent montrer des phénotypes ou des modes de vie similaires.
Ils ont également trouvé que la taille du training set doit être d'au moins 10% du nombre total de gènes afin d'obtenir des prédictions justes. Voici quelques approches pour prédire les gènes essentiels.
La génomique comparative
Peu de temps après que les premiers génomes (ceux d'Haemophilius influenzae et de Mycoplasma genitalium) ont été disponibles, Mushegian et ses collaborateurs[76] ont tenté de prédire le nombre de gènes essentiels en se basant sur les gènes les plus communs chez ces deux espèces. Ils ont présumé que seuls les gènes essentiels doivent être conservés sur la longue distance d'évolution qui sépare ces deux bactéries. Cette étude a identifié environ 250 gènes essentiels candidats. Comme plus de génomes sont devenus disponibles, le nombre de gènes essentiels prédits a continué à baisser car de plus en plus de génomes ont partagé de moins en moins de gènes. En conséquence, il a été conclu que le «cœur universel conservé» contenait moins de 40 gènes[77],[78]. Cependant, ce set de gènes conservés n'est pas identiques au set de gènes essentiels car des espèces différentes dépendent de gènes essentiels différents.
Une approche similaire a été utilisée pour prédire des gènes essentiels dans le pangénome d'espèces de Brucella. 42 génomes complets de Brucella ainsi qu'un total de 132 143 gènes codant des protéines ont été utilisés pour prédire 1 252 gènes essentiels potentiels, dérivés du noyau du génome par comparaison avec une base de données de gènes essentiels chez des procaryotes[79].
Enfin, Hua et ses collaborateurs ont utilisé un apprentissage automatique (machine learning en anglais) afin de prédire des gènes essentiels chez 25 espèces bactériennes[80].
L'index de Hurst
En 2015, Liu et ses collaborateurs[81] ont utilisé l'indice de Hurst, un paramètre caractéristique pour décrire une corrélation à long rayon d'action dans l'ADN, afin de prédire des gènes essentiels. Dans 31 des 33 génomes bactériens, les valeurs des indices de Hurst des gènes essentiels ont été significativement supérieures au set full-gène correspondant, alors que les valeurs des indices de Hurst des gènes non essentiels sont restées inchangées ou ont augmenté seulement de façon très légère.
Génomes minimaux
On pensait également que les gènes essentiels pouvait être prédits à partir des génomes minimaux, qui contiennent seulement les gènes essentiels avec lesquels les organismes sont supposément censés pouvoir survivre. Le problème posé ici est que les génomes les plus petits se retrouvent chez les espèces parasites (ou symbiotiques) capables de survivre avec un contenu réduit de gènes car ils sont approvisionnés en nutriments par leur hôte. Par exemple, le génome de Hodgkinia cicadicola, un symbionte des cigales, est l'un des plus petits qui existent, avec seulement 144 kb d'ADN codant seulement 188 gènes[82]. Comme d'autres symbiontes, Hodgkinia reçoit la plupart de ses nutriments de son hôte, ainsi ses gènes ne sont pas nécessairement essentiels.
Modélisation métabolique
Les gènes essentiels peuvent aussi être prédits au sein de génomes complètement séquencés par le biais de la reconstruction métabolique, soit en reconstruisant le métabolisme complet du contenu génique et en identifiant ensuite les gènes et voies métaboliques qui ont été trouvés comme étant essentiels chez d'autres espèces. Cependant, cette méthode peut être compromise par des protéines dont on ne connaît pas la fonction. De plus, beaucoup d'organismes possèdent des voies métaboliques de secours ou alternatives qui doivent être prises en compte (voir Figure 2). La modélisation métabolique a également été utilisée par Basler en 2015 afin de développer une méthode pour prédire les gènes métaboliques essentiels[83]. La Flux Balance Analysis, une méthode de modélisation métabolique, a récemment été utilisée pour prédire des gènes essentiels dans le métabolisme du carcinome à cellules claires des cellules rénales[84].
Les gènes à fonction inconnue
De façon surprenante, il existe un nombre significatif de gènes essentiels n'ayant pas de fonction connue. Par exemple, parmi les 385 gènes essentiels candidats chez M. genitalium, aucune fonction n'a pu être attribuée à 95 gènes[4], bien que ce nombre ait été revu à 75 en 2011[78].
La méthode des ZUPLS: Song et ses collaborateurs ont présenté une méthode innovante pour prédire les gènes essentiels qui n'utilise que des caractéristiques séquentielles de type Z-curve et autres[85]. De telles caractéristiques peuvent être rapidement obtenues à partir des séquences ADN/acides aminés. Cependant, la fiabilité de cette méthode reste discutable.
Les serveurs de prédiction des gènes essentiels: En 2015, Guo et ses collaborateurs ont développé trois services en ligne afin de prédire des gènes essentiels au sein de génomes bactériens. Ces outils gratuitement accessibles peuvent s'appliquer aux séquences de gènes uniques dépourvus de fonctions attribuées, des gènes uniques avec des noms définis, et des génomes complets de souches bactériennes[86].
Bien que la plupart des gènes essentiels codent des protéines, beaucoup de protéines essentielles n'ont qu'un seul domaine. Cela a été utilisé pour identifier des domaines protéiques essentiels. Goodacre et ses collaborateurs ont identifié des centaines de domaines à fonction inconnue (eDUFS en anglais)[87]. Lu et ses collaborateurs[88] ont présenté une approche similaire et ont identifié 3 450 domaines qui sont essentiels dans au moins une des espèces microbiennes.
Svetlana Gerdes, Robert Edwards, Michael Kubal et Michael Fonstein, «Essential genes on metabolic maps», Current Opinion in Biotechnology, systems biology / Tissue and cell engineering, vol.17, no5, , p.448–456 (DOI10.1016/j.copbio.2006.08.006, lire en ligne, consulté le )
(en) Yinduo Ji, Barbara Zhang, Stephanie F. Van et Horn, «Identification of Critical Staphylococcal Genes Using Conditional Phenotypes Generated by Antisense RNA», Science, vol.293, no5538, , p.2266–2269 (ISSN0036-8075 et 1095-9203, PMID11567142, DOI10.1126/science.1063566, lire en ligne, consulté le )
(en) R. Allyn Forsyth, Robert J. Haselbeck, Kari L. Ohlsen et Robert T. Yamamoto, «A genome-wide strategy for the identification of essential genes in Staphylococcus aureus», Molecular Microbiology, vol.43, no6, , p.1387–1400 (ISSN1365-2958, DOI10.1046/j.1365-2958.2002.02832.x, lire en ligne, consulté le )
(en) Brian J. Akerley, Eric J. Rubin, Veronica L. Novick et Kensey Amaya, «A genome-scale analysis for identification of genes required for growth or survival of Haemophilus influenzae», Proceedings of the National Academy of Sciences, vol.99, no2, , p.966–971 (ISSN0027-8424 et 1091-6490, PMID11805338, PMCIDPMC117414, DOI10.1073/pnas.012602299, lire en ligne, consulté le )
Jane A. Thanassi, Sandra L. Hartman‐Neumann, Thomas J. Dougherty et Brian A. Dougherty, «Identification of 113 conserved essential genes using a high‐throughput gene disruption system in Streptococcus pneumoniae», Nucleic Acids Research, vol.30, no14, , p.3152–3162 (ISSN0305-1048, DOI10.1093/nar/gkf418, lire en ligne, consulté le )
Jae-Hoon Song, Kwan Soo Ko, Ji-Young Lee et Jin Yang Baek, «Identification of essential genes in Streptococcus pneumoniae by allelic replacement mutagenesis», Molecules and Cells, vol.19, no3, , p.365–374 (ISSN1016-8478, PMID15995353, lire en ligne, consulté le )
(en) G. Lamichhane, J. S. Freundlich, S. Ekins et N. Wickramaratne, «Essential Metabolites of Mycobacterium tuberculosis and Their Mimics», mBio, vol.2, no1, , e00301–10–e00301-10 (ISSN2150-7511, DOI10.1128/mbio.00301-10, lire en ligne, consulté le )
Jennifer E. Griffin, Jeffrey D. Gawronski, Michael A. DeJesus et Thomas R. Ioerger, «High-Resolution Phenotypic Profiling Defines Genes Essential for Mycobacterial Growth and Cholesterol Catabolism», PLOS Pathogens, vol.7, no9, , e1002251 (ISSN1553-7374, PMID21980284, PMCIDPMC3182942, DOI10.1371/journal.ppat.1002251, lire en ligne, consulté le )
(en) Jarukit E. Long, Michael DeJesus, Doyle Ward et Richard E. Baker, Gene Essentiality, Humana Press, New York, NY, (DOI10.1007/978-1-4939-2398-4_6, lire en ligne), p.79–95
(en) Michael A. DeJesus, Elias R. Gerrick, Weizhen Xu et Sae Woong Park, «Comprehensive Essentiality Analysis of the Mycobacterium tuberculosis Genome via Saturating Transposon Mutagenesis», mBio, vol.8, no1, , e02133–16 (ISSN2150-7511, PMID28096490, PMCIDPMC5241402, DOI10.1128/mBio.02133-16, lire en ligne, consulté le )
(en) Fabian M. Commichau, Nico Pietack et Jörg Stülke, «Essential genes in Bacillus subtilis: a re-evaluation after ten years», Molecular BioSystems, vol.9, no6, (ISSN1742-2051, DOI10.1039/C3MB25595F, lire en ligne, consulté le )
(en) J.a. Hutcherson, H. Gogeneni, D. Yoder-Himes et E.l. Hendrickson, «Comparison of inherently essential genes of Porphyromonas gingivalis identified in two transposon-sequencing libraries», Molecular Oral Microbiology, vol.31, no4, , p.354–364 (ISSN2041-1014, PMID26358096, PMCIDPMC4788587, DOI10.1111/omi.12135, lire en ligne, consulté le )
(en) Nicole T. Liberati, Jonathan M. Urbach, Sachiko Miyata et Daniel G. Lee, «An ordered, nonredundant library of Pseudomonas aeruginosa strain PA14 transposon insertion mutants», Proceedings of the National Academy of Sciences of the United States of America, vol.103, no8, , p.2833–2838 (ISSN0027-8424 et 1091-6490, PMID16477005, PMCIDPMC1413827, DOI10.1073/pnas.0511100103, lire en ligne, consulté le )
(en) Karin Knuth, Heide Niesalla, Christoph J. Hueck et Thilo M. Fuchs, «Large-scale identification of essential Salmonella genes by trapping lethal insertions», Molecular Microbiology, vol.51, no6, , p.1729–1744 (ISSN1365-2958, DOI10.1046/j.1365-2958.2003.03944.x, lire en ligne, consulté le )
(en) Martin Stahl et Alain Stintzi, «Identification of essential genes in C. jejuni genome highlights hyper-variable plasticity regions», Functional & Integrative Genomics, vol.11, no2, , p.241–257 (ISSN1438-793X et 1438-7948, DOI10.1007/s10142-011-0214-7, lire en ligne, consulté le )
(en) Larry A. Gallagher, Elizabeth Ramage, Michael A. Jacobs et Rajinder Kaul, «A comprehensive transposon mutant library of Francisella novicida, a bioweapon surrogate», Proceedings of the National Academy of Sciences, vol.104, no3, , p.1009–1014 (ISSN0027-8424 et 1091-6490, PMID17215359, PMCIDPMC1783355, DOI10.1073/pnas.0606713104, lire en ligne, consulté le )
(en) D. Ewen Cameron, Jonathan M. Urbach et John J. Mekalanos, «A defined transposon mutant library and its use in identifying motility genes in Vibrio cholerae», Proceedings of the National Academy of Sciences, vol.105, no25, , p.8736–8741 (ISSN0027-8424 et 1091-6490, PMID18574146, PMCIDPMC2438431, DOI10.1073/pnas.0803281105, lire en ligne, consulté le )
Roy R. Chaudhuri, Andrew G. Allen, Paul J. Owen et Gil Shalom, «Comprehensive identification of essential Staphylococcus aureus genes using Transposon-Mediated Differential Hybridisation (TMDH)», BMC Genomics, vol.10, , p.291 (ISSN1471-2164, PMID19570206, PMCIDPMC2721850, DOI10.1186/1471-2164-10-291, lire en ligne, consulté le )
Tom A. Mendum, Jane Newcombe, Ahmad A. Mannan et Andrzej M. Kierzek, «Interrogation of global mutagenesis data with a genome scale model of Neisseria meningitidis to assess gene fitness in vitro and in sera», Genome Biology, vol.12, , R127 (ISSN1474-760X, PMID22208880, PMCIDPMC3334622, DOI10.1186/gb-2011-12-12-r127, lire en ligne, consulté le )
(en) Jennifer V. Kuehl, Morgan N. Price, Jayashree Ray et Kelly M. Wetmore, «Functional Genomics with a Comprehensive Library of Transposon Mutants for the Sulfate-Reducing Bacterium Desulfovibrio alaskensis G20», mBio, vol.5, no3, , e01041–14 (ISSN2150-7511, PMID24865553, PMCIDPMC4045070, DOI10.1128/mBio.01041-14, lire en ligne, consulté le )
Dong-Uk Kim, Jacqueline Hayles, Dongsup Kim et Valerie Wood, «Analysis of a genome-wide set of gene deletions in the fission yeast Schizosaccharomyces pombe», Nature Biotechnology, vol.28, no6, , p.617–623 (PMID20473289, PMCIDPMC3962850, DOI10.1038/nbt.1628, lire en ligne)
(en) Ravi S. Kamath, Andrew G. Fraser, Yan Dong et Gino Poulin, «Systematic functional analysis of the Caenorhabditis elegans genome using RNAi», Nature, vol.421, no6920, , p.231–237 (ISSN0028-0836, DOI10.1038/nature01278, lire en ligne, consulté le )
A C Spradling, D Stern, A Beaton et E J Rhem, «The Berkeley Drosophila Genome Project gene disruption project: Single P-element insertions mutating 25% of vital Drosophila genes.», Genetics, vol.153, no1, , p.135–177 (ISSN0016-6731, PMID10471706, PMCIDPMC1460730, lire en ligne, consulté le )
(en) Adam Amsterdam, Robert M. Nissen, Zhaoxia Sun et Eric C. Swindell, «Identification of 315 genes essential for early zebrafish development», Proceedings of the National Academy of Sciences of the United States of America, vol.101, no35, , p.12792–12797 (ISSN0027-8424 et 1091-6490, PMID15256591, PMCIDPMC516474, DOI10.1073/pnas.0403929101, lire en ligne, consulté le )
(en) Patrick Sulem, Hannes Helgason, Asmundur Oddson et Hreinn Stefansson, «Identification of a large set of rare complete human knockouts», Nature Genetics, vol.47, no5, , p.448–452 (ISSN1061-4036, DOI10.1038/ng.3243, lire en ligne, consulté le )
Hao Luo, Yan Lin, Feng Gao et Chun-Ting Zhang, «DEG 10, an update of the database of essential genes that includes both protein-coding genes and noncoding genomic elements», Nucleic Acids Research, vol.42, noD1, , D574–D580 (ISSN0305-1048, PMID24243843, PMCIDPMC3965060, DOI10.1093/nar/gkt1131, lire en ligne, consulté le )
H. W. Mewes, D. Frishman, U. Güldener et G. Mannhaupt, «MIPS: a database for genomes and protein sequences», Nucleic Acids Research, vol.30, no1, , p.31–34 (ISSN0305-1048, DOI10.1093/nar/30.1.31, lire en ligne, consulté le )
(en) Guri Giaever, Angela M. Chu, Li Ni et Carla Connelly, «Functional profiling of the Saccharomyces cerevisiae genome», Nature, vol.418, no6896, , p.387–391 (ISSN0028-0836, DOI10.1038/nature00935, lire en ligne, consulté le )
Bianca M. Dobson et David C. Tscharke, «Redundancy complicates the definition of essential genes for vaccinia virus», Journal of General Virology, vol.96, no11, , p.3326–3337 (DOI10.1099/jgv.0.000266, lire en ligne, consulté le )
(en) Rebekah M. Dedrick, Laura J. Marinelli, Gerald L. Newton et Kit Pogliano, «Functional requirements for bacteriophage growth: gene essentiality and expression in mycobacteriophage Giles», Molecular Microbiology, vol.88, no3, , p.577–589 (ISSN1365-2958, PMID23560716, PMCIDPMC3641587, DOI10.1111/mmi.12210, lire en ligne, consulté le )
(en) Julie A. Thomas, Andrea Denisse Benítez Quintana, Martine A. Bosch et Adriana Coll De Peña, «Identification of Essential Genes in the Salmonella Phage SPN3US Reveals Novel Insights into Giant Phage Head Structure and Assembly», Journal of Virology, vol.90, no22, , p.10284–10298 (ISSN0022-538X et 1098-5514, PMID27605673, PMCIDPMC5105663, DOI10.1128/JVI.01492-16, lire en ligne, consulté le )
(en) Csaba Pál, Balázs Papp, Martin J. Lercher et Péter Csermely, «Chance and necessity in the evolution of minimal metabolic networks», Nature, vol.440, no7084, , p.667–670 (ISSN0028-0836, DOI10.1038/nature04568, lire en ligne, consulté le )
(en) Hirotada Mori, Tomoya Baba, Katsushi Yokoyama et Rikiya Takeuchi, Gene Essentiality, Humana Press, New York, NY, (DOI10.1007/978-1-4939-2398-4_4, lire en ligne), p.45–65
(en) Graham Tipples et Grant McClarty, «The obligate intracellular bacterium Chlamydia trachomatis is auxotrophic for three of the four ribonucleoside triphosphates», Molecular Microbiology, vol.8, no6, , p.1105–1114 (ISSN1365-2958, DOI10.1111/j.1365-2958.1993.tb01655.x, lire en ligne, consulté le )
Gang Fang, Eduardo Rocha et Antoine Danchin, «How Essential Are Nonessential Genes?», Molecular Biology and Evolution, vol.22, no11, , p.2147–2156 (ISSN0737-4038, DOI10.1093/molbev/msi211, lire en ligne, consulté le )
Colm J. Ryan, Nevan J. Krogan, Pádraig Cunningham et Gerard Cagney, «All or Nothing: Protein Complexes Flip Essentiality between Distantly Related Eukaryotes», Genome Biology and Evolution, vol.5, no6, , p.1049–1059 (PMID23661563, PMCIDPMC3698920, DOI10.1093/gbe/evt074, lire en ligne, consulté le )
Wei-Hua Chen, Kalliopi Trachana, Martin J. Lercher et Peer Bork, «Younger Genes Are Less Likely to Be Essential than Older Genes, and Duplicates Are Less Likely to Be Essential than Singletons of the Same Age», Molecular Biology and Evolution, vol.29, no7, , p.1703–1706 (ISSN0737-4038, PMID22319151, PMCIDPMC3375470, DOI10.1093/molbev/mss014, lire en ligne, consulté le )
(en) David W. Morgens, Richard M. Deans, Amy Li et Michael C. Bassik, «Systematic comparison of CRISPR/Cas9 and RNAi screens for essential genes», Nature Biotechnology, vol.34, no6, , p.634–636 (ISSN1087-0156, PMID27159373, PMCIDPMC4900911, DOI10.1038/nbt.3567, lire en ligne, consulté le )
(en) A. R. Mushegian et E. V. Koonin, «A minimal gene set for cellular life derived by comparison of complete bacterial genomes», Proceedings of the National Academy of Sciences, vol.93, no19, , p.10268–10273 (ISSN0027-8424 et 1091-6490, PMID8816789, DOI10.1073/pnas.93.19.10268, lire en ligne, consulté le )
Mario Juhas, Leo Eberl et John I. Glass, «Essence of life: essential genes of minimal genomes», Trends in Cell Biology, vol.21, no10, , p.562–568 (DOI10.1016/j.tcb.2011.07.005, lire en ligne, consulté le )
(en) Xiaowen Yang, Yajie Li, Juan Zang et Yexia Li, «Analysis of pan-genome to identify the core genes and essential genes of Brucella spp.», Molecular Genetics and Genomics, vol.291, no2, , p.905–912 (ISSN1617-4615 et 1617-4623, DOI10.1007/s00438-015-1154-z, lire en ligne, consulté le )
(en) Kai Song, Tuopong Tong et Fang Wu, «Predicting essential genes in prokaryotic genomes using a linear method: ZUPLS», Integrative Biology, vol.6, no4, (ISSN1757-9708, DOI10.1039/C3IB40241J, lire en ligne, consulté le )