Loading AI tools
molécule présente dans toutes les cellules vivantes De Wikipédia, l'encyclopédie libre
L'acide désoxyribonucléique, ou ADN, est une macromolécule biologique présente dans presque toutes[alpha 1] les cellules ainsi que chez de nombreux virus. L'ADN contient toute l'information génétique, appelée génome, permettant le développement, le fonctionnement et la reproduction des êtres vivants. C'est un acide nucléique, au même titre que l'acide ribonucléique (ARN). Les acides nucléiques sont, avec les peptides et les glucides, l'une des trois grandes familles de biopolymères essentiels à toutes les formes de vie connues.
Les molécules d'ADN des cellules vivantes sont formées de deux brins antiparallèles enroulés l'un autour de l'autre pour former une double hélice. On dit que l'ADN est bicaténaire, ou double brin. Chacun de ces brins est un polymère appelé polynucléotide. Chaque monomère qui le constitue est un nucléotide, lequel est formé d'une base nucléique, ou base azotée — adénine (A), cytosine (C), guanine (G) ou thymine (T) — liée à un ose — ici, le désoxyribose — lui-même lié à un groupe phosphate. Les nucléotides polymérisés sont unis les uns aux autres par des liaisons covalentes entre le désoxyribose d'un nucléotide et le groupe phosphate du nucléotide suivant, formant ainsi une chaîne où alternent oses et phosphates, avec des bases nucléiques liées chacune à un ose. L'ordre dans lequel se succèdent les nucléotides le long d'un brin d'ADN constitue la séquence de ce brin. C'est cette séquence qui porte l'information génétique. Celle-ci est structurée en gènes, qui sont exprimés à travers la transcription en ARN. Ces ARN peuvent être non codants — ARN de transfert et ARN ribosomique notamment — ou bien codants : il s'agit dans ce cas d'ARN messagers, qui sont traduits en protéines par des ribosomes. La succession des bases nucléiques sur l'ADN détermine la succession des acides aminés qui constituent les protéines issues de ces gènes. La correspondance entre bases nucléiques et acides aminés est le code génétique. L'ensemble des gènes d'un organisme constitue son génome.
Les bases nucléiques d'un brin d'ADN peuvent interagir avec les bases nucléiques d'un autre brin d'ADN à travers des liaisons hydrogène, qui déterminent des règles d'appariement entre paires de bases : l'adénine et la thymine s'apparient au moyen de deux liaisons hydrogène, tandis que la guanine et la cytosine s'apparient au moyen de trois liaisons hydrogène. Normalement, l'adénine et la cytosine ne s'apparient pas, tout comme la guanine et la thymine. Lorsque les séquences des deux brins sont complémentaires, ces brins peuvent s'apparier en formant une structure bicaténaire hélicoïdale caractéristique qu'on appelle double hélice d'ADN. Cette double hélice est bien adaptée au stockage de l'information génétique : la chaîne oses-phosphates est résistante aux réactions de clivage ; de plus, l'information est dupliquée sur les deux brins de la double hélice, ce qui permet de réparer un brin endommagé à partir de l'autre brin resté intact ; enfin, cette information peut être copiée à travers un mécanisme appelé réplication de l'ADN au cours duquel une double hélice d'ADN est recopiée fidèlement en une autre double hélice portant la même information. C'est en particulier ce qui se passe lors de la division cellulaire : chaque molécule d'ADN de la cellule mère est répliquée en deux molécules d'ADN, chacune des deux cellules filles recevant ainsi un jeu complet de molécules d'ADN, chaque jeu étant identique à l'autre.
Dans les cellules, l'ADN est organisé en structures appelées chromosomes. Ces chromosomes ont pour fonction de rendre l'ADN plus compact à l'aide de protéines, notamment d'histones, qui forment, avec les acides nucléiques, une substance appelée chromatine. Les chromosomes participent également à la régulation de l'expression génétique en déterminant quelles parties de l'ADN doivent être transcrites en ARN. Chez les eucaryotes (animaux, plantes, champignons et protistes), l'ADN est essentiellement contenu dans le noyau des cellules, avec une fraction d'ADN présent également dans les mitochondries ainsi que, chez les plantes, dans les chloroplastes. Chez les procaryotes (bactéries et archées), l'ADN est contenu dans le cytoplasme. Chez les virus qui contiennent de l'ADN, celui-ci est stocké dans la capside. Quel que soit l'organisme considéré, l'ADN est transmis au cours de la reproduction : il joue le rôle de support de l'hérédité. La modification de la séquence des bases d'un gène peut conduire à une mutation génétique, laquelle peut, selon les cas, être bénéfique, sans conséquence ou néfaste pour l'organisme, voire incompatible avec sa survie. À titre d'exemple, la modification d'une seule base d'un seul gène — celui de la β-globine, une sous-unité protéique de l'hémoglobine A — du génotype humain est responsable de la drépanocytose, une maladie génétique parmi les plus répandues dans le monde.
L'ADN « permet de constituer, par un enroulement en double hélice, des molécules de grande taille (macromolécules) constituant ainsi les chromosomes qui codent l'information génétique des êtres vivants »[1].
L'ADN est un long polymère formé par la répétition de monomères appelés nucléotides. Le premier ADN a été identifié et isolé en 1869 à partir du noyau de globules blancs par le Suisse Friedrich Miescher. Sa structure en double hélice a été mise en évidence en 1953 par le Britannique Francis Crick et l'Américain James Watson à partir des données expérimentales obtenues par les Britanniques Rosalind Franklin (en fait volées à cette dernière) et Maurice Wilkins (qui les a communiquées). Cette structure, commune à toutes les espèces, est constituée de deux chaînes polynucléotidiques hélicoïdales enroulées l'une autour de l'autre autour d'un axe commun, avec un pas d'environ 3,4 nm pour un diamètre d'environ 2,0 nm[2]. Une autre étude mesurant les paramètres géométriques de l'ADN en solution donne un diamètre de 2,2 à 2,6 nm avec une longueur par nucléotide de 0,33 nm[3]. Bien que chaque nucléotide soit très petit, les molécules d'ADN peuvent en contenir des millions et atteindre des dimensions significatives. Par exemple, le chromosome 1 humain, qui est le plus grand des chromosomes humains, contient environ 220 millions de paires de bases[4] pour une longueur linéaire de plus de 7 cm.
Dans les cellules vivantes, l'ADN n'existe généralement pas sous forme monocaténaire (simple brin) mais plutôt sous forme bicaténaire (double brin) avec une configuration en double hélice[2]. Les monomères constituant chaque brin d'ADN comprennent un segment de la chaîne désoxyribose–phosphate et une base nucléique liée au désoxyribose. La molécule résultant de la liaison d'une base nucléique à un ose est appelée nucléoside ; l'adjonction d'un à trois groupes phosphate à l'ose d'un nucléoside forme un nucléotide. Un polymère résultant de la polymérisation de nucléotides est appelé polynucléotide. L'ADN et l'ARN sont des polynucléotides.
L'ose constituant le squelette de la molécule est le 2’-désoxyribose, dérivé du ribose. Ce pentose alterne avec des groupes phosphate en formant des liaisons phosphodiester entre les atomes no 3’ et no 5’ de résidus de désoxyribose adjacents[5]. En raison de cette liaison asymétrique, les brins d'ADN ont un sens. Dans une double hélice, les deux brins d'ADN sont de sens opposés : ils sont dits antiparallèles. Le sens 5’ vers 3’ d'un brin d'ADN désigne conventionnellement celui de l'extrémité portant un groupe phosphate –PO32− vers l'extrémité portant un groupe hydroxyle –OH ; c'est dans ce sens qu'est synthétisé l'ADN par les ADN polymérases. L'une des grandes différences entre l'ADN et l'ARN est le fait que l'ose du squelette de la molécule est le ribose dans le cas de l'ARN à la place du désoxyribose de l'ADN, ce qui joue sur la stabilité et la géométrie de cette macromolécule.
La double hélice d'ADN est stabilisée essentiellement par deux forces : les liaisons hydrogène entre nucléotides d'une part, et les interactions d'empilement des cycles aromatiques des bases nucléiques d'autre part[6]. Dans l'environnement aqueux de la cellule, les liaisons π conjuguées de ces bases s'alignent perpendiculairement à l'axe de la molécule d'ADN afin de minimiser leurs interactions avec la couche de solvatation et, par conséquent, leur enthalpie libre. Les quatre bases nucléiques constitutives de l'ADN sont l'adénine (A), la cytosine (C), la guanine (G) et la thymine (T), formant respectivement les quatre nucléotides suivants, composant l'ADN :
Les quatre bases nucléiques de l'ADN sont de deux types : d'une part les purines — adénine et guanine — qui sont des composés bicycliques comprenant deux hétérocycles à cinq et six atomes respectivement, d'autre part les pyrimidines — cytosine et thymine — qui sont des composés monocycliques comprenant un hétérocycle à six atomes. Les paires de bases de la double hélice d'ADN sont constituées d'une purine interagissant avec une pyrimidine à travers deux ou trois liaisons hydrogène :
En raison de cette complémentarité, toute l'information génétique portée par l'un des brins de la double hélice d'ADN est également portée à l'identique sur l'autre brin. C'est sur ce principe que repose le mécanisme de la réplication de l'ADN, et c'est sur cette complémentarité entre bases nucléiques que reposent toutes les fonctions biologiques de l'ADN dans les cellules vivantes.
L'ADN de certains virus, tels que les bactériophages PBS1 et PBS2 de Bacillus subtilis, le bactériophage φR1-37 de Yersinia[7] et le phage S6 de Staphylococcus[8], peut remplacer la thymine par l'uracile, une pyrimidine habituellement caractéristique de l'ARN mais normalement absente de l'ADN, où on ne le trouve que comme produit de dégradation de la cytosine.
Les bases nucléiques s'apparient le plus souvent en formant les paires de bases dites « Watson-Crick » correspondant à deux ou trois liaisons hydrogène établies entre deux bases orientées anti sur les résidus de désoxyribose. Des liaisons hydrogène peuvent cependant également s'établir entre une purine orientée syn et une pyrimidine orientée anti : il s'agit dans ce cas d'un appariement Hoogsteen. Une paire de bases Watson-Crick est susceptible d'établir en plus des liaisons hydrogène de type Hoogsteen avec une troisième base, ce qui permet la formation de structures à trois brins d'ADN.
Seul l'un des brins d'un segment d'ADN constituant un gène est transcrit en ARN fonctionnel, de sorte que les deux brins d'un gène ne sont pas équivalents : celui qui est transcrit en ARN fonctionnel est dit à polarité négative et porte une séquence antisens, tandis que le brin complémentaire — qui peut également être transcrit en ARN, mais non fonctionnel — est dit à polarité positive et porte une séquence d'ADN sens. Le brin transcrit en ARN fonctionnel est parfois appelé brin codant, mais cette désignation n'est valable qu'au sein d'un gène donné car les deux brins d'une même double hélice d'ADN peuvent coder différentes protéines ; on parle alors de brins ambisens[9],[10],[11]. Des ARN sont également transcrits à partir des séquences d'ADN sens — avec par conséquent des séquences d'ARN antisens — aussi bien chez les procaryotes que chez les eucaryotes, mais leur rôle biologique n'est pas entièrement élucidé[12] ; l'une des hypothèses est que ces ARN antisens pourraient intervenir dans la régulation de l'expression génétique à travers l'appariement entre séquences d'ARN sens et antisens, qui sont, par définition, complémentaires[13].
La distinction entre brins d'ADN sens et antisens est brouillée dans certains types de gènes chevauchants, assez rares chez les procaryotes et les eucaryotes mais plus fréquents sur les plasmides et chez les virus, dans lesquels les deux brins d'un même segment d'ADN encodent chacun un ARN fonctionnel différent[14]. Chez les bactéries, ce chevauchement peut jouer un rôle dans la régulation de la transcription des gènes[15] tandis que, chez les virus, les gènes chevauchants accroissent la quantité d'information génétique susceptible d'être encodée dans la petite taille du génome viral[16].
L'ADN relâché peut être linéaire, comme c'est typiquement le cas chez les eucaryotes, ou circulaire, comme chez les procaryotes. Il peut cependant être entortillé de façon parfois complexe sous l'effet de l'introduction de tours d'hélice supplémentaires ou de la suppression de tours dans la double hélice. La double hélice d'ADN ainsi surenroulée sous l'effet de supertours positifs ou négatifs présente un pas respectivement raccourci ou allongé par rapport à son état relâché : dans le premier cas, les bases nucléiques sont arrangées de façon plus compacte ; dans le second cas, elles interagissent au contraire de façon moins étroite[17]. In vivo, l'ADN présente généralement un surenroulement légèrement négatif sous l'effet d'enzymes appelées ADN topoisomérases[18], qui sont également indispensables pour relâcher les contraintes introduites dans l'ADN lors des processus qui impliquent que la double hélice soit déroulée pour en séparer les deux brins, comme c'est notamment le cas lors de la réplication de l'ADN et lors de sa transcription en ARN[19].
Les liaisons hydrogène n'étant pas des liaisons covalentes, elles peuvent être rompues assez facilement. Il est ainsi possible de séparer les deux brins de la double hélice d'ADN à la façon d'une fermeture à glissière aussi bien mécaniquement que sous l'effet d'une température élevée[20], ainsi qu'à faible salinité, à pH élevé — solution basique — et à pH faible — solution acide, qui altère cependant l'ADN notamment par dépurination. Cette séparation des brins d'un ADN bicaténaire pour former deux molécules d'ADN monocaténaires est appelé fusion ou dénaturation de l'ADN. La température à laquelle 50 % de l'ADN bicaténaire est dissocié en deux molécules d'ADN monocaténaire est dite température de fusion ou température de semi-dénaturation de l'ADN, notée Tm. On peut la mesurer en suivant l'absorption optique à 260 nm de la solution contenant l'ADN : cette absorption augmente au cours du désappariement, ce qu'on appelle hyperchromicité. Les molécules d'ADN monocaténaire libérées n'ont pas de configuration particulière, mais certaines structures tridimensionnelles sont plus stables que d'autres[21].
La stabilité d'une double hélice d'ADN dépend essentiellement du nombre de liaisons hydrogène à briser pour en séparer les deux brins. Par conséquent, plus la double hélice est longue, plus elle est stable. Cependant, les paires GC étant unies par trois liaisons hydrogène au lieu de deux pour les paires AT, la stabilité de molécules d'ADN bicaténaires de même longueur croît avec le nombre de paires GC qu'elles contiennent[22], mesuré par leur taux de GC. Cet effet est renforcé par le fait que les interactions d'empilement entre bases nucléiques d'un même brin d'ADN sont plus fortes entre résidus de guanine et de cytosine, de sorte que la séquence de l'ADN influence également sur sa stabilité. La température de fusion de l'ADN dépend par conséquent de la longueur des molécules, de leur taux de GC, de leur séquence, de leur concentration dans le solvant et de la force ionique dans celui-ci. En biologie moléculaire, on observe que les segments d'ADN bicaténaire dont la fonction implique que les deux brins de la double hélice puissent s'écarter facilement possèdent un taux élevé de paires AT[23] : c'est le cas de la séquence TATAAT typique de la boîte de Pribnow de certains promoteurs.
Les deux brins de l'ADN forment une double hélice dont le squelette détermine deux sillons. Ces sillons sont adjacents aux paires de bases et sont susceptibles de fournir un site de liaison pour diverses molécules. Les brins d'ADN n'étant pas positionnés de façon symétrique par rapport à l'axe de la double hélice, ils définissent deux sillons de taille inégale : le grand sillon est large de 1,2 nm tandis que le petit sillon est large de 0,6 nm[24]. Les bords des bases nucléiques sont plus accessibles dans le grand sillon que dans le petit sillon. Ainsi, les protéines, telles que les facteurs de transcription, qui se lient à des séquences spécifiques dans l'ADN bicaténaire le font généralement au niveau du grand sillon[25].
Il existe de nombreux conformères possibles de la double hélice d'ADN. Les formes classiques sont appelées ADN A, ADN B et ADN Z, dont seules les deux dernières ont été observées directement in vivo[5]. La conformation adoptée par l'ADN bicaténaire dépend de son degré d'hydratation, de sa séquence, de son taux de surenroulement, des modifications chimiques des bases qui le composent, de la nature et de la concentration des ions métalliques en solution, voire de la présence de polyamines[26].
Paramètre | ADN A | ADN B | ADN Z |
---|---|---|---|
Sens de l'hélice | droite | droite | gauche |
Motif répété | 1 bp | 1 bp | 2 bp |
Angle de rotation par paire de bases | 32,7° | 34,3° | 60°/2 |
Nombre de paires de bases par tour d'hélice | 11 | 10,5 | 12 |
Pas de l'hélice par tour | 2,82 nm | 3,32 nm | 4,56 nm |
Allongement de l'axe par paire de bases | 0,24 nm | 0,32 nm | 0,38 nm |
Diamètre | 2,3 nm | 2,0 nm | 1,8 nm |
Inclinaison des paires de bases sur l'axe de l'hélice | +19° | −1,2° | −9° |
Torsion moyenne (propeller twist) | +18° | +16° | 0° |
Orientation des substituants des bases sur les résidus osidiques | anti | anti | Pyrimidine : anti, Purine : syn |
Plissement / torsion endocyclique du furanose (Sugar pucker) | C3’-endo | C2’-endo | Cytosine : C2’-endo, Guanine : C3’-endo |
L'expression génétique de l'ADN dépend de la façon dont l'ADN est conditionné dans les chromosomes en une structure appelée chromatine. Certaines bases peuvent être modifiées lors de la formation de la chromatine, les résidus de cytosine des régions peu ou pas exprimées génétiquement étant généralement fortement méthylées, et ce majoritairement aux sites CpG. Les histones autour desquelles l'ADN est enroulé dans les chromatines peuvent également être modifiées de façon covalente. La chromatine elle-même peut être modifiée par des complexes de remodelage de la chromatine. De plus, la méthylation de l'ADN et la modification covalente des histones sont coordonnées pour affecter la chromatine et l'expression des gènes[45].
Ainsi, la méthylation des résidus de cytosine produit de la 5-méthylcytosine, qui joue un rôle important dans l'inactivation du chromosome X[46]. Le taux de méthylation varie entre organismes, le nématode Caenorhabditis elegans en étant totalement dépourvu tandis que les vertébrés ont environ 1 % de leur ADN contenant de la 5-méthylcytosine[47].
Les pyrimidines ont une structure moléculaire très similaire. Ainsi, la cytosine et la 5-méthylcytosine peuvent être désaminées pour produire l'uracile (qui n'est pas une base faisant partie du code de l'ADN) et la thymine, respectivement. La réaction de désamination pourrait par conséquent favoriser les mutations génétiques[48],[49].
Il existe également d'autres bases modifiées dans l'ADN, résultant par exemple de la méthylation de résidus d'adénine chez les bactéries[50] mais également chez des nématodes (Caenorhabditis elegans[51]), des algues vertes (Chlamydomonas[52]) et des drosophiles[53]. La 5-hydroxyméthylcytosine est un dérivé de la cytosine particulièrement abondant dans le cerveau des mammifères[54]. Des organismes tels que les flagellés Diplonema et Euglena et le genre Kinetoplastida, contiennent par ailleurs une pyrimidine glycosylée issue de l'uracile et appelée base J[55],[56] ; cette base modifiée agit comme signal de terminaison de transcription pour l'ARN polymérase II[57],[58]. Un certain nombre de protéines qui se lient spécifiquement à la base J ont été identifiées[59],[60],[61].
L'ADN peut être endommagé par un grand nombre de mutagènes qui modifient sa séquence. Ces mutagènes comprennent les oxydants, les alkylants, les rayonnements électromagnétiques énergétiques tels que les ultraviolets et les rayons X et gamma, ainsi que les particules subatomiques des rayonnements ionisants tels que ceux résultant de la radioactivité voire des rayons cosmiques. Le type de dommages produits dépend du type de mutagène. Ainsi, les rayons ultraviolets sont susceptibles d'endommager l'ADN en produisant des dimères de pyrimidine en établissant des liaisons entre bases adjacentes d'un même brin d'ADN[63]. Les oxydants tels que les radicaux libres ou le peroxyde d'hydrogène produisent plusieurs types de dommages, comme des modifications de bases, notamment de la guanosine, et des cassures de la structure bicaténaire[64]. Une cellule humaine typique contient environ 150 000 bases endommagées par un oxydant[65]. Parmi ces lésions dues à des oxydants, les plus dangereuses sont les ruptures bicaténaires parce que ce sont les plus difficiles à réparer et qu'elles sont susceptibles de produire des mutations ponctuelles, des insertions et des délétions au sein de la séquence d'ADN, ainsi que des translocations chromosomiques[66]. Ces mutations sont susceptibles de provoquer des cancers. Les altérations naturelles de l'ADN, qui résultent par exemple de processus cellulaires produisant des dérivés réactifs de l'oxygène, sont assez fréquentes. Bien que les mécanismes de réparation de l'ADN résorbent l'essentiel de ces lésions, certaines d'entre elles ne sont pas réparées et s'accumulent au fil du temps dans les tissus postmitotiques des mammifères. L'accumulation de telles lésions non réparées semble être une importante cause sous-jacente du vieillissement[67],[68].
De nombreux mutagènes s'insèrent dans l'espace entre deux paires de bases adjacentes selon un mode qu'on appelle intercalation. La plupart des intercalations sont le fait de composés aromatiques et de molécules planes, telles que le bromure d'éthidium, les acridines, la daunorubicine ou la doxorubicine. Les bases doivent s'écarter afin de permettre l'insertion du composé d'intercalation, ce qui provoque une distorsion de la double hélice par désenroulement partiel. Ceci bloque à la fois la transcription et la réplication de l'ADN, entraînant cytotoxicité et mutations[69]. En conséquence, les composés d'intercalation peuvent être cancérogènes et, dans le cas du thalidomide, tératogènes[70]. D'autres composés tels que le benzo[a]pyrène diol époxyde et l'aflatoxine forment avec l'ADN des adduits qui provoquent des erreurs lors de la réplication[71]. Cependant, en raison de leur aptitude à bloquer la transcription et la réplication de l'ADN, d'autres toxines semblables sont également utilisées en chimiothérapie contre les cellules à prolifération rapide[72].
L'ADN se trouve essentiellement au sein de chromosomes, généralement linéaires chez les eucaryotes et circulaires chez les procaryotes. Chez ces derniers, il peut également se trouver en dehors des chromosomes, au sein de plasmides. L'ensemble de l'ADN d'une cellule constitue son génome. Le génome humain représente environ trois milliards de paires de bases distribués dans 46 chromosomes[73]. L'information contenue dans le génome est portée par des segments d'ADN formant les gènes. L'information génétique est transmise grâce aux règles spécifiques d'appariement des bases dites appariement Watson-Crick : les deux seules paires de bases normalement permises sont l'adénine avec la thymine et la guanine avec la cytosine. Ces règles d'appariement sont sous-jacentes aux différents processus à l'œuvre dans les fonctions biologiques de l'ADN :
Lorsqu'une cellule se divise, elle doit répliquer l'ADN portant son génome afin que les deux cellules filles héritent de la même information génétique que la cellule mère. La double hélice de l'ADN fournit un mécanisme de réplication simple : les deux brins sont déroulés pour être séparés et chacun des deux brins sert de modèle pour recréer un brin à la séquence complémentaire par appariement entre bases nucléiques, ce qui permet de reconstituer deux hélices d'ADN bicaténaire identiques l'une à l'autre. Ce processus est catalysé par un ensemble d'enzymes parmi lesquelles les ADN polymérases sont celles qui complémentent les brins d'ADN déroulées pour reconstruire les deux brins complémentaires. Comme ces ADN polymérases ne peuvent polymériser l'ADN que dans le sens 5' vers 3', différents mécanismes interviennent pour copier les brins antiparallèles de la double hélice[74] :
L'ADN du génome est organisé et compacté selon un processus appelé condensation de l'ADN afin de pouvoir se loger dans l'espace restreint d'une cellule. Chez les eucaryotes, l'ADN est localisé essentiellement dans le noyau, avec une petite fraction également dans les mitochondries et, chez les plantes, dans les chloroplastes. Chez les procaryotes, l'ADN se trouve au sein d'une structure irrégulière du cytoplasme appelée nucléoïde[76]. L'information génétique du génome est organisée au sein de gènes, et l'ensemble complet de cette information est appelé génotype. Un gène est une fraction de l'ADN qui influence une caractéristique particulière de l'organisme et constitue de ce fait un élément de l'hérédité. Il contient un cadre de lecture ouvert qui peut être transcrit en ARN, ainsi que des séquences de régulation de l'expression génétique telles que les promoteurs et les amplificateurs qui en contrôlent la transcription.
Chez la plupart des espèces, seule une petite fraction du génome encode des protéines. Ainsi, environ 1,5 % du génome humain est constitué d'exons codant des protéines, tandis que plus de 50 % de l'ADN humain est constitué de séquences répétées non codantes[77] ; le reste de l'ADN code différents types d'ARN tels que des ARN de transfert et des ARN ribosomiques. La présence d'une telle quantité d'ADN non codant dans le génome des eucaryotes ainsi que la grande variabilité de la taille du génome des différents organismes — taille qui n'a aucun rapport avec la complexité des organismes correspondants — est une question connue depuis les débuts de la biologie moléculaire et souvent appelée paradoxe de la valeur C, cette « valeur C » désignant, chez les organismes diploïdes, la taille du génome, et un multiple de cette taille chez les polyploïdes[78]. Cependant, certaines séquences d'ADN qui n'encodent pas de protéines peuvent coder des molécules d'ARN fonctionnelles intervenant dans la régulation de l'expression génétique[79].
Certaines séquences d'ADN non codantes jouent un rôle structurel dans les chromosomes. Les télomères et les centromères contiennent généralement peu de gènes mais contribuent significativement aux fonctions biologiques et à la stabilité mécanique des chromosomes[39],[80]. Une fraction significative de l'ADN non codant est constituée de pseudogènes, qui sont des copies de gènes rendues inactives à la suite de mutations[81]. Ces séquences ne sont généralement que des fossiles moléculaires mais peuvent parfois servir de matière première génétique pour la création de nouveaux gènes à travers des processus de duplication génétique et de divergence évolutive[82].
L'expression génétique consiste à convertir le génotype d'un organisme en phénotype, c'est-à-dire en un ensemble de caractéristiques propres à cet organisme. Ce processus est influencé par divers stimuli extérieurs et comprend les trois grandes étapes suivantes :
Notons qu'un même ADN peut à deux étapes du développement d'un organisme s'exprimer (en raison de répresseurs et dérépresseurs différents) de façons très dissemblables, l'exemple le plus connu étant celui de la chenille et du papillon, morphologiquement très éloignés.
L'information génétique codée par la séquence des nucléotides des gènes de l'ADN peut être copiée sur un acide nucléique différent de l'ADN et appelé ARN. Cet ARN est structurellement très semblable à une molécule d'ADN monocaténaire mais en diffère par la nature de l'ose de ses nucléotides — l'ARN contient du ribose là où l'ADN contient du désoxyribose — ainsi que par l'une de ses bases nucléiques — la thymine de l'ADN y est remplacée par l'uracile.
La transcription de l'ADN en ARN est un processus complexe dont l'élucidation fut une avancée majeure de la biologie moléculaire au cours de la seconde moitié du XXe siècle. Elle est étroitement régulée, notamment par des protéines appelées facteurs de transcription qui, en réponse à des hormones par exemple, permettent la transcription de gènes cibles : c'est par exemple le cas des hormones sexuelles telles que les œstrogènes, la progestérone et la testostérone.
L'ARN issu de la transcription de l'ADN peut être non codant ou codant. Dans le premier cas, il possède une fonction physiologique propre dans la cellule ; dans le second cas, il s'agit d'un ARN messager, qui sert à transporter l'information génétique contenue dans l'ADN vers les ribosomes, qui organisent le décodage de cette information à l'aide de l'ARN de transfert. Ces ARN de transfert sont liés à un acide aminé parmi les 22 acides aminés protéinogènes et possèdent chacun un groupe de trois bases nucléiques consécutives appelées anticodon. Les trois bases de ces anticodons peuvent s'apparier à trois bases consécutives de l'ARN messager, ce triplet de bases formant un codon complémentaire de l'anticodon de l'ARN de transfert. La complémentarité du codon de l'ARN messager et de l'anticodon de l'ARN de transfert repose sur des règles d'appariement de type Watson-Crick régissant la structure secondaire des ADN bicaténaires.
La correspondance entre les 64 codons possibles et les 22 acides aminés protéinogènes est appelée code génétique. Ce code est matérialisé par les différents ARN de transfert réalisant physiquement la liaison entre un acide aminé donné et différents anticodons selon les différents ARN de transfert pouvant se lier à un même acide aminé. Ainsi, une séquence donnée de bases nucléiques au sein d'un gène sur l'ADN peut être convertie en une séquence précise d'acides aminés formant une protéine dans le cytoplasme de la cellule.
Il existe davantage de codons qu'il n'existe d'acides aminés à coder. On dit de ce fait que le code génétique est dégénéré. Outre les acides aminés protéinogènes, il code également la fin de traduction à l'aide de trois codons particuliers dits codons STOP : TAA, TGA et TAG sur l'ADN.
Toutes les fonctions biologiques de l'ADN dépendent d'interactions avec des protéines. Il peut s'agir d'interactions non spécifiques comme d'interactions avec des protéines qui se lient spécifiquement à une séquence précise de l'ADN. Des enzymes peuvent également se lier à l'ADN et, parmi celles-ci, les polymérases qui assurent la réplication de l'ADN ainsi que sa transcription en ARN jouent un rôle particulièrement déterminant.
Les protéines structurelles qui se lient à l'ADN offrent des exemples bien compris d'interactions non spécifiques entre des protéines et de l'ADN. Celui-ci est maintenu au sein des chromosomes en formant des complexes avec des protéines structurelles qui condensent l'ADN en une structure compacte appelée chromatine. Chez les eucaryotes, cette structure fait intervenir de petites protéines basiques appelées histones, tandis qu'elle fait intervenir de nombreuses protéines de différentes sortes chez les procaryotes[85],[86]. Les histones forment avec l'ADN un complexe en forme de disque appelé nucléosome contenant deux tours complets d'une molécule d'ADN bicaténaire enroulée autour de la protéine. Ces interactions non spécifiques s'établissent entre les résidus basiques des histones et le squelette acide constitué d'une alternance ose–phosphate portant les bases nucléiques de la double hélice d'ADN. Il se forme ainsi des liaisons ioniques indépendantes de la séquence des bases de l'ADN[87]. Ces résidus d'acides aminés basiques subissent des modifications chimiques telles que des méthylations, des phosphorylations et des acétylations[88]. Ces modifications chimiques modifient l'intensité des interactions entre l'ADN et les histones, rendant l'ADN plus ou moins accessible aux facteurs de transcription et modulant ainsi l'activité de transcription[89]. Parmi les autres protéines se liant à l'ADN de façon non spécifique, on compte les protéines nucléaires du groupe à haute mobilité électrophorétique, dites HMG, qui se lient à l'ADN courbé ou distordu[90]. Ces protéines sont importantes pour infléchir les réseaux de nucléosomes et les arranger en structures plus grandes qui constituent les chromosomes[91].
Parmi les protéines à interactions non spécifiques avec l'ADN, celles qui se lient spécifiquement à l'ADN monocaténaire constituent un groupe particulier. Chez l'homme, la protéine A en est le représentant le mieux compris. Elle intervient lorsque les deux brins d'une double hélice sont séparés, notamment lors de la réplication, la recombinaison et la réparation de l'ADN[92]. Ces protéines semblent stabiliser l'ADN monocaténaire et empêcher qu'il ne forme des structures en tige-boucle — épingle à cheveux — ou ne soit dégradé par des nucléases.
A contrario, d'autres protéines ne se lient qu'à des séquences d'ADN spécifiques. Parmi ces protéines, les plus étudiées sont les différents facteurs de transcription, qui sont des protéines régulant la transcription. Chaque facteur de transcription ne se lie qu'à un ensemble particulier de séquences d'ADN et active ou inhibe les gènes dont l'une de ces séquences spécifique est proche du promoteur. Les facteurs de transcription réalisent ceci de deux façons. Ils peuvent tout d'abord se lier à l'ARN polymérase responsable de la transcription, directement ou par l'intermédiaire d'autres protéines médiatrices ; ceci positionne la polymérase au niveau du promoteur et lui permet de commencer la transcription[93]. Ils peuvent également se lier à des enzymes qui modifient les histones au niveau du promoteur, ce qui a pour effet de modifier l'accessibilité de l'ADN pour la polymérase[94].
Dans la mesure où ces cibles d'ADN peuvent se distribuer dans tout le génome d'un organisme, un changement de l'activité d'un seul type de facteurs de transcription peut affecter des milliers de gènes[95]. Par conséquent, ces protéines sont souvent la cible de processus de transduction de signal contrôlant les réponses à des changements environnementaux, le développement ou la différenciation cellulaires. La spécificité de l'interaction de ces facteurs de transcription avec l'ADN vient du fait que ces protéines établissent de nombreux contacts avec les bords des bases nucléiques, ce qui leur permet de « lire » la séquence de l'ADN. La plupart de ces interactions ont lieu dans le grand sillon de la double hélice de l'ADN, là où les bases sont le plus accessibles[25].
Les nucléases sont des enzymes qui clivent les brins d'ADN en catalysant l'hydrolyse des liaisons phosphodiester. Les nucléases qui clivent les nucléotides situés à l'extrémité des brins d'ADN sont appelées exonucléases, tandis que celles qui clivent les nucléotides situés à l'intérieur des brins d'ADN sont appelées endonucléases. Les nucléases les plus couramment utilisées en biologie moléculaire sont les enzymes de restriction, qui clivent l'ADN au niveau de séquences spécifiques. Ainsi l'enzyme EcoRV reconnaît la séquence de six bases 5′-GATATC-3′ et la clive en son milieu. In vivo, ces enzymes protègent les bactéries contre l'infection par des phages en digérant l'ADN de ces virus lorsqu'il pénètre dans la cellule bactérienne[97]. En ingénierie moléculaire, elles sont utilisées dans les techniques de clonage moléculaire et pour déterminer l'empreinte génétique.
À l'inverse, les enzymes appelées ADN ligases peuvent recoller des brins d'ADN rompus ou clivés[98]. Ces enzymes sont particulièrement importantes au cours de la réplication de l'ADN car ce sont elles qui suturent les fragments d'Okazaki produits sur le brin retardé, appelé aussi brin indirect, au niveau de la fourche de réplication. Elles interviennent également dans les mécanismes de réparation de l'ADN et de recombinaison génétique[98].
Les topoisomérases sont des enzymes ayant à la fois une activité nucléase et une activité ligase. L'ADN gyrase est un exemple de telles enzymes. Ces protéines modifient le taux de surenroulement de l'ADN en sectionnant une double hélice pour permettre aux deux segments formés de tourner l'un par rapport à l'autre en relâchant les supertours avant d'être à nouveau suturés l'un à l'autre[18]. D'autres types de topoisomérases sont capables de sectionner une double hélice pour permettre le passage d'un autre segment de double hélice à travers la brèche ainsi formée avant de refermer cette dernière[99]. Les topoisomérases sont indispensables à de nombreux processus impliquant l'ADN, tels que la transcription et la réplication de l'ADN[19].
Les hélicases constituent des sortes de moteurs moléculaires. Elles utilisent l'énergie chimique de nucléosides triphosphate, essentiellement l'ATP, pour briser les liaisons hydrogène unissant les paires de bases et dérouler la double hélice d'ADN pour en libérer les deux brins[100]. Ces enzymes sont indispensables à la plupart des processus nécessitant que des enzymes accèdent aux bases de l'ADN.
Les ADN polymérases sont des enzymes qui synthétisent des chaînes de polynucléotides à partir de nucléosides triphosphates. La séquence des chaînes qu'elles synthétisent est déterminée par celle d'une chaîne de polynucléotides préexistante appelée matrice. Ces enzymes fonctionnent en ajoutant continuellement des nucléotides à l'hydroxyle de l'extrémité 3’ de la chaîne polypeptidique en cours de croissance. Pour cette raison, toutes les polymérases fonctionnent dans le sens 5’ vers 3’[101]. Le nucléoside triphosphate ayant une base complémentaire de celle de la matrice s'apparie à celle-ci dans le site actif de ces enzymes , ce qui permet aux polymérases de produire des brins d'ADN dont la séquence est exactement complémentaire de celle du brin matrice. Les polymérases sont classées en fonction du type de brins qu'elles utilisent.
Au cours de la réplication, les ADN polymérases ADN-dépendantes réalisent des copies de brins d'ADN. Afin de préserver l'information génétique, il est essentiel que la séquence des bases de chaque copie soit exactement complémentaire de la séquence des bases sur le brin matrice. Pour ce faire, de nombreuses ADN polymérases ont la capacité de corriger leurs éventuelles erreurs de réplication — fonction de proofreading. Elles sont pour cela capables d'identifier le défaut de formation d'une paire de bases entre le brin matrice et le brin en cours de croissance au niveau de la base qu'elles viennent d'insérer et de cliver ce nucléotide à l'aide d'une activité exonucléase 3’ → 5’ afin d'éliminer cette erreur de réplication[102]. Chez la plupart des organismes, les ADN polymérases fonctionnent au sein de grands complexes appelés réplisomes qui contiennent plusieurs sous-unités complémentaires telles que clamps — pinces à ADN — et hélicases[103].
Les ADN polymérases ARN-dépendantes sont une classe de polymérases spécialisées capables de copier une séquence d'ARN en ADN. Elles comprennent la transcriptase inverse, qui est une enzyme virale impliquée dans l'infection des cellules hôte par les rétrovirus, et la télomérase, enzyme indispensable à la réplication des télomères[38],[104]. La télomérase est une polymérase inhabituelle en ce qu'elle contient sa propre matrice d'ARN au sein de sa structure[39].
La transcription est réalisée par une ARN polymérase ADN-dépendante qui copie une séquence d'ADN en ARN. Afin de commencer la transcription d'un gène, l'ARN polymérase se lie tout d'abord à une séquence de l'ADN appelée promoteur et sépare les brins d'ADN. Puis elle copie la séquence d'ADN constituant le gène en une séquence complémentaire d'ARN jusqu'à atteindre une région de l'ADN appelée terminateur, où elle s'arrête et se détache de l'ADN. Tout comme l'ADN polymérase ADN-dépendante, l'ARN polymérase II — enzyme qui transcrit la plupart des gènes du génome humain — fonctionne au sein d'un grand complexe protéique comprenant plusieurs sous-unités complémentaires et régulatrices[105].
Chaque division cellulaire est précédée d'une réplication de l'ADN conduisant à une réplication des chromosomes. Ce processus conserve normalement l'information génétique de la cellule, chacune des deux cellules filles héritant d'un patrimoine génétique complet identique à celui de la cellule mère. Il arrive cependant que ce processus ne se déroule pas normalement et que l'information génétique de la cellule s'en trouve modifiée. On parle dans ce cas de mutation génétique. Cette altération du génotype peut être sans conséquence ou, au contraire, altérer également le phénotype résultant de l'expression des gènes altérés.
Une double hélice d'ADN n'interagit généralement pas avec d'autres segments d'ADN et, dans les cellules humaines, les différents chromosomes occupent même chacun une région qui leur est propre au sein du noyau et appelée territoire chromosomique[107]. Cette séparation physique des différents chromosomes est essentielle au fonctionnement de l'ADN comme répertoire stable et pérenne de l'information génétique dans la mesure où l'une des rares fois où des chromosomes interagissent survient lors de l'enjambement responsable de la recombinaison génétique, c'est-à-dire lorsque deux doubles hélices d'ADN sont rompues, échangent leurs sections et se ressoudent.
La recombinaison permet aux chromosomes d'échanger du matériel génétique et de produire de nouvelles combinaisons de gènes, ce qui accroît l'efficacité de la sélection naturelle et peut être déterminant dans l'évolution rapide de nouvelles protéines[108]. La recombinaison génétique peut également survenir lors de la réparation de l'ADN, notamment en cas de rupture simultanée des deux brins de la double hélice d'ADN[109].
La forme la plus courante de recombinaison chromosomique est la recombinaison homologue, lors de laquelle les deux chromosomes en interaction partagent des séquences très semblables. Les recombinaisons non homologues peuvent fortement endommager les cellules car elles peuvent conduire à des translocations et des anomalies génétiques. La réaction de recombinaison est catalysée par des enzymes appelées recombinases, telle que la protéine Rad51[110]. La première étape de ce processus est une rupture des deux brins de la double hélice provoquée par une endonucléase ou par un dommage à l'ADN[111]. Une suite d'étapes catalysées par la recombinase conduit à réunir les deux hélices par au moins une jonction de Holliday dans laquelle un segment monocaténaire de chaque double hélice est ressoudé au brin complémentaire de l'autre double hélice. La jonction de Holliday est une jonction cruciforme qui, lorsque les brins ont des séquences symétriques, peut se déplacer le long de la paire de chromosomes en échangeant un brin avec l'autre. La réaction de recombinaison s'arrête par clivage de la jonction et suture de l'ADN libéré[112].
L'information génétique codée par l'ADN n'est pas nécessairement fixe dans le temps et certaines séquences sont susceptibles de se déplacer d'une partie du génome à une autre. Ce sont les éléments génétiques mobiles. Ces éléments sont mutagènes et peuvent altérer le génome des cellules. On trouve parmi eux notamment les transposons et les rétrotransposons, ces derniers agissant, contrairement aux premiers, à travers un ARN intermédiaire redonnant une séquence d'ADN sous l'action d'une transcriptase inverse. Ils se déplacent au sein du génome sous l'effet de transposases, enzymes particulières qui les détachent d'un endroit et les recollent à un autre endroit du génome cellulaire, et seraient responsables de la migration de pas moins de 40 % du génome humain au cours de l'évolution d'Homo sapiens[113].
Ces éléments transposables constituent une fraction importante du génome des êtres vivants, notamment chez les plantes où ils représentent souvent l'essentiel de l'ADN nucléaire, comme chez le maïs où de 49 à 78 % du génome est constitué de rétrotransposons[114]. Chez le blé, près de 90 % du génome est formé de séquences répétées et 68 % d'éléments transposables[115]. Chez les mammifères, près de la moitié du génome — de 45 à 48 % — est constituée d'éléments transposables ou de rémanents de ces derniers, et environ de 42 % du génome humain est formé de rétrotransposons, tandis que 2 à 3 % est formé de transposons d'ADN[116]. Ce sont par conséquent des éléments importants du fonctionnement et de l'évolution du génome des organismes[117].
Les introns dits du groupe I et du groupe II sont d'autres éléments génétiques mobiles. Ce sont des ribozymes, c'est-à-dire de séquences d'ARN douées de propriétés catalytiques comme les enzymes, susceptibles d'autocatalyser leur propre épissage. Ceux du groupe I ont besoin de nucléotides à guanine pour fonctionner, contrairement à ceux du groupe II. Les introns du groupe I, par exemple, se retrouvent sporadiquement chez les bactéries, plus significativement chez les eucaryotes simples, et chez un très grand nombre de plantes supérieures. On les trouve enfin au sein de gènes d'un grand nombre de bactériophages de bactéries à Gram positif[118], mais de seulement quelques phages de bactéries à Gram négatif — par exemple le phage T4[118],[119],[120],[121].
L'information génétique d'une cellule peut évoluer sous l'effet de l'incorporation de matériel génétique exogène absorbé à travers la membrane plasmique. On parle de transfert horizontal de gènes, par opposition au transfert vertical découlant la reproduction des êtres vivants. Il s'agit d'un important facteur d'évolution chez de nombreux organismes[122], notamment chez les unicellulaires. Ce processus fait souvent intervenir des bactériophages ou des plasmides[123],[124].
Les bactéries en état de compétence sont susceptibles d'absorber directement une molécule d'ADN extérieure et de l'incorporer dans leur propre génome, processus appelé transformation génétique. Elles peuvent également obtenir cet ADN sous forme de plasmide d'une autre bactérie à travers le processus de conjugaison bactérienne. Enfin, elles peuvent recevoir cet ADN par l'intermédiaire d'un bactériophage (un virus) par transduction. Les eucaryotes peuvent également recevoir du matériel génétique exogène, à travers un processus appelé transfection.
L'ADN recèle toute l'information génétique permettant aux êtres vivants de vivre, de croître et de se reproduire. On ignore cependant si, au cours des 4 milliards d'années de l'histoire de la vie sur Terre, l'ADN a toujours joué ce rôle. Une théorie propose que ce soit un autre acide nucléique, l'ARN, qui ait été le support de l'information génétique des premières formes de vies apparues sur notre planète[125],[126]. L'ARN aurait joué le rôle central dans une première forme de métabolisme cellulaire dans la mesure où il est susceptible à la fois de véhiculer de l'information génétique et de catalyser des réactions chimiques en formant des ribozymes[127]. Ce monde à ARN, dans lequel l'ARN aurait servi à la fois de support de l'hérédité et d'enzymes, aurait influencé l'évolution du code génétique à quatre bases nucléiques, lequel offre un compromis entre la précision du codage de l'information génétique favorisée par un nombre restreint de bases d'une part et l'efficacité catalytique des enzymes favorisée par un plus grand nombre de monomères d'autre part[128].
Il n'existe cependant aucune preuve directe de l'existence passée de systèmes métaboliques et génétiques différents de ceux que nous connaissons aujourd'hui dans la mesure où il demeure impossible d'extraire du matériel génétique de la plupart des fossiles. L'ADN ne persiste en effet plus d'un million d'années avant d'être dégradé en fragments courts. L'existence d'ADN intact plus ancien a été proposée, en particulier celui d'une bactérie viable extraite d'un cristal de sel vieux de 150 millions d'années[129], mais ces publications demeurent controversées[130],[131].
Certains constituants de l'ADN — l'adénine, la guanine et des composés organiques apparentés — peuvent avoir été formés dans l'espace[132],[133],[134]. Des constituants de l'ADN et de l'ARN tels que l'uracile, la cytosine et la thymine, ont également été obtenus en laboratoire dans des conditions reproduisant celles rencontrées dans le milieu interplanétaire et interstellaire à partir de composés plus simples tels que la pyrimidine, retrouvée dans des météorites. La pyrimidine, tout comme certains hydrocarbures aromatiques polycycliques (HAP) — les composés les plus riches en carbone détectés dans l'univers — pourraient se former dans les étoiles géantes rouges ou dans les nuages interstellaires[135].
Des méthodes ont été développées permettant de purifier l'ADN des êtres vivants, telles que l'extraction au phénol-chloroforme, et le manipuler en laboratoire, telles que les enzymes de restriction et la PCR. La biologie et la biochimie modernes font un usage intensif de ces techniques au cours du clonage moléculaire (en). L'ADN recombinant est une séquence d'ADN synthétique assemblée à partir d'autres séquences d'ADN. De tels ADN peuvent transformer des organismes sous forme de plasmides ou à l'aide d'un vecteur viral[138]. Les organismes génétiquement modifiés (OGM) résultants peuvent être utilisés pour produire par exemple des protéines recombinantes, utilisées dans la recherche médicale[139], ou dans l'agriculture[140],[141].
L'ADN extrait du sang, du sperme, de la salive, d'un fragment de peau ou d'un poil prélevé sur une scène de crime peut être utilisé en médecine légale pour déterminer l'empreinte génétique d'un suspect. À cette fin, la séquence de segments d'ADN tels que des séquences microsatellites ou des minisatellites est comparée avec celle d'individus choisis pour l'occasion ou déjà répertoriés dans des bases de données. Cette méthode est généralement d'une très grande fiabilité pour identifier l'ADN correspondant à celui d'un individu suspect[142]. L'identification peut cependant être rendue plus complexe si la scène de crime est contaminée par l'ADN de plusieurs personnes[143]. L'identification par empreinte génétique a été développée en 1984 par le généticien britannique Sir Alec Jeffreys[144] et a été utilisée pour la première fois en 1987 pour confondre un violeur et tueur en série[145].
Dans la mesure où l'ADN accumule des mutations au cours du temps qui sont transmises par hérédité, il recèle des informations historiques qui, lorsqu'elles sont analysées par des généticiens en comparant des séquences issues d'organismes aux histoires différentes, permettent de retracer l'histoire de l'évolution de ces organismes, c'est-à-dire leur phylogénie[146]. Cette discipline, mettant la génétique au service de la paléobiologie, offre un puissant outil d'investigation en biologie de l'évolution. En comparant des séquences d'ADN issues de différents individus d'une même espèce, les généticiens des populations peuvent étudier l'histoire de populations particulières d'êtres vivants, un domaine allant de la génétique écologique jusqu'à l'anthropologie. Ainsi, l'étude de l'ADN mitochondrial, de l'ADN-Y, puis de l'ADN autosomal au sein de différentes populations humaines est utilisée pour retracer les migrations d'Homo sapiens à travers la planète. L'haplogroupe X (ADNmt) a par exemple été étudié en paléodémographie afin d'évaluer la parenté éventuelle des Amérindiens d'Amérique du Nord-Est avec les populations ouest-européennes du Solutréen[147].
La bio-informatique fait intervenir la manipulation, la recherche et l'exploration de données biologiques, ce qui comprend les séquences d'ADN. Le développement de techniques de stockage et de recherche de séquences d'ADN ont conduit à des avancées informatiques largement utilisées par ailleurs, notamment en ce qui concerne les algorithmes de recherche de sous-chaînes, l'apprentissage automatique et la théorie des bases de données[150]. Les algorithmes de recherche de chaînes de caractères, qui permettent de trouver une suite de lettres incluse dans une suite de lettres plus longue, ont été développés pour rechercher des séquences spécifiques de nucléotides[151]. La séquence d'ADN peut être alignée avec d'autres séquences d'ADN afin d'identifier des séquences homologues et situer les mutations spécifiques qui les distinguent. Ces techniques, notamment l'alignement de séquences multiples, sont utilisées afin d'étudier les relations phylogénétiques et les fonctions des protéines[152].
Les répertoires de données représentant la séquence complète d'un génome, tels que ceux produits par le Projet génome humain, atteignent une taille telle qu'ils sont difficiles à utiliser sans les annotations qui identifient l'emplacement des gènes et des éléments de régulation sur chaque chromosome. Les régions des séquences d'ADN qui possèdent les motifs caractéristiques associés aux gènes codant des protéines ou des ARN fonctionnels peuvent être identifiés par des algorithmes de prédiction de gènes, qui permettent aux chercheurs de prédire la présence de produits géniques particuliers et leur fonction possible au sein d'un organisme avant même qu'ils soient isolés expérimentalement[153]. Des génomes entiers peuvent également être comparés, ce qui peut mettre en évidence l'histoire de l'évolution d'organismes particuliers et permettre d'étudier des événements complexes de cette évolution.
Les nanotechnologies de l'ADN utilisent les propriétés uniques de reconnaissance moléculaire (en) de l'ADN et plus généralement des acides nucléiques afin de créer des complexes ramifiés d'ADN auto-assemblé doués de propriétés intéressantes[155]. De ce point de vue, l'ADN est utilisé comme matériau structurel plutôt que comme porteur d'une information biologique. Ceci a conduit à la création de réseaux périodiques bidimensionnels, qu'ils soient assemblés par briques ou par le procédé de l'origami d'ADN, ou tridimensionnels ayant une forme polyédrique[156]. On a également réalisé des nanomachines en ADN et des constructions par auto-assemblage algorithmique[157]. De telles structures en ADN ont pu être utilisées pour organiser l'arrangement d'autres molécules telles que des nanoparticules d'or et des molécules de streptavidine[158], une protéine qui forme des complexes très résistants avec la biotine. Les recherches en électronique moléculaire fondée sur l'ADN ont conduit la société Microsoft à développer un langage de programmation appelé DNA Strand Displacement[159] (DSD) utilisé dans certaines réalisations de composants nanoélectroniques moléculaires à base d'ADN[160],[161].
L'ADN étant utilisé par les êtres vivants pour stocker leur information génétique, certaines équipes de recherche l'étudient également comme support destiné au stockage d'informations numériques au même titre qu'une mémoire informatique. Les acides nucléiques présenteraient en effet l'avantage d'une densité de stockage de l'information considérablement supérieure à celle des médias traditionnels — théoriquement plus d'une dizaine d'ordres de grandeur — avec une durée de vie également très supérieure.
Il est théoriquement possible d'encoder jusqu'à deux bits de données par nucléotide, permettant une capacité de stockage atteignant 455 millions de téraoctets par gramme d'ADN monocaténaire demeurant lisibles pendant plusieurs millénaires y compris dans des conditions de stockage non idéales[162], et une technique d'encodage atteignant 215 000 téraoctets par gramme d'ADN a été proposée en 2017[163] ; à titre de comparaison, un DVD double face double couche contient à peine 17 gigaoctets pour une masse typique de 16 g — soit une capacité de stockage 400 milliards de fois moindre par unité de masse. Une équipe de l'Institut européen de bio-informatique est ainsi parvenue en 2012 à coder 757 051 octets sur 17 940 195 nucléotides[164], ce qui correspond à une densité de stockage d'environ 2 200 téraoctets par gramme d'ADN[165]. De son côté, une équipe suisse a publié en février 2015 une étude démontrant la robustesse de l'ADN encapsulé dans de la silice comme support durable de l'information[166].
Par ailleurs, d'autres équipes travaillent sur la possibilité de stocker des informations directement dans des cellules vivantes, afin par exemple d'encoder des compteurs sur l'ADN d'une cellule pour en déterminer le nombre de divisions ou de différenciations, ce qui pourrait trouver des applications dans les recherches sur le cancer et sur le vieillissement[167].
L'ADN a été isolé pour la première fois en 1869 par le biologiste suisse Friedrich Miescher sous la forme d'une substance riche en phosphore dans le pus de bandages chirurgicaux usagés. Comme cette substance se trouvait dans le noyau des cellules, Miescher l'appela nucléine[168],[169]. En 1878, le biochimiste allemand Albrecht Kossel isola le composant non protéique de cette « nucléine » — les acides nucléiques — puis en identifia les cinq bases nucléiques[170]. En 1919, le biologiste américain Phoebus Levene identifia les constituants des nucléotides, c'est-à-dire la présence d'une base, d'un ose et d'un groupe phosphate[171]. Il suggéra que l'ADN consistait en une chaîne de nucléotides unis les uns aux autres par leurs groupes phosphate. Il pensait que les chaînes étaient courtes et que les bases s'y succédaient de façon répétée selon un ordre fixe. En 1937, le physicien et biologiste moléculaire britannique William Astbury réalisa le premier diagramme de diffraction de l'ADN par cristallographie aux rayons X, montrant que l'ADN possède une structure ordonnée[172].
En 1927, le biologiste russe Nikolai Koltsov eut l'intuition que l'hérédité reposait sur une « molécule héréditaire géante » constituée de « deux brins miroirs l'un de l'autre qui se reproduiraient de manière semi-conservative en utilisant chaque brin comme modèle »[173]. Il considérait cependant que c'étaient des protéines qui portaient l'information génétique[174]. En 1928, le bactériologiste anglais Frederick Griffith réalisa une expérience célèbre qui porte dorénavant son nom et par laquelle il démontra que des bactéries vivantes non virulentes mises en contact avec des bactéries virulentes tuées par la chaleur pouvaient être transformées en bactéries virulentes[175],[176]. Cette expérience ouvrit la voie à l'identification en 1944 de l'ADN comme vecteur de l'information génétique à travers l'expérience d'Avery, MacLeod et McCarty[177]. Le biochimiste belge Jean Brachet démontra en 1946 que l'ADN est un constituant des chromosomes[178], et le rôle de l'ADN dans l'hérédité fut confirmé en 1952 par les expériences de Hershey et Chase qui démontrèrent que le matériel génétique du phage T2 est constitué d'ADN[179].
La première structure en double hélice antiparallèle aujourd'hui reconnue comme modèle correct de l'ADN a été publiée en 1953 par le biochimiste américain James Watson et le biologiste britannique Francis Crick dans un article devenu classique de la revue Nature[2]. Ils travaillaient sur le sujet depuis 1951 au laboratoire Cavendish de l'université de Cambridge, et entretenaient à ce titre une correspondance privée avec le biochimiste autrichien Erwin Chargaff, à l'origine des règles de Chargaff, publiées au printemps 1952, selon lesquelles, au sein d'une molécule d'ADN, le taux de chacune des bases puriques est sensiblement égal au taux de l'une des deux bases pyrimidiques, plus précisément le taux de guanine est égal à celui de cytosine et que le taux d'adénine est égal à celui de thymine[180],[181], ce qui suggéra l'idée d'un appariement de l'adénine avec la thymine et de la guanine avec la cytosine.
En mai 1952, l'étudiant britannique Raymond Gosling, qui travaillait sous la direction de Rosalind Franklin dans l'équipe de John Randall, prit un cliché de diffraction aux rayons X (le cliché 51[182]) d'un cristal d'ADN fortement hydraté. Ce cliché fut partagé avec Crick et Watson à l'insu de Franklin et fut déterminant dans l'établissement de la structure correcte de l'ADN. Franklin avait par ailleurs indiqué aux deux chercheurs que l'ossature phosphorée de la structure devait être à l'extérieur de celle-ci, et non près de l'axe central comme on le pensait alors. Elle avait de surcroît identifié le groupe d'espace des cristaux d'ADN, qui permit à Crick de déterminer que les deux brins d'ADN sont antiparallèles[183]. Alors que Linus Pauling et Robert Corey publiaient un modèle moléculaire d'acide nucléique formé de trois chaînes entrelacées avec, conformément aux idées de l'époque, les groupes phosphate près de l'axe central et les bases nucléiques orientées vers l'extérieur[184], Crick et Watson finalisèrent en février 1953 leur modèle à deux chaînes antiparallèles ayant les groupes phosphate à l'extérieur et les bases nucléiques à l'intérieur de la double hélice, modèle aujourd'hui considéré comme la première structure correcte de l'ADN à avoir jamais été proposée.
Ces travaux furent publiés dans le numéro du 25 avril 1953 de la revue Nature à travers cinq articles décrivant la structure finalisée par Crick et Watson, ainsi que les preuves à l'appui de ce résultat. Dans le premier article, intitulé Molecular Structure of Nucleic Acids: A Structure for Deoxyribose Nucleic Acid, Crick et Watson indiquent : « il ne nous a pas échappé que l'appariement spécifique que nous avons postulé suggère immédiatement un mécanisme possible pour la réplication du matériel génétique »[2]. Cet article était suivi d'une publication du Britannique Maurice Wilkins et al. portant sur la diffraction de rayons X par de l'ADN B in vivo, ce qui appuyait l'existence de la structure en double hélice dans les cellules vivantes et pas seulement in vitro[185], et de la première publication des travaux de Franklin et Goslin sur les données qu'ils avaient obtenues par diffraction aux rayons X et leur propre méthode d'analyse[186].
Rosalind Franklin mourut en 1958 d'un cancer et ne reçut pas le prix Nobel de physiologie ou médecine décerné en 1962, « pour leurs découvertes relatives à la structure moléculaire des acides nucléiques et leur importance pour le transfert de l'information génétique dans la matière vivante », à Francis Crick, James Watson et Maurice Wilkins[187], qui n'eurent pas un mot pour créditer Franklin de ses travaux ; le fait qu'elle n'ait pas été associée à ce prix Nobel continue de faire débat[188].
En 1957, Crick publia un document mettant en forme ce qui est aujourd'hui connu comme la théorie fondamentale de la biologie moléculaire en décrivant les relations entre l'ADN, l'ARN et les protéines, articulées autour de « l'hypothèse de l'adaptateur »[189]. La confirmation du mode de réplication semi-conservative de la double hélice est intervenue en 1958 avec l'expérience de Meselson et Stahl[190]. Crick et al. poursuivirent leurs travaux et montrèrent que le code génétique est fondé sur des triplets de bases nucléiques successifs appelés codons, ce qui permit le déchiffrement du code génétique lui-même par Robert W. Holley, Har Gobind Khorana et Marshall W. Nirenberg[191]. Ces découvertes marquèrent la naissance de la biologie moléculaire.
La structure hélicoïdale de l'ADN a inspiré plusieurs artistes, le plus célèbre étant le peintre surréaliste Salvador Dalí, qui s'en inspire dans neuf tableaux entre 1956 et 1976, dont Paysage de papillon (Le Grand masturbateur dans un paysage surréaliste avec ADN)[192],[193] (1957-1958) et Galacidalacidesoxyribonucleicacid[194] (1963).
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.