From Wikipedia, the free encyclopedia
En el context de l'evolució, una seqüència conservada és aquella seqüència homòloga d'àcids nucleics (ADN i ARN) o de proteïna idèntica o semblant entre espècies (ortòloga), entre el mateix genoma (paràloga) o generada per transferència horitzontal de gens entre diferents espècies que comparteixen un ancestre comú (xenòloga).
Una seqüència altament conservada és aquella que es manté sense canvis en l'arbre filogenètic i durant les diferents etapes geològiques. Que una seqüència estigui conservada al llarg de l'evolució indica que és valuosa i per això la selecció natural l'ha mantingut. Alguns exemples de seqüències altament conservades són els components ARN dels ribosomes que es troben en tots els superregnes de la vida, la caixa homeòtica en eucariotes, i l'ARN mitocondrial en bacteris. L'estudi de la conservació de les seqüències inclou múltiples àrees d'investigació com ara la genòmica, la proteòmica, la biologia evolutiva, la filogenètica, la bioinformàtica i les matemàtiques
El descobriment del paper de l'ADN en l'herència i les observacions de Frederick Sanger sobre com varia la insulina entre animals [1]van ser el detonant perquè es comencés a estudiar la taxonomia des d'una perspectiva molecular.[2][3] Estudis realitzats durant els anys 60 van utilitzar la hibridació de l'ADN i tècniques de reactivitat creuada en proteïnes per mesurar la similitud entre proteïnes ortòlogues ja conegudes. Un exemple d'aquestes serien l'hemoglobina [4] i el citocrom C.[5]
L'any 1965, l'austríac Émile Zuckerkandl i l'americà Linus Pauling van introduir el concepte de rellotge molecular,[6] que consisteix en utilitzar la taxa de substitucions constants dels aminoàcids per determinar el temps de divergència entre dos organismes. Així com les primeres filogènies concordaven amb els registres fòssils, l'observació del que semblaven diferents ritmes en l'evolució dels gens va dur al desenvolupament de les teories de l'evolució molecular.[2][3] La importància de les seqüències conservades es va materialitzar amb la comparació que va realitzar Margaret Dayhoff l'any 1966 entre diferents seqüències de ferredoxina, en la que va observar com la selecció natural actua per conservar i optimitzar aquelles seqüències de proteïnes essencials per la vida.[7]
Vegeu també: Selecció natural i teoria neutral de l'evolució molecular
Les seqüències d'àcids nucleics del genoma d'un llinatge poden canviar gradualment en el temps i en vàries generacions degut a mutacions i delecions a l'atzar.,.[8][9] Aquestes seqüències també poden recombinar-se o suprimir-se degut a reorganitzacions cromosòmiques. Les seqüències conservades són aquelles que tot i aquests mecanismes, persisteixen en el genoma i tenen una taxa de mutació més baixa que l'esperada per atzar.[10]
La conservació pot tenir lloc en seqüències d'àcids nucleics codificants i no-codificants. Teòricament, les seqüències d'ADN altament conservades tenen valor funcional, encara que es coneix poc el paper de les regions altament conservades no codificants. (,)[11][12]
El fet que una seqüència es conservi o no pot dependre de les diferents pressions selectives, la seva tolerància a les mutacions, la genètica de poblacions i la deriva genètica. A més a més, moltes seqüències funcionals són també modulars, i per tant, contenen regions que poden estar subjectes a pressions selectives independents, com per exemple els dominis proteics, que estan subjectes a una pressió evolutiva diferent de la resta de la seqüència.[13]
Degut a la degeneració del codi genètic, les mutacions sinònimes en una seqüència codificant no afecten a la pròpia seqüència dels aminoàcids ni a la proteïna que codifiquen. Això ens porta a concloure que les seqüències d'àcids nucleics i aminoàcids (i per tant, codificants) poden estar conservades en diferent grau.[14]
Les seqüències d'aminoàcids poden conservar-se de cara a mantenir una estructura o una funció d'una proteïna o d'un domini. Les proteïnes conservades no acostumen a patir substitucions d'aminoàcids, o si en pateixen acostumen a ser substitucions per aminoàcids amb propietats bioquímiques similars.[15]
Dins d'una seqüència, els aminoàcids que són importants pel plegament proteic, l'estabilitat estructural, o que formen un lloc d'unió són aquells que probablement estaran més conservats.[16][17]
La seqüència d'àcids nucleics d'una proteïna que codifica per un gen també pot conservar-se mitjançant altres pressions selectives. El biaix en l'ús de codons de certs organismes pot restringir el tipus de mutacions sinònimes d'una seqüència. Aquelles seqüències d'àcids nucleics que indueixen una estructura secundària a l'ARN missatger poden ser seleccionades en contra, ja que algunes estructures poden afectar negativament a la traducció, o bé es poden conservar allà on el ARNm en qüestió actuï també com a ARN no codificant.[18][19]
Vegeu també: conservació de seqüències no codificants
Les seqüències no codificants importants per la regulació gènica, així com els llocs de reconeixement o unió de ribosomes i factors de transcripció seran probablement conservats en el genoma. Per exemple, el promotor d'un gen conservat o d'un operó, i en les proteïnes, aquells àcids nucleics importants per l'estructura i la funció de l'ARN no codificant (ARNnc), es conservaran. Tanmateix, la conservació de seqüències en el ARNnc és bastant pobre en comparació amb la de les seqüències de proteïnes codificants. Consegüentment, aquells parells de bases que contribueixin a l'estructura i la funció es preservaran.[20][21]
Vegeu també: alineament de seqüències
Les seqüències conservades es poden identificar mitjançant mètodes bioinformàtics que es basen en l'alineament de seqüències. Des de l'any 2000 els avenços en espectrometria de masses de proteïnes i en la seqüenciació de l'ADN han permès obtenir moltes seqüències de proteïnes i molts genomes per dur a terme estudis comparatius.[22][23]
Les seqüències conservades es poden identificar buscant homologia entre seqüències, utilitzant eines com BLAST, HMMER, OrthologR [24] i Infernal [25]
Aquestes eines solen prendre com a input una seqüència d'una proteïna o d'un àcid nucleic, o bé utilitzen models estadístics generats en alineaments múltiples de seqüències conegudes i evolutivament properes.
Els models estadístics com ara profile-HMMs i els models de covariància d'ARN són útils en la cerca d'homologia de seqüències més llunyanes evolutivament perquè proporcionen informació estructural.[26]
Les seqüències input s'alineen amb una base de dades de seqüències d'individus relacionats però d'altres espècies. Els alineaments resultants es puntuen partint del nombre d'aminoàcids o bases que coincideixen, i el número de gaps o delecions.
Les substitucions conservades s'identifiquen mitjançant les matrius de substitució com PAM i BLOSUM. S'assumeix que els alineaments amb alta puntuació provenen de seqüències homòlogues. La conservació d'una seqüència s'infereix per la detecció de regions homòlogues en un ampli rang filogenètic.[27]
L'alineament de seqüències múltiples és útil per visualitzar regions conservades. Hi ha diversos programes com CLUSTAL que et permeten dur a terme aquests alineaments. Aquest programa et permet anotar les columnes conservades, distingint seqüències conservades (*), mutacions conservades (:), semiconservades (.)i no conservades.[29]
Els logos de seqüències també ens mostren les seqüències més conservades mitjançant una representació de les proporcions dels caràcters (alçada) en cada punt de l'alineament.[28]
Els estudis d'associació del genoma complet (en anglès, GWAS (Genome-wide association study) o WGAS (Whole genome association study)) també serveixen per trobar regions conservades al llarg de diferents espècies. L'ús d'aquests mètodes està limitat donada la complexitat computacional causada pels reordenaments, les regions repetides, i la llargada de molts genomes eucariotes.[30] Tot i això, la fiabilitat dels GWAS de bacteris de 30 o més espècies properes està augmentant.[31][32]
També hi ha altres aproximacions que utilitzen mètodes basats en tests estadístics. Aquests programes identifiquen seqüències que tenen un índex de mutacions diferent de l'esperat.
GERP (en anglès Genomic Evolutionary Rate Profiling) és un sistema de puntuació de la conservació de les seqüències genètiques al llarg de les espècies. Aquesta aproximació fa una estimació de l'índex de mutacions neutres en un conjunt d'espècies a partir d'un alineament de seqüències múltiple. Seguidament identifica les regions de les seqüències que presenten menys mutacions de les esperades. A aquestes regions se'ls assigna una puntuació d'acord amb la diferència entre l'índex de mutació observada i el de l'esperada. Un perfil alt de GERP indica que ens trobem amb una seqüència altament conservada.[33][34]
Els elements ultra conservats o UCEs (en anglès) són seqüències que són molt similars o idèntiques entre múltiples categories taxonòmiques. Es van descobrir per primer cop en vertebrats,[41] i posteriorment han estat identificats en tàxons que difereixen entre ells.[42]
Tot i que es desconeix bona part de l'origen i la funció dels UCEs,[43] aquests han estat utilitzats per investigar divergències en amniotes,[44] insectes,[45] i entre animals i plantes [46]
Els gens més altament conservats són aquells que podem trobar en tots els organismes. Aquests consisteixen bàsicament en els ARNnc i les proteïnes que es requereixen a l'hora de realitzar la transcripció i la traducció, i s'assumeix que han estat conservats des de l'últim avantpassat comú universal.[47]
Entre els gens o les famílies de gens que s'han identificat com a universalment conservats, trobem els factors d'elongació termoinestables d'unió a GTP, la metionina aminopeptidasa 2, la serina hidroximetiltransferasa, i els transportadors d'ATP (Transportadors ABC).[48] Altres elements universalment conservats són els components de la maquinària de transcripció, com ara l'ARN polimerasa i les helicases, i els components de la traducció, com l'ARN ribosòmic, l'ARN de transferència i les proteïnes ribosomals.[49]
Els conjunts de seqüències conservades s'utilitzen per generar arbres filogenètics, ja que s'assumeix que organismes amb seqüències similars són filogenèticament propers.[50]
La tria de les seqüències pot canviar en funció de l'objectiu taxonòmic de l'estudi. Per exemple, gens altament conservats com el 16S ARN i altres seqüències ribosòmiques, són útils per reconstruir relacions filogenètiques llunyanes i identificar els fílums de bacteris en estudis metagenòmics.[51][52]Les seqüències que es conserven en un clade però pateixen algunes mutacions, com els gens constitutius, es poden utilitzar per estudiar les relacions entre espècies.[53][54][55] L'espaiador transcrit intern, que és necessari per espaiar els gens del rRNA conservats però alhora pateix una evolució ràpida, s'utilitza per classificar els fongs i les soques de bacteris que també evolucionen ràpidament.[56][57][58][59]
Com normalment les seqüències conservades tenen funcions biològiques importants, poden ser útils per identificar causes de malalties genètiques. Molts desordres metabòlics congènits i malalties per dipòsit liposomal són el resultat de canvis individuals en gens conservats, donant lloc a enzims defectuosos que són la causa dels símptomes de la malaltia. Les malalties genètiques es poden preveure amb la identificació de seqüències conservades entre persones i organismes de laboratori com els ratolins [60] o les mosques del vinagre,[61] i amb l'estudi dels efectes d'aquests organismes genoanul·lats.[62] Els estudis d'associació de tot el genoma (GWAS) també poden ser útils per identificar variacions en seqüències conservades que es puguin associar a un estat de salut o malaltia. Per exemple en investigacions sobre l'Alzehimer s'han trobat més de dues dotzenes de nous locis potencialment relacionats amb aquesta malaltia. Encara que falten altres investigacions amb una mostra més gran de pacients es pot confirmar que aquest tipus d'estudis serveixen per trobar nous gens que permetin entendre millor la malaltia.[63][64]
Identificar seqüències conservades pot servir per descobrir i preveure seqüències funcionals com ara gens.[65] Les seqüències conservades amb una funció coneguda, com els dominis proteics, poden utilitzar-se per preveure la funció d'una seqüència. Les bases de dades dels dominis proteics conservats com Pfam i Conserved Domain Database poden servir per anotar dominis funcionals en gens que es preveu que són codificants per proteïnes.[66]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.