From Wikipedia, the free encyclopedia
UniProt (Universal Protein Resource) és una base de dades de seqüències de proteïnes i la seva corresponent informació funcional. És de lliure accés i conté moltes entrades derivades de projectes de seqüenciació de genomes. Conté al voltant de 60 milions de seqüències de proteïnes, derivada de la literatura científica, sobre la funció biològica de les proteïnes, la qual s’actualitza a mesura que es genera més coneixement.[1][2]
L'article o secció necessita millores de format. |
URL | https://www.uniprot.org/ |
---|---|
Tipus | Base de dades de seqüències de proteïnes |
Tema | biologia, ésser humà, ratolí comú, growth hormone releasing hormone (en) , Polipèptid vasoactiu intestinal, calcitonina, ghrelina, tuberin (en) , neurotensina i Urotensin 2 (en) |
Llengua | anglès |
Llicència | Domini públic |
Part de | web semàntic, diagrama de dades obertes enllaçades, SIB Swiss Institute of Bioinformatics (en) i ELIXIR EMBL-EBI Node (en) |
Creador | Consorci UniProt: EIB, SIB i PIR |
Mantenidor | Alex Bateman, Sandra Orchard (en) i Alan J Bridge (en) |
Llançament | 2002 |
Estat | Regne Unit, Suïssa i Estats Units d'Amèrica |
Estat | Actiu |
Uniprot neix del consorci UniProt que està format per EBI (European Bioinformatic Institute), SIB (Swiss Institute of Bioinformatics), organitzacions bioinformàtiques europees i PIR (Protein Information Resource) organització americana de dades de proteïnes. UniProt ofereix accés a quatre bases de dades de proteïnes: The UniProt Knowledgebase (UniProtKB), The UniProt Reference Clusters (UniRef), The UniProt Metagenomics and Environmental Sequences database (UniMES) i The UniProt Archive (UniParc).[1][2]
El consorci UniProt comprèn l'Institut Europeu de Bioinformàtica (EBI), l'Institut Suís de Bioinformàtica (SIB) i el Recurs d'Informació de Proteïnes (PIR).
L’any 2002, EBI, SIB i PIR es van unir formant el consorci UniProt.[4]
Cadascun dels membres del consorci està molt implicat en el manteniment i l’anotació de bases de dades de proteïnes. Fins fa poc, EBI i SIB produïen de manera conjunta les bases de dades Swiss-Prot i TrEMBL, mentre que PIR produïa la base de dades de seqüències de proteïnes (PIR-PSD). Aquestes bases de dades coexistien amb diferents prioritats de cobertura i anotació de seqüències de proteïnes.[5][6][7]
Swiss-Prot va ser creat inicialment l’any 1986 per Amos Bairoch durant el seu doctorat i desenvolupat per l'Institut Suís de Bioinformàtica, posteriorment va ser desenvolupat per Rolf Apweiler a l'Institut Europeu de Bioinformàtica.[8][9] L’objectiu que pretenia complir Swiss-Prot era el de proporcionar seqüències proteiques fiables associades a un alt nivell d’anotació, com per exemple la descripció de la funció d’una proteïna, la seva estructura de domini, modificacions post-traduccionals, variants, etc., un nivell mínim de redundància i un nivell d’integració amb altres bases de dades. Les dades de seqüències s’estaven creant a un ritme superior a la capacitat de Swiss-Prot, per mantenir-se al dia, aleshores es va crear TrEMBL (Translated EMBL Nucleotide Sequence Data Library), per tal de proporcionar anotacions automàtiques a les proteïnes que no apareixien a Swiss-Prot. Al mateix temps, PIR mantenia el PIR-PSD i bases de dades relacionades, inclosa iProClass, una base de dades de seqüències de proteïnes i famílies seleccionades.
Els membres del consorci van agrupar els seus recursos i coneixements superposats i van llançar UniProt el desembre de 2003.[10]
Sota el domini UniProt trobem tres bases de dades bàsiques: UniProtKB (amb els sub-parts Swiss-Prot i TrEMBL), UniParc i UniRef.
UniProtKB/Swiss-Prot | UniProtKB/TrEMBL | UniParc | UniRef | |
---|---|---|---|---|
Revisió | Manual | Automàtica | Automàtica | Automàtica |
Informació [11] | 550.000 seqüències | 60 milions de seqüències | Seqüènices que UniProtKB no considera prou importants: descatalogades, pseudogens, etc (desenvolupat a continuació). | Seqüències agrupades en clústers, amaga la redundància |
UniProt Knowledgebase (UniProtKB) és una base de dades de proteïnes revisada per experts, que consta de dues seccions. La primera és Swiss-Prot i conté entrades revisades i anotades manualment per revisors. En segon lloc, hi ha TrEMBL, que conté entrades no revisades per revisors però automàticament anotades. Així doncs, la diferència principal entre els dos webs és si el mètode de revisió de les seqüències és manual o automàtic.[12]
Les seqüències de proteïnes d'UniprotKB provenen de la transcripció de les seqüències de nucleòtids codificants que proporciona EMBL-Bank/GeneBank/DDBJ. Al seu torn, aquestes seqüències són obtingudes a través de treball experimental o per programes de predicció de gens. A totes les seqüències traduïdes se’ls hi assigna un identificador que és el mateix en el web original d'EMBL-Bank/GeneBank/DDBJ i a UniProtKB.[13]
La necessitat de crear TrEMBL prové de la rapidesa en què es generen noves seqüències que impossibilita la revisió exhaustiva de cadascuna d’elles. Com a solució, es va crear TrEMBL que emmagatzema seqüències revisades per mètodes computacionals d’alta qualitat. Aquests mètodes fins i tot permeten dur a terme classificacions i anotacions automàtiques. Presenten l’avantatge que poden fer-se públiques les noves seqüències amb més rapidesa i el desavantatge que no estan revisades manualment i per tant la qualitat de les dades és inferior. Convé mantenir una separació entre els dos tipus de dades perquè no es dilueixin les dades d’alta qualitat.[13]
UniProtKB/Swiss-Prot és una base de dades de seqüències de proteïnes no redundants anotades manualment. Combina informació extreta de literatura científica i anàlisi computacional revisada per revisors. L'objectiu d'UniProtKB/Swiss-Prot és proporcionar tota la informació rellevant coneguda sobre una proteïna en particular. L'anotació es revisa regularment per mantenir-se al dia amb els descobriments científics actuals. L'anotació manual d'una entrada implica una anàlisi detallada de la seqüència de proteïnes i de la literatura científica.[14]
Les seqüències del mateix gen i de la mateixa espècie es combinen en la mateixa entrada de base de dades. S’identifiquen les diferències entre seqüències i es documenta la seva causa que poden ser per exemple: empalmament alternatiu, variació natural, llocs d’iniciació incorrectes, límits d'exons incorrectes, desplaçaments de marcs de lectura, conflictes no identificats. Les prediccions computacionals s’avaluen manualment i es seleccionen els resultats rellevants per incloure'ls a l'entrada. Aquestes prediccions inclouen modificacions post-traduccionals, dominis transmembrana i topologia, pèptids senyal, identificació de dominis i classificació de famílies de proteïnes.[14]
Les publicacions rellevants s’identifiquen cercant en bases de dades com PubMed. Es llegeix el text complet de cada article i s’extreu informació i s’afegeix a l'entrada. L'anotació sorgida de la literatura científica inclou, entre d'altres:
Trets que s'inclouen en l'anotació |
---|
Noms de proteïnes i gens |
Funció |
Informació específica d'enzims: activitat catalítica, cofactors, i residus catalítics |
Localització subcel·lular |
Interacció entre proteïnes |
Patrons d’expressió |
Localització i rols de dominis i llocs importants |
Ions, substrats i llocs d’unió de cofactor |
Formes variants de les proteïnes produïdes per variació genètica natural, modificació de RNA, splicing alternatiu, processos proteolítics i modificacions post-transcripcionals |
Cada seqüència és revisada abans de ser inclosa en UniProtKB/Swiss-Prot i s’actualitza cada entrada quan hi ha informació nova.[14]
UniProtKB/TrEMBL conté les seqüències transcrites a partir de seqüències d EMBL-Bank/GeneBank/DDBJ que són processades automàticament i dirigides a UniProtKB/TrEMBL. A més també inclou seqüències de PDB i de predicció de gens com Ensembl, RefSeq i CCDS.[13]
El sistema computacional que permet l’anotació automàtica de seqüències no revisades manualment, permet augmentar la qualitat de les mateixes. El programa que utilitzen per a la classificació i anotació de dominis automàtica és InterPro, que permet fer una anàlisi funcional de les seqüències que inclou: classificar-les en famílies, predir dominis i nucleòtids importants. InterPro es basa en models predictius que provenen de diverses bases de dades que conformen el consorci InterPro.[15] Per altra banda, l'anotació automàtica es du a terme per dos sistemes: UniRule i ARBA (Association-Rule-Based Annotator). UniRule permet anotar:[16]
UniRule |
---|
Nom de la proteïna |
Funció |
Activitat catalítica |
Localització subcel·lular |
Posicions on es duen a terme modificacions post-transcripcionals |
Llocs catalítics |
ARBA utilitza aprenentatge automàtic per crear les anotacions més precises basant-se en llargada de la seqüènecia, InterPro group membership i taxonomia. Això permet anotar propietats de la proteïna excloent el nom de la proteïna i caràcters que requereixen de predicció.[17]
UnProtKB conté la majoria de seqüències proteiques obertes al públic però exclou les següents seqüències:[18]
Seqüències excloses |
---|
Immunoglobulines i receptors de cèlules T |
Seqüències sintètiques |
Seqüències que s’apliquen en patents |
Seqüències inferiors a 8 aminoàcids |
Pseudogens |
Seqüències de proteomes redundants |
Seqüències que RefSeq i NCBI genomes considera de baixa qualitat |
Proteïnes de fusió o truncades |
Proteïnes no reals |
Algunes d’aquestes seqüències a vegades poden no ser reconegudes pels programes automàtics d’anotació i ser accidentalment incolses a UniProtKB. Per aquest motiu cal que, per exemple, el tipus 8 i 9 siguin excloses manualment per revisors. Totes les excloses acaben a la secció UniParc.[18]
UniProt Archive (UniParc) és una bases de dades integral i no redundant, conté totes les seqüències de proteïnes de les principals bases de dades disponibles públicament. Les proteïnes poden existir en diverses bases de dades de fonts diferents i en diverses còpies a la mateixa base de dades. Per tal d’evitar la redundància, UniParc només emmagatzema una vegada cada seqüència única.[19]
Es combinen seqüències idèntiques independentment de que provinguin de la mateixa espècie o no. A cada seqüència se li proporciona un identificador únic i estable (UPI), que permet identificar la mateixa proteïna a partir de diferents bases de dades d'origen. UniParc només conté seqüències de proteïnes, sense cap anotació. Les referències creuades de bases de dades a les entrades UniParc permeten obtenir més informació sobre la proteïna de les bases de dades d'origen. Quan canvien les seqüències de les bases de dades d'origen, aquests canvis són rastrejats per UniParc i s'arxiva a l'historial de tots els canvis.[20]
Actualment, UniParc conté seqüències de proteïnes de les següents bases de dades disponibles:
Bases de dades d'on s'extreu la informació: |
---|
Bases de dades de nucleòtids: INSDC, EMBL-Bank/DDBJ/GenBank |
Ensembl |
European Patent Office (EPO) |
FlyBase: the primary repository of genetic and molecular data for the insect family Drosophilidae (FlyBase) |
H-Invitational Database (H-Inv) |
International Protein Index (IPI) |
Japan Patent Office (JPO) |
Protein Information Resource (PIR-PSD) |
Protein Data Bank (PDB) |
Protein Research Foundation (PRF) |
RefSeq |
Saccharomyces Genome Database (SGD) |
The Arabidopsis Information Resource (TAIR) |
TROME |
US Patent Office (USPTO) |
UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL |
Vertebrate and Genome Annotation Database (VEGA) |
WormBase |
UniRef fa referència als clústers de referència d'UniProt que consisteixen en tres bases de dades de conjunts agrupats de seqüències de proteïnes d’UniProtKB (incolent les isoformes) i registres seleccionats d’UniParc. Això amaga les seqüències redundants i obté una cobertura de l'espai de la seqüència a tres dimensions.[21]
Les seqüències UniRef100 s’agrupen mitjançant l'algorisme CD-HIT per construir UniRef90 i UniRef50.
Abans del 2013, no hi ha havia cap llindar de superposició, pel que els clústers tenien una longitud més heterogènia. UniRef90 i UniRef 50 van produir una reducció de mida de les bases de dades d'aproximadament un 58% i un 79% respectivament. L’agrupació de seqüències redueix significativament la mida de la base de dades i permet fer cerques de seqüències més ràpides.[23]
Cada clúster es compon de seqüències que tenen entre un 90% o un 50% d’identitat de seqüència, respectivament, fins a la seqüència més llarga. Però la seqüència més llarga no és sempre la més informativa. Sovint hi ha més informació rellevant biològicament en altres membres del clúster. Les proteïnes d'un clúster es classifiquen amb la següent prioritat per tal de facilitar la selecció d'un representat rellevant biològicament pel clúster:[23]
Uniprot conté tres eines principals: BLAST (Basic Alignment Search Tools), Align i Retrive/ID Mapping.[24]
Permet comprovar la similitud entre dues seqüències de proteïnes.[24]
Aquesta eina permet dur a terme alineaments múltiples mitjançant l’algoritme Clustal Omega per trobar àrees de semblança entre seqüències.[24]
Hi ha diverses formes d’utilitzar aquesta eina. Una d’elles és la següent:
Aquesta eina permet penjar una llista d'identificadors d’UniProt i cercar-los en centenars de bases externes. Gràcies a aquesta eina podem obtenir informació com l'estructura 3D, interaccions entre proteïnes, famílies i grups, química i modificacions post-transcripcionals entre d’altres.[24]
Una de les maneres d'utilitzar aquesta eina és la següent:
UniProt està finançat per subvencions de l'Institut Nacional de Recerca del Genoma Humà, els Instituts Nacionals de Salut (NIH), la Comissió Europea, el Govern Federal Suís a través de l’Oficina Federal d’Educació i Ciència, NCI-caBIG i el Departament de Defensa dels Estats Units.[25][26]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.