UniProt (Universal Protein) é unha base de datos accesible gratuitamente, de alta calidade e completa de información de secuencias de proteínas e as súas funcións, na cal moitas das entradas proceden de proxectos de secuenciación de xenomas. Contén unha gran cantidade de información sobre as funcións biolóxicas das proteínas derivada da literatura científica. As principais bases de datos que están incluídas en UniProt son: Swiss-Prot, TrEMBL (estas dúas forman parte de UniProtKB), UniParc, UniRef, e UniMes.[1]

O consorcio UniProt

UniProt é un consorcio que comprende o Instituto Europeo de Bioinformática (European Bioinformatics Institute, EBI), o Instituto Suízo de Bioinformática (Swiss Institute of Bioinformatics, SIB), e o Recurso de Información de Proteínas (Protein Information Resource, PIR). O EBI está localizado no Wellcome Trust Genome Campus en Hinxton, Reino Unido, e alberga un gran recurso de bases de datos informáticas e servizos. O SIB, ten sede en Xenebra, Suíza, e mantén os servidores de ExPASy (Expert Protein Analysis System, Sistema de Análise de Proteíns Experto) que é un recurso central de ferramentas proteómicas e bases de datos. O PIR, está albergado na Fundación de Investigación Biomédica Nacional (National Biomedical Research Foundation, NBRF) do Centro Médico da Universidade de Georgetown en Washington, D.C., Estados Unidos, e é herdeiro da antiga base de datos de secuencias de proteínas chamada Atlas de Secuencias e Estruturas de Proteínas de Margaret Dayhoff, que se empezou a publicar en 1965.[2] En 2002, o EBI, o SIB, e o PIR uniron as súas forzas formando o consorcio UniProt.[3]

Historia de UniProt

Cada un dos membros do consorcio está moi implicado no mantemento da base de datos de proteínas e na súa anotación. Ata hai pouco, o EBI e o SIB en conxunto producían as bases de datos Swiss-Prot e TrEMBL, mentres que o PIR xeraba a Base de datos de Secuencias de Proteínas (Protein Sequence Database, PIR-PSD).[4][5][6] Estas bases de datos coexistían tendo prioridades diferentes en canto á cobertura na secuencia de proteínas e na anotación.

Swiss-Prot creouna en 1986 Amos Bairoch e desenvolveuna o Instituto Suízo de Bioinformática e seguidamente desenvolveuna Rolf Apweiler no Instituto Europeo de Bioinformática.[7][8][9] Swiss-Prot ten como obxectivo proporcionar secuencias fiables de proteínas asociadas cun alto nivel de anotación (como son a descrición da función da proteína, a súa estrutura de dominios, as modificacións postraducionais, variantes etc.), un nivel mínimo de redundancia, e un alto nivel de integración con outras bases de datos. Porén, co tempotivo que recoñecerse que os datos de secuencias estaban xerándose a un ritmo que excedía a capacidade de Swiss-Prot para tratalos, creouse entón TrEMBL (Translated EMBL Nucleotide Sequence Data Library, Biblioteca de Datos de Secuencias de Nucleótidos de EMBL Traducidas) para proporcionar anotacións automatizadas desas proteínas que non estaban en Swiss-Prot. Mentres tanto, o PIR mantiña a mencionada PIR-PSD e bases de datos relacionadas, incluíndo a base de datos de proteínas e familias proteicas revisadas iProClass.

Os membros do consorcio xuntaron os seus recursos solapados e experiencias, e lanzaron finalmente UniProt en decembro de 2003.[10]

Organización das bases de datos de UniProt

O corazón de UniProt está formado por catro bases de datos: UniProtKB (que se subdivide en Swiss-Prot e TrEMBL), UniParc, UniRef, e UniMes.

UniProtKB

UniProt Knowledgebase (UniProtKB) é unha base de datos de proteínas parcialmente revisada por expertos, que consta de dúas seccións: UniProtKB/Swiss-Prot (que conteñen entradas anotadas manualmente, revisadas) e UniProtKB/TrEMBL (que contén entradas anotadas automaticamente e non revisadas).[11] En marzo de 2014 saíu a edición "2014_03" de UniProtKB/Swiss-Prot, que contiña 542.782 entradas de secuencias (que constaban de 193.019.802 aminoácidos obtidos a partir de 226.896 referencias) e a edición "2014_03" de UniProtKB/TrEMBL contiña 54.247.468 de entradas de secuencias (que constaban de 17.207.833.179 aminoácidos).[12][13]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot é unha base de datos de secuencias non redundantes anotadas manualmente. Combina información extraída da literatura científica con análises computacionais avaliadas por un biocurador. O obxectivo de UniProtKB/Swiss-Prot é proporcionar toda a información relevante coñecida sobre unha determinada proteína. A anotación é revisada regularmente para manterse ao día dos novos descubrimentos científicos que se vaian producindo. A anotación manual dunha entrada implica a análise detallada da secuencia de proteínas e da literatura científica.[14]

As secuencias do mesmo xene e da mesma especie fusiónanse na mesma entrada da base de datos. Identifícanse as diferenzas entre secuencias, e a súa causa é documentada (por exemplo splicing alternativo, variación natural, sitios de iniciación da tradución incorrectos, límites de exóns incorrectos, mutacións de cambio de pauta de lectura, e conflitos non identificados). Na anotación das entradas de UniProtKB/Swiss-Prot utilízase un conxunto de ferramentas de análises de secuencias. As predicións feitas por computador son avaliadas manualmente, e os resultados relevantes son seleccionados para a súa inclusión na entrada. Estas predicións inclúen as modificacións postraducionais, os dominios transmembrana e a topoloxía, péptidos sinal, identificación de dominios, e clasificación das familias proteicas.[14][15]

As publicacións relevantes identifícanse buscando nas bases de datos como PubMed. Lese o texto completo de cada artigo, e a información é extraída e engadida á entrada. As anotacións que se fan atendendo á información da literatura científica inclúen, entre outras, as seguintes:[10][14][15]

As entradas anotadas pasan por un control de calidade antes da súa inclusión en UniProtKB/Swiss-Prot. Cando se dispón dun dato novo, as entradas son actualizadas.

UniProtKB/TrEMBL

UniProtKB/TrEMBL contén rexistros analizados computacionalmente de alta calidade, que son enriquecidos cunha anotación automática. Esta base de datos creouse en resposta ao incremento do fluxo de datos resultante do progreso dos proxectos xenoma, xa que o proceso de anotación manual levaba moito tempo e traballo en UniProtKB/Swiss-Prot e non podía ser ampliado para incluír todas as secuencias de proteínas dispoñibles.[10] As traducións de secuencias codificantes anotadas na base de datos de secuencias nucleotídicas EMBL-Bank/GenBank/DDBJ son procesadas automaticamente e introducidas en UniProtKB/TrEMBL. UniProtKB/TrEMBL tamén contén secuencias procedentes de PDB, e da predición de xenes, incluíndo Ensembl, RefSeq e CCDS.[16]

UniParc

UniProt Archive (UniParc) é unha base de datos completa e non redundante, que contén todas as secuencias de proteínas procedentes das principais bases de datos de secuencias dispoñibles publicamente.[17] A información dunha proteína pode encontrarse en varias bases de datos distintas, e en moitas copias na mesma base de datos. Para evitar a redundancia, UniParc almacena cada secuencia única só unha vez. As secuencias idénticas son fusionadas, sen importar se proceden da mesma ou de diferente especie. A cada secuencia dáselle un identificador único e estable (UPI), o que fai posible identificar a mesma proteína en diferentes bases de datos fonte. UniParc contén só secuencias de proteínas, sen anotación. As referencias cruzadas das bases de datos nas entradas de UniParc permiten que se obteña máis información sobre a proteína das bases de datos fonte. Cando as secuencias da base de datos fonte cambian, estes cambios son monitorizados por UniParc e arquívase a historia de todos os cambios.

Bases de datos de fontes

Actualmente UniParc contén secuencias de proteínas das seguintes bases de datos consultables polo público:

  • INSDC EMBL-Bank/DDBJ/GenBank (bases de datos de secuencias de nucleótidos)
  • Ensembl
  • Oficina de Patentes Europea (EPO)
  • FlyBase: repositorio primario de datos moleculares e xenéticos para a familia dos inectos drosofílidos (FlyBase)
  • H-Invitational Database (H-Inv)
  • International Protein Index (IPI)
  • Oficina de Patentes do Xapón (JPO)
  • Protein Information Resource (PIR-PSD)
  • Protein Data Bank (PDB)
  • Protein Research Foundation (PRF)
  • RefSeq
  • Saccharomyces Genome Database (SGD)
  • The Arabidopsis Information Resource (TAIR)
  • TROME [Ligazón morta]
  • Oficina de Patentes dos Estados Unidos (USPTO)
  • UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL
  • Vertebrate and Genome Annotation Database (VEGA)
  • WormBase

UniRef

Os UniProt Reference Clusters (UniRef) constan de tres bases de datos de conxuntos agrupados de secuencias de proteínas de UniProtKB e rexistros seleccionados de UniParc.[18] A base de datos UniRef100 combina secuencias idénticas e fragmentos de secuencia (de cada organismo) nunha soa entrada de UniRef. Móstranse a secuencia dunha proteína representativa, os números de acceso de todas as entradas fusionadas e as ligazóns aos correspondentes rexistros de UniProtKB e UniParc. As secuencias UniRef100 agrúpanse usando o algoritmo CD-HIT para así construír UniRef90 e UniRef50.[18][19] Cada grupo está composto por secuencias que teñen polo menos un 90% ou 50% de identidade de secuencia, respectivamente, coa secuencia máis longa. Agrupar as secuencias reduce significativamente o tamaño da base de datos, o que permite facer buscas de secuencias máis rapidamente.

UniRef está dispoñible no sitio FTP de UniProt.

UniMes

A base de datos UniProt Metagenomic and Environmental Sequences (UniMES) é un repositorio desenvolvido especificamente para datos metaxenómicos e ambientais.[20] As proeínas preditas deste conxunto de datos combínanse coa clasificción automática por InterPro para aumentar a información orixinal con análises posteriores.

UniProtKB contén secuencias de proteínas de especies coñecidas, datos procedentes de estudos metaxenómicos de mostras ambientais (é dicir, microorganismos non cultivados), polo que a especie pode non ser coñecida ou non foi aínda identificada. UniMES foi especialmente desenvolvida para tratar este tipo de datos. Os datos de UniMES non están incluídos en UniProtKB nin en UniRef, pero inclúense en UniParc.[20] En xullo de 2012, UniMES contiña só datos da Expedición de Mostraxe Oceánica Global (Global Ocean Sampling Expedition, GOS).[21] Os datos de mostras ambientais contidos nesta base de datos non están presentes nin en UniProt Knowledgebase nin en UniProt Reference Clusters.

As agrupacións de UniMES proporcionan conxuntos agrupados (unimes_cluster100 e unimes_cluster90) de secuencias en dúas resolucións (100% e >90%). En unimes_cluster100, as secuencias idénticas e subfragmentos de unimes.fasta sitúanse nun só agrupamento. O unimes_cluster90 constrúese agrupando secuencias representativas unimes_cluster100 (a secuencia máis longa nun agrupamento) usando o algoritmo CD-HIT,[19] de modo que cada agrupamento está composto de secuencias que teñen polo menos unha identidade de secuencia do 90%, coa secuencia representativa. Nestes ficheiros están presentes só as secuencias representativas dos agrupamentos.

UniMES está dispoñible no sitioFTP de UniProt[Ligazón morta].

Financiamento de UniProt

UniProt finánciase con fondos procedentes do National Human Genome Research Institute, os National Institutes of Health (NIH) dos Estados Unidos, a Comisión Europea, o goberno federal suízo por medio da Oficina Federal de Educación e Ciencia, NCI-caBIG, e o Departamento de Defensa.[11]

Notas

Véxase tamén

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.