From Wikipedia, the free encyclopedia
A base de datos SCOP (Structural Classification of Proteins, Clasificación Estrutural de Proteínas) realiza unha clasificación das proteínas baseada en dominios estruturais en gran medida feita manualmente elaborada de acordo coas semellanzas das súas estruturas e secuencias de aminoácidos. Unha motivación para facer este tipo de clasificación é determinar as relacións evolutivas entre proteínas. As proteínas que teñen as mesmas formas pero teñen pouca semellanza nas súas secuencias ou funcións sitúanse en diferentes "superfamilias", e considérase que o seu antepasado común está moi distante. As proteínas que teñen a mesma forma e algunha semellanza nas secuencias ou funcións sitúanse en "familias", e considérase que teñen un antepasado común próximo.
A base de datos SCOP é accesible gratuitamente en Internet. SCOP creouse en 1994 no Centre for Protein Engineering e no Laboratory of Molecular Biology ambos os dous de Inglaterra.[1] Primeiro encargábase do seu mantemento Alexey G. Murzin e outros colegas no Centre for Protein Engineering ata que se pechou en 2010 e despois no Laboratory of Molecular Biology en Cambridge, Inglaterra.[2][3][4] En 2012 apareceu SCOPe, que estaba máis automatizada. En xaneiro de 2014, cesaron os trabalos en SCOP e a última versión oficial de SCOP é a 1.75 (que saíra en xuño de 2009). Non obstante, púxose a disposición do público unha nova base de datos chamada Structural Classification of Proteins 2 (SCOP2), que substituirá a SCOP. A base de datos SCOP2 define un novo enfoque para a clasificación de proteínas que é esencialmente diferente do que tiña SCOP, pero que mantén as súas mellores características.
A fonte de estruturas de proteínas é Protein Data Bank (PDB). A unidade de clasificación de estrutura en SCOP é o dominio proteico. O que entenden os autores de SCOP por "dominio" é suxerido pola afirmación que fan de que as proteínas pequenas e a maioría das proteínas de tamaño medio só teñen un dominio,[5] e pola observación de que á hemoglobina humana,[6] a cal ten unha estrutura α2β2, asígnanselle dous dominios SCOP, un para a subunidade α e outro para a β.
As formas dos dominios denomínanse "pregamentos" (folds) en SCOP. Os dominios que pertencen ao mesmo pregamento teñen as mesmas estruturas secundarias principais coa mesma disposición e coas mesmas conexións topolóxicas. Na versión 1.75 de SCOP danse 1195 pregamentos distintos. Tamén se dan descricións de cada un deles. Por exemplo, o pregamento "similar ao da globina" ou "de tipo globina" (globin-like) descríbese así corazón ou core: 6 hélices; folla pregada, parcialmente aberto. O pregamento ao que pertence o dominio determínase por medio dunha inspección, máis ben que facendo uso dun programa informático.
Os niveis de clasificación de SCOP son os seguintes:
Os pregamentos están agrupados en "clases". As clases están no nivel superior, ou "raíz" da clasificación xerárquica de SCOP. As clases preséntanse en SCOP aproximadamente así:
O número entre corchetes, chamado "sunid", é un SCOP unique integer identifier (identificador enteiro único de SCOP) para cada nodo da xerarquía de SCOP. O número entre parénteses indica cantos elementos hai en cada categoría. Por exemplo, hai 284 pregamentos na clase "Proteínas todo alfa". Cada membro da xerarquía é unha ligazón ao seguinte nivel de xerarquía.
Como exemplo, os primeiros pregamentos do total de 284 pregamentos na clase de "Proteínas todo α" móstranse da seguinte maneira:
Cada pregamento vai seguido dunha descrición dese pregamento.
Os dominios dun pregamento clasifícanse ulteriormente en superfamilias, as cales, á súa vez, son clasificadas en familias. Dentro dun pregamento, os dominios que pertencen á mesma superfamilia considérase que teñen un antepasado común. Porén, este antepasado considérase que é distante, porque os diferentes membros dunha superfamilia teñen identidades de secuencia baixas. Como exemplo, as dúas superfamilias do pregamento "similar á globina" móstranse da seguinte maneira:
Non se dá descrición para a superfamilia "similar á globina", presumiblemente porque a súa descrición é moi similar á do pregamento do cal toma o nome.
As familias están máis estreitamente relacionadas que as superfamilias. Os dominios nun pregamento están situados na mesma familia atendendo á semellanza de secuencias e de funcións, de modo que se cumpre que
A semellanza na secuencia e estrutura é unha proba de que esas proteínas teñen unha relación evolutiva máis próxima que as proteínas da mesma superfamilia. Utilízanse ferramentas de secuencia, como BLAST, para axudar a situar os dominios en superfamilias e familias. Como exemplo, as catro familias na superfamilia "similar á globina" móstranse da seguinte maneira:
As familias de SCOP poden tamén denominarse usando unha cadea de caracteres de clasificación SCOP concisa, sccs, a cal pode ser, por exemplo, a.1.1.2 para a familia da "Globina". A letra identifica a clase á cal pertence o dominio; os seguintes números enteiros identifican o pregamento, a superfamilia, e a familia, respectivamente.[7]
Dentro dunha familia están os dominios proteicos. As proteínas están situadas no mesmo dominio proteico se son isoformas unhas das outras, ou se son esencialmente a mesma proteína, pero procedente de diferentes especies de seres vivos. Isto normalmente faise de forma manual. Os "dominios proteicos" son subdivididos despois en especies. (Os "dominios proteicos" non están en páxinas separadas na actual versión de SCOP; pero en pre-SCOP, estaban en páxinas separadas.) Como exemplo, algúns dos 81 dominios proteicos da familia das "Globinas" móstranse aquí:
O "TaxId" éo número ID de taxonomía; tamén é unha ligazón ao buscador taxonómico do NCBI, que proporciona máis información sobre as especies ás cales pertence a proteína.
Ao clicar nunha especie ou isoforma aparece unha lista de dominios. Como exemplo, algúns dos 192 dominios da proteína "Hemoglobina, cadea alfa de humanos (Homo sapiens)" móstranse aquí:
Ao clicar nos números PDB suponse que se mostra a estrutura da molécula, pero as ligazóns están actualmente rotas. (Esas ligazóns funcionaban en pre-SCOP.)
A maioría das páxinas de SCOP conteñen unha caixa de busca. O introducir na caixa o texto "trypsin +human" obteñense varias proteínas, como a proteína tripsinóxeno humana. Ao seleccionar esa entrada móstrase unha páxina que inclúe a "liñaxe", a cal está na parte superior da maioría das páxinas de SCOP. A páxina inclúe a seguinte información:
Se o texto de busca que se introduce é "Subtilisin" aparece a proteína "Subtilisina de Bacillus subtilis, carlsberg", coa seguinte liñaxe:
Aínda que ambas as proteínas son proteases, nin sequera pertencen ao mesmo tipo de pregamento, o cal concorda con que son un exemplo de evolución converxente.
A clasificación SCOP depende máis de decisións manuais que a clasificación semiautomática por medio de CATH, o seu principal rival. Utilízanse expertos humanos para decidir se certas proteínas están relacionadas evolutivamente e, por tanto, deberían asignarse á mesma superfamilia, ou se a súa semellanza é o resultado de restricións estruturais e por esa razón pertencen ao mesmo tipo de pregamento. Outra base de datos chamada FSSP, é xerada de xeito totalmente automático (e con actualizacións automáticas periódicas) pero non ofrece unha clasificación, o que permite que o usuario tire a súa propia conclusión en canto ao significado das relacións estruturais baseadas en comparacións de pares de estruturas proteicas individuais.
En 2009, a base de datos orixinal SCOP clasificaba manualmente 38000 entradas PDB nunha estrutura estritamente xerárquica. Coa aceleración que experimentou o número de publicacións sobre estruturas de proteínas, a limitada automatización da clasificación non podía manter a clasificación das mesmas ao mesmo ritmo, o que orixinou que o conxunto de datos xa non fose completo. En 2012 apareceu a base de datos Structural Classification of Proteins extended (SCOPe ou Clasificación Estrutural de Proteínas ampliada) que tiña unha moita maior automatización do mesmo sistema xerárquico e é totalmente compatible con SCOP. En 2014, a curación manual foi reintroducida en SCOPe para manter unha axeitada asignación de estruturas. En febreiro de 2015, SCOPe 2.05 clasificaba 71000 das 110000 entradas totais de PDB.[8]
SCOP2 é un prototipo de sistema de clasificación que ten como obxectivo ter en conta a maior complexidade evolutiva inherente na evolución da estrutura das proteínas. Xa que logo, non é unha simple xerarquía, senón unha rede que conecta as superfamilias de proteínas que representan as relacións evolutivas e estruturais, como as permutacións circulares, fusión de dominios e decadencia de dominios. Consecuentemente, os dominios non están separados por unhas fronteiras estritamente fixadas, senón que se definen polas súas relacións coas outras estruturas que teñen máis similitude con elas. En febreiro de 2015, o prototipo SCOP2 clasificaba 995 entradas PDB.[8]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.