Aliñamento estrutural

Un aliñamento estrutural é un tipo de aliñamento de secuencias baseado na comparación da forma de moléculas. Estes aliñamentos intentan establecer equivalencias entre dúas ou máis estruturas de polímeros baseándose na súa forma e conformación tridimensional. O proceso aplícase normalmente ás estruturas terciarias das proteínas, mais tamén pode usarse para longas moléculas de ARN. A diferenza da simple superposición estrutural, onde polo menos se coñecen algúns residuos equivalentes das dúas estruturas, o aliñamento estrutural non require un coñecemento previo de posicións equivalentes. É unha valiosa ferramenta para a comparación de proteínas que teñen baixa similitude entre as súas secuencias, onde as relacións evolutivas entre proteínas non poden ser detectadas doadamente por técnicas estándares de aliñamento de secuencias. Por tanto, o aliñamento estrutural pode utilizarse para suxerir relacións evolutivas entre proteínas que comparten unha secuencia común moi curta. Porén, o uso dos resultados como evidencia dun antepasado evolutivo común debe realizarse con precaución dados os posibles efectos de confusión coa evolución converxente, segundo a cal múltiples secuencias de aminoácidos sen relación filoxenética entre eles converxen dando unha mesma estrutura terciaria.

Os aliñamentos estruturais poden comparar dúas ou múltiples secuencias. Como estes aliñamentos dependen da información sobre todas as conformacións tridimensionais das secuencias problema, o método só pode utilizarse para secuencias onde estas estruturas sexan coñecidas. Estas encóntranse normalmente por cristalografía de raios X ou espectroscopia de resonancia magnética nuclear. É posible realizar un aliñamento estrutural de estruturas producidas mediante métodos de predición de estrutura. Para a avaliación de tales predicións cómpre a miúdo facer un aliñamento estrutural entre o modelo e a estrutura real coñecida para avaliar a calidade do modelo. Os aliñamentos estruturais son especialmente útiles para analizar datos xurdidos dos campos da xenómica estrutural e a proteómica, e poden usarse como puntos de comparación para avaliar aliñamentos xerados por métodos bioinformáticos baseados exclusivamente en secuencias.^[1]

O resultado dun aliñamento estrutural é unha superposición dos conxuntos de coordenadas atómicas, e unha distancia media cadrática mínima (ou RMSD, de Root Mean Square Deviation, ou desviación da media cadrática) entre as estruturas básicas das proteínas superpostas. A RMSD de estruturas aliñadas indica as diverxencias entre elas. O aliñamento estrutural pode complicarse pola existencia de múltiples dominios proteicos no interior dunha ou máis das estruturas de entrada (input), xa que cambios na orientación relativa dos dominios entre dúas estruturas a aliñar poden esaxerar a RMSD artificialmente.

Datos producidos polo aliñamento estrutural

A información mínima producida por un aliñamento estrutural correcto é un conxunto de coordenadas tridimensionais superpostas para cada estrutura inicial. Nótese que un dos elementos de entrada pode estar fixado como referencia e que, por tanto, as súas coordenadas superpostas non cambiarán. As estruturas encaixadas poden usarse para calcular valores de RMSD mutuos, e outras medidas de similitude estrutural máis sofisticadas como o test de distancia global (GDT,^[2] nas súas siglas en inglés, e que é a métrica utilizada en CASP, Critical Assessment of Techniques for Protein Structure Prediction). Un aliñamento estrutural tamén implica un aliñamento de secuencias unidimensional a partir do cal pode calcularse unha secuencia identidade, ou a porcentaxe de residuos que son idénticos entre as estruturas de entrada, como unha medida da proximidade á que se encontran ambas as secuencias.

Tipos de comparacións

Dado que as estruturas das proteínas se compoñen de aminoácidos cuxas cadeas laterais están ligadas por un esqueleto proteico común de enlaces peptídicos, pode utilizarse certo número de posibles subconxuntos dos átomos que conforman unha macromolécula de proteína para producir un aliñamento estrutural e calcular os correspondentes valores RMSD. Cando se aliñan estruturas con secuencias moi diferentes, os átomos da cadea lateral, xeralmente, non se teñen en conta, xa que as súas identidades difiren en moitos dos residuos aliñados. Por esta razón, nos métodos de aliñamento estrutural é común usar por defecto só os átomos do esqueleto incluídos no enlace peptídico. Por simplicidade e eficiencia a miúdo só se consideran as posicións do carbono alfa, xa que o enlace peptídico ten unha conformación planar mínimamente variante. Só cando as estruturas que se van aliñar son moi similares, e mesmo idénticas, é significativo aliñar posicións de átomos da cadea lateral, e nese caso a RMSD reflicte non só a conformación do esqueleto da proteína, senón tamén os estados das rotacións angulares nas cadeas laterais. Outros criterios de comparación que reducen o ruído e favorecen as coincidencias son: tomar en consideración a estrutura secundaria das proteínas, os mapas de contactos nativos ou patróns de interacción entre residuos, medidas do empaquetamento da cadea lateral, e medidas do mantemento dos enlaces de hidróxeno.^[3]

Superposición estrutural

A comparación máis sinxela posible entre estruturas de proteínas non intenta aliñar as estruturas de entrada, senón que necesita un aliñamento precalculado como input para determinar que residuos da secuencia deben considerarse para o cálculo da RMSD. A superposición estrutural úsase comunmente para comparar conformacións múltiples da mesma proteína (nese caso non é necesario o aliñamento, xa que a secuencia é a mesma) e para avaliar a calidade dos aliñamentos producidos usando só información das secuencias entre dúas ou máis secuencias de estruturas coñecidas. Este método utiliza tradicionalmente un sinxelo algoritmo de axuste por mínimos cadrados, no que as rotacións e translacións óptimas encóntranse minimizando a suma dos cadrados das distancias entre todas as estruturas da superposición.^[4] Máis recentemente, os métodos bayesianos e de máxima verosimilitude incrementaron enormemente a precisión das rotacións, translacións e matrices de covarianza estimadas para a superposición.^[5]^[6]

Desenvolvéronse algoritmos baseados en rotacións multidimensionais e cuaternións modificados para identificar relacións topolóxicas entre estruturas proteicas sen a necesidade dun aliñamento predeterminado. Tales algoritmos identificaron exitosamente pregamentos canónicos tales como o feixe de catro hélices alfa.^[7] O método SuperPose é suficientemente extensible de axustar para rotacións de dominios relativos e outros problemas estruturais.^[8]

Complexidade algorítmica

Tanto o enfiado óptimo dunha secuencia dunha proteína nunha estrutura coñecida^[9] coma a xeración dun aliñamento múltiple de secuencias óptimo^[10] demostraron ser problemas NP-completos. Porén, isto non significa que o problema do aliñamento estrutural sexa NP-completo. Baseándose no argumento de que unha solución óptima verdadeira non é bioloxicamente significativa debido ao erro experimental inherente na determinación da estrutura proteica, desenvolveuse un algoritmo de tempo polinómico aproximado para o aliñamento de estruturas que produce unha familia de solucións "óptimas" dentro dun parámetro de aproximación para unha función de puntuación dada.^[11] Non obstante, ao ser o custo computacional para unha proteína globular de n residuos de aminoácidos $O(n^{10}/\epsilon ^{6})$ , o algoritmo é aínda demasiado custoso computacionalmente para que teña un uso práctico. Como consecuencia, non existen algoritmos prácticos que converxan ás soluciones globais do aliñamento dada unha función de puntuación. A maioría dos algoritmos son, por tanto, heurísticos, pero desenvolvéronse algúns que garanten a converxencia a (polo menos) maximizadores locais das funcións de puntuación, e que son prácticos.^[12]

Representación de estruturas

As estruturas das proteínas deben ser representadas nalgún espazo de coordenadas independentes para facelas comparables. Normalmente conséguese construíndo unha matriz ou serie de matrices de secuencia-a-secuencia, e que abrangan métricas comparativas en lugar de distancias absolutas relativas a un espazo de coordenadas fixas. Unha representación intuitiva é a matriz de distancias, que é unha matriz bidimensional que contén as distancias de todos os emparellamentos entre algún subconxunto dos átomos de cada estrutura (por exemplo, o carbono alfa). A matriz increméntase dimensionalmente segundo se incrementa o número de estruturas a aliñar simultaneamente. Reducindo a proteína a unha métrica máis basta, tal como elementos da súa estrutura secundaria ou fragmentos estruturais, poden tamén producirse aliñamentos prácticos, malia a perda de información ocasionada polas distancias descartadas, xa que tamén se descarta ruído.^[13] A elección dunha representación que facilite a computación é esencial para o desenvolvemento de mecanismos de aliñamento eficientes.

Métodos

As técnicas de aliñamento estrutural utilizáronse na comparación de estruturas individuais ou conxuntos de estruturas, e na produción de bases de datos de comparacións "todos contra todos" que miden a diverxencia entre cada par de estruturas presente no Protein Data Bank (PDB). Tales bases de datos úsanse para clasificar proteínas de acordo ao seu pregamento.

DALI

Un método de aliñamento estrutural común e moi utilizado é DALI (do inglés Distance ALIgnment matrix, ou matriz de aliñamento de distancias), que rompe as estruturas problema en fragmentos de hexapéptidos e calcula unha matriz de distancia avaliando os patróns de contacto entre fragmentos sucesivos.^[14] As peculiaridades da estrutura secundaria que implican residuos contiguos na secuencia aparecen na diagonal principal da matriz; outras diagonais na matriz reflicten contactos espaciais entre residuos que non están próximos un ao outro na secuencia. Cando estas diagonais son paralelas á diagonal principal, as características que representan son paralelas; cando son perpendiculares, as súas características son antiparalelas. Esta representación é intensiva en memoria, xa que as características na matriz cadrada son simétricas con respecto á diagonal principal (e, por tanto, redundantes).

Cando as matrices de distancia de dúas proteínas comparten as mesmas ou similares características en aproximadamente as mesmas posicións, pode dicirse que teñen similares pregamentos con bucles de lonxitude similar que conectan os seus elementos de estrutura secundaria. O proceso de aliñamento real de DALI require unha busca de similitude despois de que se construíran as matrices de distancia das dúas proteínas; isto diríxese normalmente por medio dunha serie de submatrices superpostas de tamaño 6x6. As coincidencias nas submatrices reúnense nun aliñamento final realizado cun algoritmo estándar de maximización de puntuación. A versión orixinal de DALI usaba unha simulación polo método de Montecarlo para maximizar unha puntuación de similitude estrutural que é función das distancias entre átomos supostamente correspondentes. En particular, os átomos máis distantes dentro dos elementos característicos vinculados son infraponderados para reducir os efectos do ruído introducido pola mobilidade dos bucles, as torsións das hélices, e outras variacións estruturais menores.^[13] Dado que DALI se basea nunha matriz de distancias "todos contra todos", pode considerar a posibilidade de que as características aliñadas estruturalmente poderían aparecer en ordes diferentes dentro das dúas secuencias que se están a comparar.

O método DALI tamén se utilizou para construír unha base de datos chamada FSSP (Fold classification based on Structure-Structure alignment of Proteins, ou clasificación de pregamentos baseada en aliñamentos estruturais de proteínas, ou tamén Families of Structurally Similar Proteins, ou familias de proteínas estruturalmente similares), na que todas as estruturas de proteínas coñecidas son aliñadas unhas con outras para determinar as súas veciñas estruturais e a clasificación dos pregamentos. Hai unha base de datos utilizable baseada en DALI e mantida polo EBI, e un programa descargable e un buscador web baseados nunha versión autónoma denominada DaliLite.

SSAP

O método SSAP (do inglés Sequential Structure Alignment Program, ou programa de aliñamento secuencial de estruturas) usa dobre programación dinámica para xerar un aliñamento estrutural baseado en vectores átomo-a-átomo nun espazo de estrutura. En lugar dos carbonos alfa utilizados normalmente en aliñamento estrutural, SSAP constrúe os seus vectores a partir de carbonos beta para todos os residuos agás glicina, método que toma en consideración o estado rotamérico de cada residuo e a súa localización ao longo do esqueleto. O SSAP traballa construíndo primeiro unha serie de vectores de distancia inter-residuos entre cada residuo e os seus veciños próximos non contiguos en cada proteína. Constrúese entón unha serie de matrices que conteñen as diferenzas de vectores entre veciños para cada par de residuos para o cal se construíron os vectores. A programación dinámica aplicada a cada matriz resultante determina unha serie de aliñamentos locais óptimos que se engaden a unha matriz "resumo" á que se lle aplica de novo programación dinámica para determinar o aliñamento estrutural global.

O SSAP producía orixinalmente só aliñamentos de parellas, pero desde entón estendeuse tamén para aliñamentos múltiples.^[15] Aplicouse dun modo "todos contra todos" para producir un esquema xerárquico de clasificación de pregamentos chamado CATH (Class, Architecture, Topology, Homology, ou clase, arquitectura, topoloxía, homoloxía),^[16] que se utilizou para construír a base de datos CATH Protein Structure Classification.

Extensión combinatoria

O método de extensión combinatoria (CE) parécese a DALI en que tamén rompe cada estrutura do conxunto problema nunha serie de fragmentos que despois se intentan volver a ensamblar nun aliñamento completo. Unha serie de combinacións de pares de fragmentos, chamados "pares de fragmentos aliñados" (ou AFPs, polas súas siglas en inglés de Aligned Fragment Pairs), úsanse para definir unha matriz de similitude a partir da cal se xera unha traxectoria óptima para identificar o aliñamento final. Como un medio para reducir o espazo de busca necesario e, por tanto, incrementar a eficiencia, só se inclúen na matriz os AFPs que cumpren un determinado criterio de similitude local.^[17] Son posibles varias métricas de similitude; a definición orixinal do método de extensión combinatoria incluía soamente superposicións estruturais e distancias inter-residuos, pero ampliouse desde entón para incluír propiedades locais do contorno tales como a estrutura secundaria, exposición ao disolvente, patróns de pontes de hidróxeno, e ángulos diedros.^[17]

Unha traxectoria de aliñamento calcúlase como a traxectoria óptima a través da matriz de similitude progresando linearmente a través das secuencias e estendendo o aliñamento co posible seguinte par AFP de máis alta puntuación. O par AFP inicial que nuclea o aliñamento pode aparecer en calquera punto da matriz de secuencias. As extensións proseguen despois co seguinte AFP que cumpre o criterio de distancia dado, restrinxindo o aliñamento a tamaños pequenos de gap (ou oco). O tamaño de cada AFP e o tamaño máximo de oco son necesarios como parámetros de entrada, mais normalmente o que se utiliza son os valores empiricamente determinados de 8 e 30, respectivamente.^[17] Igual que DALI e SSAP, a extensión combinatoria tense utilizado para construír unha base de datos Arquivado 03 de decembro de 1998 en Wayback Machine. de clasificación de pregamentos a partir das estruturas coñecidas de proteínas do Protein Data Bank.

O RCSB PDB lanzou recentemente unha versión actualizada de extensión combinatoria e FATCAT como parte da RCSB PDB Protein Comparison Tool Arquivado 14 de novembro de 2015 en Wayback Machine.. Proporciona unha nova variación de extensión combinatoria que pode detectar permutacións circulares nas estruturas proteicas.^[18]

MAMMOTH

MAMMOTH son as siglas en inglés de MAtching Molecular Models Obtained from Theory, modelos moleculares coincidentes obtidos da teoría. Os métodos de aliñamento de estruturas baseados en MAMMOTH descompoñen a estrutura da proteína en péptidos curtos (heptapéptidos), que son comparados cos heptapéptidos doutra proteína. Calcúlase unha puntuación de similitude entre dous heptapéptidos usando un método de vector unidade RMS (URMS).^[19] Estas puntuacións almacénanse nunha matriz de similitude, e calcúlase o aliñamento de residuos óptimo con programación dinámica híbrida (local-global). As puntuacións de similitude entre proteínas calculadas con MAMMOTH derívanse da probabilidade de obter un aliñamento estrutural dado por casualidade.^[20] Este método foi optimizado para velocidade e precisión, e é axeitado para estudos estruturales xenómicos a grande escala. MAMMOTH úsase en Rosetta@home.

MAMMOTH-mult é unha extensión do algoritmo MAMMOTH para ser usada ao aliñar familias relacionadas de estruturas de proteínas. Este algoritmo é moi rápido e produce aliñamentos estruturales consistentes e de alta calidade.^[21] Os aliñamentos estruturais múltiples calculados con MAMMOTH-mult producen aliñamentos de secuencias estruturalmente implícitos, que poden ser usados posteriormente como patróns para modelaxe por homoloxía, predición de estrutura de proteínas por modelos ocultos de Markov, e buscas por tipo de perfil con PSI-BLAST.

RAPIDO

RAPIDO son as siglas do inglés Rapid Alignment of Proteins In terms of DOmains (ou aliñamento rápido de proteínas en termos de dominios). RAPIDO^[22]^[23] é un servidor web para o aliñamento en 3D de estruturas cristalinas de diferentes moléculas de proteínas, en presenza de cambios conformacionais. De xeito similar ao que se fai como primeiro paso na extensión combinatoria, RAPIDO identifica fragmentos que son estruturalmente similares nas dúas proteínas usando unha aproximación baseada en matrices de distancia por diferenzas. Os pares de fragmentos coincidentes, ou MFPs (de Matching Fragment Pairs), represéntanse entón como nodos nun grafo, os cales se encadean xuntos para formar un aliñamento por medio dun algoritmo para a identificación da traxectoria máis longa nun grafo acíclico dirixido. Realízase un paso final de afinación para mellorar a calidade do aliñamento. Tras aliñar as dúas estruturas, o servidor aplica un algoritmo xenético para a identificación de rexións conformacionalmente invariantes.^[24] Estas rexións corresponden a grupos de átomos cuxas distancias interatómicas son constantes (dentro dunha tolerancia definida). Ao facelo así, RAPIDO ten en consideración a variación na fiabilidade das coordenadas atómicas empregando funcións de ponderación baseadas nos valores B afinados. As rexións identificadas por RAPIDO como conformacionalmente invariantes representan conxuntos confiables de átomos para a superposición das dúas estruturas, e que poden usarse para unha análise detallada de cambios na conformación. Ademais das funcionalidades proporcionadas polas ferramentas actuais, RAPIDO pode identificar rexións estruturalmente equivalentes aínda que estas consistan en fragmentos que estean afastados en termos de secuencia e separados por outros dominios móbiles.

Desenvolvementos recentes

A mellora dos métodos de aliñamento estrutural constitúe unha área activa de investigación, e a miúdo propóñense métodos novos ou modificados que pregoan ofrecer vantaxes sobre técnicas anteriores e máis amplamente difundidas. Un exemplo recente é TM-align, que utiliza un novidoso método para ponderar a súa matriz de distancias, no cal se aplica programación dinámica.^[25]^[26] A ponderación proponse para acelerar a converxencia (resultado) da programación dinámica, e para corrixir os efectos vinculados ás lonxitudes do aliñamento. Nun estudo comparativo TM-align tivo un resultado mellor, tanto en velocidade coma en precisión, que DALI ou a extensión combinatoria.^[25]

Aliñamento estrutural de ARN

As técnicas de aliñamento estrutural aplicáronse tradicionalmente de forma exclusiva ás proteínas, como macromoléculas biolóxicas fundamentais que adoptan estruturas tridimensionais características. Porén, as longas moléculas de ARN tamén forman estruturas terciarias características que son intermediadas fundamentalmente por pontes de hidróxeno formados entre pares de bases, ademais de pola colocación das bases unhas enriba das outras (stacking). As moléculas de ARN non codificante funcionalmente similares poden ser especialmente difíciles de extraer dos datos xenómicos porque a estrutura está máis fortemente conservada que a secuencia tanto no ARN coma nas proteínas,^[27] e o máis limitado alfabeto do ARN diminúe o contido de información de calquera nucleótido dado en calquera posición particular.

Publicouse un método recente para o aliñamento estrutural de pares de secuencias de ARN con baixa identidade secuencial que se aplica no programa FOLDALIGN.^[28] Porén, este método non é verdadeiramente análogo ás técnicas de aliñamento estrutural de proteínas, xa que predí computacionalmente as estruturas das secuencias de ARN de entrada (input) en lugar de requirir estruturas determinadas experimentalmente como entrada. A pesar de que a predición computacional do proceso de pregamento de proteínas non foi especialmente exitosa ata o momento, as estruturas de ARN sen pseudonós con frecuencia poden ser preditas acertadamente utilizando métodos de puntuación baseados na enerxía libre termodinámica que teñen en conta o emparellamento e amontoamento (stacking) de bases.^[29]

Software

Elixir unha ferramenta de software para o aliñamento estrutural pode constituír un desafío debido á gran variedade de paquetes de programas dispoñibles, que se diferencian significativamente en metodoloxía e fiabilidade. Debido á súa integración con outras ferramentas baseadas en web do Instituto Europeo de Bioinformática (EBI), o servidor DaliLite EBI DALI ten vantaxe na produción de aliñamentos estruturais sinxelos para investigadores interesados en usar os aliñamentos como guía para o traballo experimental (en lugar de estudar os métodos de aliñamento por si mesmos). Outro método do EBI útil é o Secondary Structure Matcher, que require a presenza de polo menos dous elementos de estrutura secundaria.

As propiedades dalgúns servidores de aliñamento estrutural e paquetes de software están resumidos e postos a proba con exemplos en Structural Alignment Tools in Proteopedia.Org.

Notas

Loading content...

Véxase tamén

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.