From Wikipedia, the free encyclopedia
O InChI ou IUPAC International Chemical Identifier (Identificador Químico Internacional da IUPAC)[1] é un identificador textual para substancias químicas, deseñado para proporcionar un modo estándar e lexible polas persoas de codificar a información molecular e facilitar a investigación desa información nas bases de datos e nas webs. Foi desenvolvido inicialmente pola IUPAC e o NIST dos Estados Unidos entre 2000 e 2005, e o formato e os algoritmos non están patentados. O continuo desenvolvemento do estándar foi sostido desde 2010 pola organización sen ánimo de lucro InChI Trust, da cal a IUPAC forma parte. A versión actual é a 1.04 e foi lanzada en setembro de 2011.
Antes da 1.04, o software estaba dispoñible gratuitamente coa licenza de código aberto LGPL,[2] pero agora usa unha licenza chamada IUPAC-InChI Trust License.[3]
Este formato denominouse orixinalmente IChI (IUPAC Chemical Identifier, Identificador Químico da IUPAC), e despois foi renomeado en xullo de 2004 como INChI (IUPAC-NIST Chemical Identifier, Identificador Químico da IUPAC-NIST), e rebautizado outra vez en novembro de 2004 como InChI (IUPAC International Chemical Identifier, Identificador Químico Internacional da IUPAC), unha marca da IUPAC.
Os identificadores describen substancias químicas en termos de capas de información: sobre os átomos e os seus enlaces, información tautomérica, información isotópica, estereoquímica, e información de carga eléctrica.[4] Non hai que proporcionar información de todas as capas; por exemplo, a capa tautomérica pode omitirse se ese tipo de información non é relevante para unha aplicación determinada.
Os InChIs son diferentes dos amplamente utilizados números de rexistro CAS en tres aspectos:
Os InChIs poden así considerarse parecidos a unha versión xeral e extremadamente formalizada dos nomes IUPAC. Poden expresar máis información que a notación máis simple SMILES e diferéncianse en que cada estrutura ten unha única cadea de caracteres InChI, o cal é importante en aplicacións de bases de datos. A información sobre as coordenadas tridimensionais dos átomos non está representada no InChI; para este propósito pode utilizarse un formato como PDB.
O algoritmo InChI converte as entradas de información estrutural nun único identificador InChI nun proceso en tres etapas: normalización (para eliminar información redundante), canonización (para xerar unha etiqueta numérica única para cada átomo), e a seriación (para dar lugar a unha cadea de caracteres).
O InChIKey, denomínase ás veces hashed InChI (coa función hash), e é unha representación dixital condensada de lonxitude fixa (25 caracteres) do InChI, que non é comprensible por unha persoa. A especificación InChIKey lanzouse en setembro de 2007 para facilitar as buscas na web de compostos químicos, xa que estas eran problemáticas co InChI de lonxitude completa.[5] Debería terse en conta que, a diferenza do InChI, a InChIKey non é única: aínda que as colisións (dúas moléculas distintas co mesmo InChI) poden estimarse como moi raras, estas ás veces ocorren.[6]
En xaneiro de 2009 saíu a versión final 1.02 do software InChI. Esta proporcionou un medio para xerar os chamados InChI estándar, que non permiten opcións seleccionables polo usuario ao tratar coas capas estereoquímicas e tautoméricas da cadea de caracteres InChI. A InChIKey estándar é entón a versión con función hash da cadea InChI estándar. O InChI estándar simplifica a comparación da cadea de caracteres InChI e as claves xeradas por diferentes grupos, aos que se accede posteriormente por medio de bases de datos e recursos web.
Cada InChI empeza coa cadea "InChI=" seguida polo número da versión, actualmente 1. Despois segue a letra S que indica InChIs estándar (standard). A información restante está estruturada como unha secuencia de capas e subcapas, e cada capa proporciona un tipo específico de información. As capas e subcapas están separadas polo delimitador "/" e empezan cunha letra prefixo característica (excepto na subcapa de fórmula química da capa principal). As seis capas con importantes subcapas son:
O formato delimitador-prefixo ten a vantaxe de que o usario pode usar facilmente unha busca con caracteres comodín para encontrar identificadores que teñen correspondencia só en certas capas.
CH3CH2OH etanol |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (InChI estándar) |
L-ácido ascórbico |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (InChI estándar) |
O InChIKey estándar de 27 caracteres condensado é unha versión con función hash do InChI estándar completo (que usa o algoritmo SHA-256), deseñado para permitir buscas de web fáciles de compostos químicos.[5] A maioría das estruturas químicas na Web ata 2007 eran representadas como ficheiros GIF, nos que non se pode buscar contido químico. O InChI completo demostrou ser demasiado longo para unha busca fácil, e, por tanto, desenvolveuse o InChIKey. Hai unha pequena probabilidade de que dúas moléculas diferentes teñan a mesma InChIKey, pero a probabilidade de duplicación considerando só os primeiros 14 caracteres estimouse como de só unha duplicación en 75 bases de datos que contivesen cada unha mil millóns de estruturas únicas. Como todas as bases de datos existentes actualmente teñen menos de 50 millóns de estruturas, é moi improbable que esas duplicacións aparezan no presente. Un estudo recente examinou máis detalladamente a taxa de colisión e atopou que a taxa de colisión experimental está en concordancia co agardado teoricamente.[7]
As InChIKeys constan de 14 caracteres que son o resultado dun hash da información de conectividade do InChI, seguidos dun hifen, seguido de 10 caracteres orixinados a partir dun hash das restantes capas do InChI, seguidas dun só carácter que indica a versión do InChI usado, e outro hifen, seguido dun só carácter de suma de verificación (checksum).
Exemplo: A morfina ten a estrutura que se mostra na imaxe da dereita. O InChI estándar para a morfina é InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 e o InChIKey estándar para a morfina é BQJCRHHNABKAKU-KBQPJGBKSA-N.[8]
Como o InChI non pode ser reconstruído a partir da InChIKey, unha InChIKey sempre necesita estar ligada ao InChI orixinal para volver á estrutura orixinal. Os InChI Resolvers actúan como un servizo de busca para facer estas ligazóns, e dispóñense de servizos de propotipos no National Cancer Institute, no servizo UniChem no Instituto Europeo de Bioinformática, e en PubChem. Ademais, ChemSpider tivo un destes resolvers ata xullo de 2015, momento en que se retirou o servizo.[9]
A dirección científica do estándar InChI lévaa a cabo o Subcomité da División VIII da IUPAC, e o financiamento dos subgrupos que investigan e definen a expansión do estándar realízana tanto a IUPAC coma o InChI Trust. O InChI Trust financiou o desenvolvemento, a proba e a documentación do InChI. As extensións actuais están sendo definidas para manexar polímeros e mesturas, estruturas Markush, reaccións e organometálicos, e unha vez aceptadas polo Subcomité da División VIII son engadidas ao algoritmo.
O InChI foi adoptado por moitas bases de datos grandes e pequenas, entre as que están ChemSpider, ChEMBL, Golm Metabolome Database, OpenPHACTS, e PubChem.[10] Porén, a adopción non é directa e moitas bases de datos mostran unha discrepancia entre as estruturas químicas e o InChI que conteñen, o cal é un problema para ligar as bases de datos.[11]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.