From Wikipedia, the free encyclopedia
Mednarodni kemijski identifikator IUPAC (InChI, /ˈɪntʃiː/) je besedilni identifikator kemijskih spojin, ki je zasnovan tako, da zagotovi standarden in razumljiv način zapisovanja podatkov o molekuli in omogoča iskanje tovrstnih informacij v bazah podatkov in na spletu. Sistem sta razvila Mednarodna zveza za čisto in uporabno kemijo in Narodni urad za standarde in tehnologijo v letih 2000–2005. Oblika in algoritmi niso zakonsko zaščiteni in so prosto dostopni pod pogoji LGPL, sam naziv "InChI" pa je zaščitena blagovna znamka IUPAC.[3]
Razvijalec | InChI Trust |
---|---|
Začetna izdaja | 15. april 2005[1][2] |
Stabilna izdaja | 17 julij 2024 |
OS | Microsoft Windows in Unix-like |
Okolje | IA-32 in x86-64 |
Razpoložljivi jeziki | angleščina |
Licenca | IUPAC / InChI Trust Licence |
Spletno mesto | www |
Mednarodni kemijski identifikator se je na začetku imenoval IChI (IUPAC Chemical Identifier). Julija 2004 se je preimenoval v INChI (IUPAC-NIST Chemical Identifier), novembra 2004 pa v InChI (IUPAC International Chemical Identifier) in je zaščitena blagovna znamka IUPAC.
Identifikatorji InChI opisujejo kemijske spojine v vešslojnih informacijah, v katere spadajo atomi in njihove medsebojne povezave ter informacije o tavtomeriji, izotopih, stereokemiji in električnih nabojih. V sistem niso vedno zajeti vsi sloji. Primer: če podatki o tavtomeriji za neko spojino niso pomembni, je tavtomerni sloj lahko izpuščen.
InChI se od zelo razširjenega števila CAS razlikuje v treh pogledih:
InChI je torej nekakšna posplošena in skrajno formalizirana verzija IUPAC-ovih imen kemijskih spojin. InChI lahko izrazi več informacij kot enostavnejši SMILES in se od njega razlikuje po tem, da ima vsaka struktura enoznačen InChI, kar je pomembno za uporabo v bazah podatkov. InChI ne daje informacij o trodimenzionalnih koordinatah atomov. Za take primere se lahko uporabi format PDB.
Pretvarjanje strukturnih informacij o spojini v enoten InChI identifikator poteka v treh korakih: normalizacija, ki odstrani vse odvečne informacije, kanonizacija, ki vsakemu atomu pripiše enoznačno (zaporedno) številko, in serializacija, ki podatke pretvori v niz znakov.
Ključ InChI, ki je poznan tudi kot sesekljani InChI, je niz s stalno dolžino 25 znakov, ki je zgoščena digitalna oblika zapisa InChI in za bralca ni razumljiva. Ključ InChI se je začel uporabljati septembra 2007, da bi olajšal iskanje kemijskih spojin na spletu, ker je bilo iskanje s celotnim InChI problematično.[4]
Končna verzija programske opreme InChI z oznako 1.02 je bila izdana januarja 2007. Zadnja verzija generira tako imenovani standardni InChI, ki uporabnikom ne dopušča izbiranja opcij na slojih stereokemije in tavtomerije. Standardni ključ InChI je binarna verzija standardnega niza InChI.
Vsak InChI se začne z uvodnim nizom "InChI =", kateremu sledi številka verzije, trenutno 1. Ostale informacije so strukturirane kot sekvence slojev in podslojev. Vsak sloj daje specifično vrsto informacij. Sloji in podsloji so ločeni s poševnico "/" in se začenjajo z značilnim predznakom. Izjema je podsloj za kemijsko formulo, ki je del glavnega sloja. Sistem ima šest slojev z nekaj podsloji:
Sistem poševnica-predznak ima to prednost, da lahko uporabnik išče identifikatorje, ki se ujemajo samo v izbranih slojih.
CH3CH2OH etanol |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 |
L-askorbinska kislina |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 |
Zgoščeni 25 znakov dolgi ključ InChI je binarna verzija InChI, narejena z algoritmom SHA-256. Ključ InChI omogoča enostavno iskanje kemijskih spojin na spletu.[4] Večina kemijskih struktur, ki so prišle na splet do leta 2007, je zapisana v formatu GIF, zato se jih na spletu ne da iskati po njihovih kemijskih zgradbah.
Celoten identifikator InChI je za iskanje spojin predolg, zato so razvili ključ InChI. Pri iskanju s ključem obstaja možnost, da imata dve spojini enak ključ, vendar je ta možnost izjemno majhna. Verjetnost podvajanja prvih štirinajstih znakov ključa InChI je ocenjena na eno podvajanje v 75 bazah podatkov, če bi vsaka baza podatkov vsebovala po eno milijardo struktur. Vse baze podatkov skupaj trenutno vsebujejo manj kot 50 milijonov struktur, zato je možnost podvajanja skoraj izključena.
Prvih 14 znakov ključa InChI je rezultat sekljanja podatkov iz InChI o povezavah, ki jim sledi črtica (-). Črtici sledi 8 znakov, ki so rezultat sekljanja ostalih slojev InChI. Predzadnji znak v binarnem nizu je oznaka verzije, zadnji pa kontrolna vsota.
Primer: morfin ima zgradbo, ki je prikazana na zgornji sliki. InChI morfina je:
InChI = 1/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11-,13-,16-,17-/m0/s1,
njegov ključ InChI pa:
BQJCRHHNABKAKU-XKUOQXLYBY.[5]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.