From Wikipedia, the free encyclopedia
Упростен систем за заведување во редови со молекуларен внос (УСЗРМВ) — спецификација во форма на линиска запис за опишување на структурата на хемиските видови користејќи кратки ASCII низи . Низите создадени од УСЗРМВ може да се употребат од повеќето молекуларни уредувачи за претворање во дводимензионални цртежи или тридимензионални модели на молекулите.
Наставка | .smi |
---|---|
MIME-тип | chemical/x-daylight-smiles |
Тип на формат | хемиски податочен облик |
Оригиналната спецификација за УСЗРМВ беше создадена во 1980-ите. Оттогаш е изменет и проширен. Во 2007 година, е развиен слободен стандард наречен СУСЗРМВ од страна на хемиската заедница.
Оригиналната спецификација SMILES била идеја на Дејвид Вајнингер вработен во еколошкиот оддел на лабораторијата о средниот континент USEPA во Дулут во 1980-ите.[1][2][3][4] Дополнително заслужни се и Гилман Вејт и Роуз Русо и Алберт Лео и Корвин Ханш за поддршка на работата, и Артур Вајнингер и Џереми Скофилд за помошта во програмирањето на системот.[5] Агенцијата за заштита на животната средина го финансирала почетниот проект за развој на УСЗРМВ.[6][7]
Оттогаш е изменуван и прошируван од други придонесувачи, особено од Дневни хемиски информациски системи. Во 2007 година, слободниот стандард наречен „СУСЗРМВ“ бил развиен од Син Обелиск заедница од хемичари поддржувачи на за слободен код. Други „линиски“ ознаки ги вклучуваат и Висвесерово линиско запишување (WLN), РОСДАЛ и SLN (Tripos Inc).
Во јули 2006 година, IUPAC го воведеува InChI како стандард за претставување на формулите. Генерално се смета дека УСЗРМВ има предност над InChI поради полесното читање за оние кои не се хемичари, исто така има широка база на софтверска поддршка со обемно теоретско поддржување (како што е теоријата на графови).
Под поимот УСЗРМВ се подразбира линиски запис за кодирање на молекуларните структури и овие записи треба накусо да се нарекуваат УСЗРМВ скелетни записи. Сепак, поимот УСЗРМВ се користи често за единечен скелетен УСЗРМВ запис или за бројни скелетни УСЗРМВ записи; значењето вообичаено е согледливо од самиот контекст. Поимите „канонски“ и „изомерски“ може да доведат до забуна кога ќе се применат во УСЗРМВ. Поимите опишуваат различни атрибути на скелетните УСЗРМВ записи и не се меѓусебно исклучливи.
Вообичаено, постои различен број на соодветни УСЗРМВ записи за една молекула. На пример, CCO
, OCC
и C(O)C
сите укажуваат на структурата на етанол. Алгоритмните биле развиени за да создадат исти скелетни УСЗРМВ записи за определената молекула; од сите можни записи, овие алгоритми ќе изберат само една. УСЗРМВ записот е уникатен за секоја структура, иако зависи од алгоритмот за каноникализација, кој и ги создава, и е познат како канонски УСЗРМВ. Овие алгоритми првично ги претвораат УСЗРМВво внатрешен запис на молекуларната структура; па алгоритам ја разгледува таа структура и создава единствен скелетен УСЗРМВ запис. Развиени се различни алгоритми за канонски УСЗРМВ меѓу кои се оние на Дејлајт Хемикал Информејшн Системс, Опенај Сајентифик Софтвер, МЕДИТ, Хемикал Компјутинг Груп, МолСофт ЛЛЦ, и Хемиска развојна опрема. Вообичаена примена на канонскиот УСЗРМВ е за подредување и обезбедување на единствениот запис на молекулите во податотеки.
Првичниот труд копј го опишал алгоритмот КАНГЕН[2] уверувал дека може да создаде единствени УСЗРМВ записиза графичкиот приказ на молекулите, но алгоритмот е неуспешен за бројни едноставни случаи (пр. кунеан, 1,2-дициклопропилетан) и не може да се сметат за точен метод за канонско графичко претставување.[8] Моментално не постои системско споредување низ комерцијалниот софтвер за да се тестира постоењето на слични пропусти во понудените пакети.
Записите со помош на УСЗРМВ овозможуваат спецификација на конфигурацијата на тетраедарските центри, и геометријата ан двојните врски. Ова се структурни обележја кои не може да се одредат само со поврзаноста, и оттука УСЗРМВ кој ја кодира оваа информација се наречени изомерски УСЗРМВ. Значајна особина на овие правила е дека тие дозволуваат строги делумни спецификации за хиралноста. Поимот изомериски УСЗРМВ се применува и за УСЗРМВ кај кои измоерите се однапред познати.
Во однос на графичкозаснованата пресметувачка процедура, УСЗРМВ добиена со испечатување на симболиските јазли кои се застапени во длабочинска обиколка на дрво на молекуларниот приказ. Хемискиот графички приказ првично наместен да ги отстрани водородните атоми и циклусите се разрушени за да се создаде разгрането дрво. Каде циклусите се разрушени, и се користат бројчани ознаки за да се означат сврзувачките јазли. Заградите се користат за да се означат точките на разгранувањето на дрвото.
Добиениот УСЗРМВ облик зависи од следниве избори:
Од гледиште на формалната јазична теорија, УСЗРМВ е збор. УСЗРМВ се анализира со несодржински сметач. Употребата на овие записи е со цел да се предвидат биохемиските својства (меѓу кои. токсичност и биоразградливост) засновани на главните начела на хемоинформатиката од каде следи дека слични молекули имаат слични својства. Предвидувачките модели применети со синтактички шаблон со препознавачки приод (вклучува и одредување на молекуларното растојание)[9] и покрупна шема заснована на статистичко препознавање на шаблони.[10]
Атомите се претставуваат со стандардните симболи за хемиските елементи, во средни загради, на пример [Au]
за злато. Заградите може да се изостават во случаите кога атомите се:
Сите останати елементи се во загради, и нивните полнежи и сврзни водороди се прикажани експлицитно. На пример, УСЗРМВ за водата ги користи следниве кодови O
или [OH2]
. Водородот може и да се запише како посебен атом; па водата може да се запише како [H]O[H]
.
Кога се користат загради, симболот H
се додава доколку атомот во загради е сврзан со еден или повеќе водородни атоми, по што следи бројот на водородни атоми доколку е поголем од 1, по што следи знакот +
за позитивен полнеж или -
за негативен полнеж. На пример, [NH4+]
за амониум (NH+
4). Доколку има повеќе од еден полнеж, се запишува како број; сепак, можно е да се повторува знакот онолку пати колку што полнежи има самиот јон: и тоа би се запишало како [Ti+4]
или [Ti++++]
за титан (IV) Ti4+. Па така, за хидроксидниот анјон ( OH−) се запишува како [OH-]
, а за хидрониумот или позитивниот катјон (H
3O+
) е [OH3+]
и катјонот за кобалт(III) (Co3+) е или [Co+3]
или [Co+++]
.
Врските се претставени сокористење на еден од симболите. - = # $ : / \
.
Врските меѓу алифатичните атоми се претпоставува дека се единечни доколку не е укажано на спротивното и соодветно истото е прикажано и од УСЗРМВ. Иако единечните врски може да се запишат и како -
, ова вообичаено се изоставиува. На пример, УСЗРМВ записот за етанол може да се запише и како C-C-O
, CC-O
или C-CO
, но вообичаено се запишува како CCO
.
Двојните, тројните, и четрикратните врска се прикажани соодветно со симболите =
, #
, и $
и со помош на УСЗРМВ се: O=C=O
(јаглерод диоксид CO
2), C#N
(водороден цијанид HCN) и [Ga+]$[As-]
(галиум арсенид).
дополнителен вид на врска е „неврската“, означена со .
, со што се укажува дека деловите не се сврзани меѓусебно. На пример, водениот раствор од натриум хлорид може да се запише како [Na+].[Cl-]
за да се прикаже дисоцијацијата.
Ароматичната „една и половина“ врска се прикажува со симболот :
; Погледајте Упростен систем за заведување во редови со молекуларен внос § Белешки подолу.
Единичните врски веднаш до двојните врски може да се прикажат со користење на /
или \
за да се укаже стереохемиската конфигурација; Погледајте Упростен систем за заведување во редови со молекуларен внос § Белешки подолу.
Прстенестите структури се запишани со прекинување ба секој прстен во договорна точка (иако некои од избраните точки ќе придонесатѕа за подобри записи во УСЗРМВ од други) за да се запише ациклична структура и да се додаде броен пристен за појаснување за да се прикаже поврзаноста меѓу несоседните атоми.
На пример, циклохексанот и диоксанот може да се запишат соодветно како C1CCCCC1
и O1CCOCC1
. За втор прстен, ознаката ќе биде 2. На пример, декалин (декахидронафтален) може да се запише како C1CCCC2C1CCCC2
.
УСЗРМВ не побарува броевите за прстените да се користат на одреден начин, и дозволен е бројот 0 како ознака, иако ретко се користи. Дополнително, дозволено е да се преискористат и броевите од прстенот и откако првиот прстен е затворен, иако ова вообичаено прави формулата да биде потешко разбирлива за читање. На пример, бициклохексил вообичаено се запишува C1CCCCC1C2CCCCC2
, но може да се запише и како C0CCCCC0C0CCCCC0
.
Повече броеви по еден атом укажува на повеќе прстено-затворечки врски. На пример, поинаков запис so УСЗРМВ декалин е C1CCCC2CCCCC12
, каде последниот јаглерод учествува во затворачките прстенести врски 1 и 2. Ако се потребни двобројни прстенести броеви, ознаката е предследена со %
, па имаме C%12
која е единечна прстенесто затворачка врска за прстенот 12.
Едната или двете бројки може да се предследени од тип на врска која укажува на врската со која се затвора прстенот. На пример, циклопропен е вообичаено C1=CC1
, но доколку двојната врска е всушност врската со која се затвора прстенот, може да се запише како C=1CC1
, C1CC=1
, или C=1CC=1
. (Се препорачува употреба на првото.) Записот C=1CC-1
е недозволив, бидејќи експлицитно го означува видот на врската која се користи за затворање на прстенот.
Врските кои го затвораат прстенот не мора да се користат за да се означат повеќе врски. На пример, C1C1
не е точен запис за пинаков запис за C=C
односно етилен. Сепак, тие може да се користта со неврски; C1.C2.C12
е невообичаен но точен начин на запишување на пропанот, кој вообичаено се запишува како CCC
.
Изборот за прекин на прстенот до прикаќените групи може да доведе до поедноставен УСЗРМВ запис со избегнувањето на разгранувањето. На пример, циклохексан-1,2-диол најчесто се запишува како OC1CCCCC1O
; избирањето на различните места на прекин на прстенот создава разгранета структура за која е се потрени загради за да се запише.
Ароматичните прстени како што е бензенот може да се запишат во еден од следниве облици:
C1=CC=CC=C1
,:
, на пример C1:C:C:C:C:C1
, илиb
, c
, n
, o
, p
и s
.Во последниот случај, врските меѓу два ароматични атоми се претпоставува (iдоколку не е исклучиво кажано) дека се ароматични врски. Па така, бензенот, пиридинот и фуранот може соодветно да се запишат соодветно со користење на УСЗРВМ како c1ccccc1
, n1ccccc1
и o1cccc1
.
Ароматичниот азот сврзан со водородот, како што е кај пиролот треба да се прикаже со [nH]
; па така имидазол се запишува со УСЗРВМ како n1c[nH]cc1
.
Кога ароматичните атоми се единечно сврзани еден за друг, како што е случајот со бифенил, единечната врска треба да се прикаже експлицитно: c1ccccc1-c2ccccc2
. Ова е еден од неколкуте случаи каде ознаката за врската -
е потребна. (Како факт повеќето УСЗРВМ софтвери може точно да разделат дека врската меѓу двата прстена не може да биде ароматична и ќе ја прифатат и нестандардниот облик c1ccccc1c2ccccc2
.)
Алгоритмите Дејлајт и Опенај за создавање на канонски УСЗРВМ се разликуваат во начинот на кој ја разработуваат ароматичноста.
Разгранувањетосе опишани со загради, како во CCC(=O)O
за пропионска киселина и FC(F)F
за флуроформ. Првиот атом во заградата, и првиот атом по групата во заградата, се заедно сврзани со истиот атом на разгранување. Ознаката за врската мора да постои внатре во заградата; надвор од заградата би било погрешен запис (на пример: CCC=(O)O
).
Заменетите прстени може да се запишат со разгранувачката точка како што е прикажано со помош на УСЗРМВCOc(c1)cccc1C#N
(see depiction) и COc(cc1)ccc1C#N
(Погледајте ја сликата) која ги кодира 3 и 4-цијаноисолните изомери. Запишувањето на УСЗРМВ на овој начин ги прави почитливи за луѓето.
Гранките може да се запишат по било кој редослед. На пример, бромохлородифлурометан може да се запише како FC(Br)(Cl)F
, BrC(F)(F)Cl
, C(F)(Cl)(F)Br
, или налик на тие. Општо, обликот во УСЗРМВ најлесно се чита доколку поедноставната гранка е прва, со крајната, незаграден дел да биде посложениот дел. Единствените услови за ваквите презапишувања се:
Еден облик на гранка кој не побарува загради се прстенесто-затворените врски. Изборот на прстенесто-затворени врски може и дополнително да го намали бројот на потребните загради. На пример, толуенот нормативно се запишува како Cc1ccccc1
или c1ccccc1C
, со што се избегнуваат заградите, кои би биле потребни доколку се запишува како c1cc(C)ccc1
or c1cc(ccc1)C
.
УСЗРМВ дозволува, но не е потребно, да се специфизираат стереоизомерите.
Конфигурацијата околу двојните врски е специфизирана користејќи ознаки /
и \
да се покажат насочените единечни врски непосредно до својните врски. На пример, F/C=C/F
(Погледајте го описот) е еден приказ на транс-1,2-дифлуроетилен, каде атомите на флуорот се на спротивните страни на двојната врска (како што е прикажано на сликата), додека пак F/C=C\F
(Погледајте го описот) е еднен приказ на можниот цис-1,2-дифлуроетилен, каде флурините се на истата страна со двојната врска.
Симболите за насоката на врските се секогаш во групи од две, од кои првата е по случаен избор. Односно, кодот F\C=C\F
е ист со F/C=C/F
. Кога се присутни променливите единечно двојни врски, групите се поголеми од две, со што средните насочени симболи се соседни две двојни врски. На пример, честиот облик на (2,4)-хексадиен се запишува C/C=C/C=C/C
.
Како посложен пример, бета-каротинот поседува многу долг синџир од променливи единечни и двојни врски, кои може да се запишат како CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
.
Записот тетрахедрален јаглерод е опишан со кодот @
или @@
. Четирите врски се разгледуваат според редоследот на појавување, лево кон десно, според УСЗРМВ. Насоченоста е кон централниот јаглерод од позиција на првата врска, првоте три се или во насока на стрелките на часовникот или обратно. Овие случаи се прикажани со @@
и @
, соодветно (бидејќи @
симбол самиот по себе е спирала насочена обратно од стрелката на часовник).
На пример, да се разгледа аминокиселината аланин. Еден од УСЗРМВ облици е NC(C)C(=O)O
, почесто запишано како N[CH](C)C(=O)O
. L-аланин, почестиот енатиомер, се запишува како N[C@@H](C)C(=O)O
(Погледајте го описот). Разгледувајќи од врската на азотот и јаглеродот, водородната (H
), метилната (C
), карбоксилната(C(=O)O
) група се во насока на стрелките на часовникот.D-Аланинот може да се запише како N[C@H](C)C(=O)O
(Погледајте го описот).
Додека редоследот во кои гранки сее спомнати групите во УСЗРМВ е незначајно, во овој случај тое е од важност; заменувањето на кои и да се две групи побарува измена на показателот за хиралноста. Ако разгранувањето се измени па така аланинот е запишан како NC(C(=O)O)C
, па тка конфигурацијата се менува; L-аланин се запишува како N[C@H](C(=O)O)C
(Погледајте го описот). Други начини за запишување вклучуваат C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
и OC(=O)[C@H](C)N
.
Нормално, првата од четирите врски се на лево од јаглеродниот атом, но доколку УСЗРМВ е запишан така што започнува со хирален јаглерод, како што е C(C)(N)C(=O)O
, тогаш сите четири се на десно, но првиот кој се појавува (the [CH]
врската во овој случај) се користи за да се наведе редоследот на следниве три: L-аланин може исто така да се запише и како[C@@H](C)(N)C(=O)O
.
УСЗРМВ спецификацијата вклучува објаснувања за @
симболот за да се укаже стереохемијата околу хиралните центри, како што е триаголна бипирамидална молекуларна геометрија.
Изотопи се специфицирани со број еднаков на бројната изотопска маса пред симболот за атомот. Бензен при што еден атом е јаглерод-14 е запишан како [14c]1ccccc1
и деутерохлороформ е [2H]C(Cl)(Cl)Cl
.
Молекула | Структура | УСЗРМВ запис |
---|---|---|
Диазот | N≡N | N#N |
Метил изоцијанат (МИЦ) | CH3−N=C=O | CN=C=O |
Бакар(II) сулфат | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-] |
Ванилин | O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O | |
Мелатонин (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12 | |
Флавопереирин (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1 | |
Никотин (C10H14N2) | CN1CCC[C@H]1c2cccnc2 | |
Оенатотоксин (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO | |
Пиретрин II (C22H28O5) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C | |
Афлатоксин B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
Гликоза (β-D-гликопираноза) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1 | |
Бергенин (кускатин, вид на смола) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 | |
Фермон на Калифорнискиот штитест инсект | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
(2S,5R)-Халкогран: фермон на подкорник Pityogenes chalcographus[11] | CC[C@H](O1)CC[C@@]12CCCO2 | |
α-Тујон (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
Тиамин (витамин B1, C12H17N4OS+) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N |
За да се прикаже молекула со повеќе од 9 прстени, како што е цефалостатин-1,[12] стероиден 13-прстенест пиразин со емпириска формула C54H74N2O10 изолиран од океанскиот полухорд Cephalodiscus gilchristi:
Започнува од најлевата метилна група на сликата:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
Имајте предвид дека %
се појавува пред показателот за затворениот прстен означен погоре со 9; Погледајте погоре во делот за Упростен систем за заведување во редови со молекуларен внос § Белешки.
Записите во УСЗРМВ се опишани нашироко во корисничкото упатство на УСЗРМВ напишано од страна на Дејлајт Хемикал Информејшн Системс и се претствени бројни цртежни примери. Алатката за исцтртување обезбедена од Дејлајт им овозможува на корисниците начин за проверка на сопствените примери во УСЗРМВ и е значајна образовна алатка.
СМАРТС линиско означување за подробностите на подструктурните молекуларни обрасци. Иако користи многу од ознаките на УСЗРМВ, при што дополнително овозможува употреба на пребарувач за атоми и врски, кои би се искористиле за дефинирање на подструктурните прашања за пребарување на хемиската датотека. Честа заблуда е дека пребарувањето на подструктурите засновани на УСЗРМВ вклучува споредба записите на УСЗРМВ и СМАРТС. Всушност,записте во УСЗРМВ и СМАРТС првично се претворени во графички прикази и тие се пребаруваат во подграфичкиот изомофизам.
СМИРКС, суперзбирка од "реакциски УСЗРМВ" и подмножество на "реакциски СМАРТС", е линиски запис за одредените реакциски претворби. Општата синтакса за реакциската надградба е REACTANT>AGENT>PRODUCT
(без празни места), каде кое било од полињата може да се остави празно или пополни со повеќе молекули where any of the fields can either be left blank or filled with multiple molecules ограничени со точка (.
), и другите описи зависни од основниот јазик. Атомите дополнително може да се запишат со број (п.р. [C:1]
) за мапирање,[13] на пример „во“.[14]
УСЗРМВ соодвествува со дискретните молекуларни структури. Сепак многу материјали се макромолекули, кои се преголеми (и честопати стохастички) за да се создаде запис во УСЗРМВ. ГолемУСЗРМВ е надградба на УСЗРМВ која цели да обезбеди солиден систем за макромолекули.[15]
УСЗРМВ може да се претвори повторно во дводимензионален приказ користејќи алгоритми за создавање на структурни дијаграми.[16] Ова претворање не секогаш е недвосмислено. Претворањето во тридимензионални прикази се постигнува со притапи на енергетско ускратување. Постојат бројни надградби кои може да се симнат од семрежјето или пак директно да се користат на семрежјето.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.