From Wikipedia, the free encyclopedia
سیستم خطی سادهشدهٔ دروندهی مولکولی (انگلیسی: Simplified molecular-input line-entry system) که به اختصار به آن «اسمایلز» (SMILES) میگویند نوعی فرمول خطی برای توصیف ساختار گونههای شیمیایی با استفاده از رشتههای کوتاه ASCII است. بسیاری از برنامههای رایانهایِ ویرایشِ مولکول، قادر به استفاده و درونریزی رشتههای اسمایلز برای تبدیل مجدد آنها به نقشههای دو بعدی یا مدلهای سه بعدی مولکولی هستند.
پسوند(های) نام پرونده | .smi |
---|---|
نوع رسانهٔ اینترنتی | chemical/x-daylight-smiles |
گونه | chemical file format |
جزئیات اولیه اسمایلز در دهه ۱۹۸۰ در آزمایشگاهی در دانشگاه مینهسوتا در دلوث تعریف و ارائه شد و از آن زمان تغییراتی یافته و توسعه پیدا کرده است.[1][2][3][4] در سال ۲۰۰۷، یک استاندارد باز به نام «اوپنمایلز» در جامعه علمی متنباز شیمی توسعه یافت. تأمین بودجه و حمایت مالی برای آغاز و توسعه این پروژه به عهدهٔ آژانس حفاظت محیط زیست ایالات متحده آمریکا بود.[5][6]
در ژوئیهٔ ۲۰۰۶، «آیوپاک» شناسه شیمیایی بینالمللی (InChI) را به عنوان استانداردی برای نمایش فرمولهای شیمیایی معرفی کرد. اسمایلز عموماً خوانایی آسانتری نسبت به شناسه شیمیایی بینالمللی برای انسان دارد. اسمایلز همچنین پایگاه گستردهای از پشتیبانی نرمافزاری با پشتوانه نظری گسترده (مانند نظریه گراف) دارد.
اتمها با علامت اختصاری استاندارد عناصر شیمیایی، در قلاب (کروشه) نشان داده میشوند، مانند [Au]
برای طلا. ممکن است براکتها در حالت معمول حذف شوند؛ برای اتمهایی که:
تمام عناصر دیگر باید در قلاب (کروشه) قرار گیرند و بار الکتریکی و هیدروژنها هم نمایش داده شوند. برای مثال، اسمایلز برای آب ممکن است به صورت O
یا [OH2]
نوشته شود. هیدروژن همچنین ممکن است به عنوان یک اتم جداگانه نوشته شود. آب را میتوان بهصورت [H]O[H]
هم نمایش داد.
هنگامی که از قلاب (کروشه) استفاده میشود، اگر اتم داخل کروشه به یک یا چند هیدروژن پیوند داشته باشد، نماد H
اضافه میشود، به دنبال آن؛ تعداد اتمهای هیدروژن اگر بیشتر از ۱ باشد و سپس علامت +
برای بار الکتریکی مثبت یا -
برای بار الکتریکی منفی افزوده میشود. به عنوان مثال، [NH4+]
برای آمونیوم (NH+
4). اگر بیش از یک بار الکتریکی وجود داشته باشد، معمولاً به صورت عددی نوشته میشود. با این حال، میتوان علامت مثبت یا منفی را به تعداد دفعاتی که یون بار الکتریکی دارد تکرار کرد: برای تیتانیم(IV) Ti4+ میتوان نوشت [Ti+4]
یا [Ti++++]
. بنابراین، آنیون هیدروکسید ( OH−) با [OH-]
، کاتیون هیدرونیوم (H
3O+
) با [OH3+]
و کاتیون کبالت (III) (Co3+) هم یا [Co+3]
یا [Co+++]
است.
پیوند شیمیایی با یکی از این علائم نشان داده میشود: . - = # $ : / \
.
پیوندهای بین اتمهای ترکیبات آلیفاتیک منفرد فرض میشوند، مگر اینکه طور دیگری در فرمولنویسی خطی اسمایلز مشخص شده باشد. اگرچه پیوندهای منفرد ممکن است به صورت -
نوشته شوند، این معمولاً این علامت را حذف میکنند. برای مثال، اسمایلز برای الکل طبی ممکن است به صورت C-C-O
، CC-O
یا C-CO
نوشته شود، اما معمولاً CCO
نوشته میشود.
پیوندهای شیمیایی دوگانه، سهگانه و چهارگانه را بهترتیب با علائم =
، #
، و $
نمایش میدهند؛ مثلا: O=C=O
(کربن دیاکسید CO2)، C#N
(هیدروژن سیانید HCN) و [Ga+]$[As-]
(گالیم آرسنید)
یک نوع دیگر از پیوند، «غیر-پیوند» است که با .
نشان داده شده است، تا نشان دهد که دو قسمت به هم متصل نیستند. برای مثال، سدیم کلرید آبی را به صورت [Na+].[Cl-]
مینویسند تا این عدم اتصال را نشان داده باشند.
یک پیوند آروماتیک «یکی و نصفی» را میتوان با :
نشان داد.
پیوندهای منفرد مجاور با پیوندهای دوگانه ممکن است با استفاده از /
یا \
برای نشان دادن پیکربندی استریوشیمیایی مولکول نشان داده شوند.
ساختارهای حلقه با شکستن هر حلقه در یک نقطه دلخواه نوشته میشوند (اگرچه برخی از انتخابها منجر به خوانایی بهتر اسمایلز نسبت به سایر فرمولها میشود) تا یک ساختار غیر چرخهای ایجاد شود و برچسبهای عددی بسته شدن حلقه برای نشان دادن اتصال بین اتمهای غیر همجوار اضافه شود.
به عنوان نمونه، سیکلوهگزان و دیاُکسان ممکن است به ترتیب به صورت C1CCCCC1
و O1CCOCC1
نوشته شوند. برای حلقه دوم، برچسب ۲ خواهد بود. برای مثال، دکالین (دکاهیدرونافتالین) ممکن است به صورت C1CCCC2C1CCCC2
نوشته شود.
حلقههای آروماتیک همچون بنزن به یکی از سه صورت زیر نوشته میشود:
C1=CC=CC=C1
:
. مثلا: C:1:C:C:C:C:C1
، یاb
، c
، n
، o
، p
و s
در مورد آخری، پیوندهای بین دو اتم آروماتیک (اگر به صراحت نشان داده نشده باشد) به عنوان پیوندهای آروماتیک فرض میشوند؛ بنابراین، بنزن، پیریدین و فوران را میتوان به ترتیب با c1ccccc1
, n1ccccc1
and o1cccc1
. نشان داد.
نیتروژن آروماتیک متصل به هیدروژن، که مثلا در پیرول یافت می شود، باید حتما به صورت [nH]
نشان داده شود. بنابراین ایمیدازول با نماد اسمایلز به صورت n1c[nH]cc1
نوشته میشود.
هنگامی که اتمهای آروماتیک به صورت مجزا به یکدیگر پیوند میخورند، مانند بیفنیل، یک پیوند منفرد باید به وضوح ارائه شود: c1ccccc1-c2ccccc2
. این یکی از معدود مواردی است که نماد پیوند منفرد -
مورد نیاز است. (در واقع، اکثر نرمافزارهای اسمایلز میتوانند به درستی استنباط کنند که پیوند بین دو حلقه نمیتواند آروماتیک باشد و بنابراین فرم غیر استاندارد c1ccccc1c2ccccc2
را میپذیرد).
شاخهها با کمان (پرانتز) نمایش داده میشوند، مانند CCC(=O)O
برای پروپانوئیک اسید و FC(F)F
برای فلوئوروفرم. نخستین اتم داخل پرانتز و نخستین اتم بعد از گروه پرانتزشده، هر دو به یک اتم نقطه شاخهای متصل هستند. نماد پیوند باید در داخل پرانتز ظاهر شود و خارج آن (به عنوان مثال: CCC=(O)O
) پذیرفته نیست.
حلقههای جایگزین را میتوان با نقطه انشعاب در حلقه نوشت، همانطور که در COc(c1)cccc1C#N
(تصویر) و COc(cc1)ccc1C#N
(تصویر) دیده میشوند که ایزومرهای ۳ و ۴-سیانوآنیزول را کد میکنند. نوشتن اسمایلز برای حلقههای جایگزین به این روش میتواند آنها را برای انسان خواناتر میکند.
یکی از شاخههایی که نیازی به استفاده از پرانتز در فرمولنویسی ندارد، پیوندهای حلقه بسته هستند. انتخاب مناسب پیوندهای تکمیل حلقه میتواند تعداد پرانتزهای مورد نیاز را کاهش دهد. به عنوان مثال، تولوئن معمولاً به صورت Cc1ccccc1
or c1ccccc1C
نوشته میشود تا از بهکارگیری پرانتزهای مورد نیاز در روش c1cc(C)ccc1
یا c1cc(ccc1)C
اجتناب شود.
ایزوتوپها با عددی برابر با جرم ایزوتوپی عدد صحیح قبل از نماد اتمی مشخص میشوند. بنزن که یک اتم آن کربن-۱۴ است بهصورت [14c]1ccccc1
و دئوتراتد کلروفرم بهصورت [2H]C(Cl)(Cl)Cl
نوشته میشود.
مولکول | ساختار | فرمول اسمایلز |
---|---|---|
دینیتروژن | N≡N | N#N |
متیل ایزوسیانات (MIC) | CH3−N=C=O | CN=C=O |
مس(II) سولفات | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-] |
وانیلین | O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O | |
ملاتونین (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12 | |
فلاووپررئین (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1 | |
نیکوتین (C10H14N2) | CN1CCC[C@H]1c2cccnc2 | |
اوئنانتوتوکسین (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO | |
پیرترین II (C22H28O5) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C | |
آفلاتوکسین B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
گلوکز (β-D-گلوکوپیرانوز) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1 | |
برژنین (کاسکاتین، نوعی صمغ) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 | |
یک فرومون شپشک کالیفرنیایی | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
(2S،5R)-کالکوگران: یک فرومون در سوسکهای پوستهنشین «پیتیوجنس کالکوگرافوس»[7] | CC[C@H](O1)CC[C@@]12CCCO2 | |
آلفا-توژون (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
تیامین (ویتامین ب۱, C12H17N4OS+) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N |
برای نشان دادن یک مولکول با بیش از ۹ حلقه، مولکول «سفالوستاتین-۱» را در نظر بگیرید[8] یک پیرازین استروئیدی ۱۳ حلقهای با فرمول تجربیC54H74N2O10 که از یکی از نیمطنابداران اقیانوس هند به نام «سفالودیسکوس گیلکریستی» بهدست آمد:
با گروه متیل در منتهیالیه سمت چپ شکل شروع کنید:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
%
در جلوی شاخص برچسبهایِ تکمیلِ حلقه (بیش از ۹ حلقه) ظاهر میشود.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.