SMILES

especificación para describir a estrutura de especies químicas usando caracteres ASCII

O SMILES (simplified molecular-input line-entry system) é unha especificación en forma dunha liña de notación que se usa para describir a estrutura de especies químicas usando curtas cadeas de caracteres ASCII. As cadeas de caracteres SMILES poden ser importadas polos softwares da maioría de editores moleculares para a súa conversión en debuxos de modelos bidimensionais ou tridimensionais das moléculas. Por exemplo, ao composto glicosa (glicopiranosa) correspóndelle a seguinte cadea de caracteres SMILES: OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1, e coa información codificada nesta cadea pode debuxarse a estrutura desa molécula.

A partir da seguinte cadea de caracteres SMILES
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
pode debuxarse a fórmula estrutural da glicosa, tal como a que se observa na imaxe.
Xeración de SMILES: Os ciclos rotos escríbense como ramas dunha columna principal. (Ciprofloxacina).

A especificación orixinal SMILES foi iniciada por David Weininger no USEPA Mid-Continent Ecology Division Laboratory en Duluth na década de 1980.[1][2][3] Recibiron recoñecemento tamén pola contribución que fixeron a unha parte do desenvolvemento inicial "Gilman Veith e Rose Russo (USEPA) e Albert Leo e Corwin Hansch (Pomona College) por apoiar o traballo, e Arthur Weininger (Pomona; Daylight CIS) e Jeremy Scofield (Cedar River Software, Renton, WA) pola axuda na programación do sistema."[4] O financiamento do proxecto inicial para o desenvolvemento de SMILES fíxoa a Axencia de Protección Ambiental dos Estados Unidos.[5][6]

Desde entón foi modificado e ampliado por outros, principalmente por Daylight Chemical Information Systems. En 2007, desenvolveuse un estándar aberto chamado "OpenSMILES" pola comunidade química de fontes abertas Blue Obelisk. Outras anotacións "liñais" inclúen a Wiswesser Line Notation (WLN), ROSDAL e SLN (Tripos Inc).

En xullo de 2006, a IUPAC introduciu o InChI como un estándar para a representación de fórmulas. SMILES considérase xeralmente que ten a vantaxe de ser lixeiramente máis lexible para os humanos que InChI; tamén ten unha ampla base de apoio de software cunha gran base teórica (por exemplo, a teoría de gráficos, graph theory).

Terminoloxía

editar

O termo SMILES refírese a unha liña de notación de letras coa cal se codifican as estruturas moleculares e os exemplos concretos escritos deberían chamarse estritamente cadeas (strings) SMILES. Porén, o termo SMILES tamén se usa comunmente para referirse tanto a unha soa liña de caracteres SMILES coma a varias liñas SMILES; o significado exacto é xeralmente evidente polo seu contexto. Os termos "canónico" e "isomérico" poden levar a certa confusión cando se aplican a SMILES. Os termos describen diferentes atributos de liñas SMILES e non son mutuamente excluíntes.

Tipicamente, para unha molécula poden escribirse varias liñas SMILES igualmente válidas. Por exemplo, CCO, OCC e C(O)C especifican as tres a estrutura do etanol. Os algoritmos utilizados desenvolvéronse para xerar as mesma liñas de caracteres SMILES para unha mesma molécula; das moitas liñas posibles, estes algoritmos elixen só unha delas. Este SMILES así elixido é único para cada estrutura, aínda que depende do algoritmo de canonización usado para xeralo, e denomínase SMILES canónico. Primeiro, estes algoritmos converxen o SMILES dando unha representación interna dunha estrutura molecular; despois, un algoritmo examina esa estrutura e produce unha única cadea de caracteres SMILES. Desenvolvéronse varios algoritmos para xerar SMILES canónicos entre os que están os de Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT, Chemical Computing Group, MolSoft LLC, e o Chemistry Development Kit. Unha aplicación común de SMILES canónicos está indexada e asegura que as moléculas sexan únicas nunha base de datos.

O documento orixinal que describía o algoritmo CANGEN[2] pretendía xerar cadeas SMILES únicas para gráficos que representan moléculas, pero o algoritmo falla en varios casos simples (por exemplo o cuneano, 1,2-diciclopropiletano), polo que non pode ser considerado un método corrcto para representar un gráfico canonicamente.[7] Actualmente non hai comparación sistemática entre softwares comerciais para probar se existen estas eivas neses paquetes de programas.

A notación SMILES permite a especificación dunha configuración en centros tetraédricos, e nunha xeometría de dobre enlace. Estas son características estruturais que non pode ser especificadas soamente pola conectividade e SMILES que codifican esta información son denominados SMILES isoméricos. Unha característica notable destas regras é que permiten a especificación parcial rigorosa de quiralidade. O termo SMILES isomérico é tamén aplicado para SMILES nos cales se especifican isótopos.

Definición baseada en gráficos

editar

En termos de procedemento computacional baseado en gráficos, SMILES é unha cadea de caracteres (string) obtida imprimindo os nodos símbolo encontrados nunha árbore transversal de primeira profundidade dun gráfico químico. O gráfico químico é primeiro "podado" para eliminar os átomos de hidróxeno e rómpense os ciclos para convertelos nun spanning tree. Onde se rompen os ciclos, inclúense etiquetas de sufixos numéricos para indicar os nodos conectados. Utilízanse parénteses para indicar puntos de ramificación na árbore.

Exemplos

editar

Átomos

editar

Os átomos represéntanse coa abreviación estándar dos elementos químicos, entre corchetes, como por exemplo [Au] para o ouro. Poden omitirse os corchetes para os elementos do chamado "subconxunto orgánico" do B, C, N, O, P, S, F, Cl, Br, e I. Os demais elementos deben todos ir entre corchetes. Se se omiten os corchetes, asúmese que teñen o número apropiado de hidróxenos implícitos; por exemplo, o SMILES da auga é simplemente O (asúmese que o oxíxeno, O, está unido a dous H tal como require a súa valencia).

Un átomo que teña unha ou máis cargas eléctricas vai entre corchetes e seguido do símbolo H se está enlazado a un ou máis átomos de hidróxeno, e seguido da cifra de átomos de hidróxeno (cando é 1, este número omítese, como é costume; exemplo: NH4 para o amoníaco, onde non se pon o 1 no N), despois virá o signo '+' para as cargas positivas ou '-' para as negativas. O número de cagas especifícase despois do signo (agás se é 1,que se omite); porén, tamén é posible escribir o signo tantas veces como cargas teña o ión, é dicir, por exemplo en vez de "Ti+4" pode escribirse tamén "Ti++++" (correspondente ao titanio IV, Ti4+). Así, o anión hidróxido represéntase por [OH-], o catión oxonio é [OH3+] e o catión cobalto III (Co3+) pode ser [Co+3] ou [Co+++].

Enlaces

editar

Os enlaces entre átomos de cadeas alifáticas considéranse simples a non ser que se especifique outra cousa e están implicados por seren adxacentes na cadea de caracteres SMILES. Por exemplo, o SMILES do etanol pode escribirse CCO. As etiquetas de peche de aneis utilízanse para indicar conectividade entre átomos non adxacentes na cadea SMILES, as cales para os exemplos do ciclohexano e o dioxano poden escribirse como C1CCCCC1 e O1CCOCC1, respectivamente. Para un segundo anel, a etiqueta sería 2 (naftaleno: c1cccc2c1cccc2 (nótese que están escritos en letra minúscula no caso de compostos aromáticos), e así sucesivamente. Unha vez que se chega ao anel 9 (e o seguinte sería un número de dúas cifras), a etiqueta debe ir precedida do signo '%', para diferenciala de dúas etiquetas diferentes unidas ao mesmo átomo (~C12~ significa que o átomo de carbono leva as etiquetas de peche dos aneis 1 e 2, mentres que ~C%12~ indica que leva unha soa etiqueta no anel 12). Os enlaces dobres, triplos e cuádruplos represéntanse cos símbolos '=', '#', e '$', respectivamente como se ilustra no SMILES O=C=O (dióxido de carbono), C#N (cianuro de hidróxeno) e [Ga-]$[As+] (aseniuro de galio).

Aromaticidade

editar

Os átomos de C, O, S e N de aneis aromáticos escríbense en minúscula, é dicir, 'c', 'o', 's' e 'n', respectivamente. O benceno, a piridina e o furano poden representarse respectivamente cos SMILES c1ccccc1, n1ccccc1 e o1cccc1. Os enlaces entre átomos aromáticos son, por defecto, aromáticos aínda que estes poden ser especificados explicitamente usando o símbolo ':'. Os átomos aromáticos poden estar unidos por enlace simple e así o bifenilo pode representarse como c1ccccc1-c2ccccc2. O nitróxeno aromático unido a un hidróxeno, como se encontra nun pirrol, debe representarse como [nH] e o imidazol escríbese n1c[nH]cc1.

Os algoritmos Daylight e OpenEye para xerar SMILES canónicos difiren no seu tratamento da aromaticidade.

 
Visualización do 3-cianoanisol como COc(c1)cccc1C#N.

Ramificacións

editar

As ramificacións descríbense entre parénteses, como en CCC(=O)O para ocaso do ácido propiónico e C(F)(F)F para o fluoroformo. Os aneis substituídos poden escribirse co punto de ramificación no anel como se ilustra no SMILES COc(c1)cccc1C#N (ver imaxe) e COc(cc1)ccc1C#N (ver imaxe), que codifican os isómeros 3 e 4-cianoanisol. Escribir SMILES para aneis substituídos deste modo pode facelos máis lexibles para as persoas.

Estereoquímica

editar

A configuración arredor dun dobre enlace especifícase usando os caracteres "/" e "\". Por exemplo, F/C=C/F (ver imaxe) é unha representación do trans-difluoroeteno, no cal os átomos de flúor están en lados opostos dun dobre enlace, mentres que F/C=C\F (ver imaxe) é unha posible representación do cis-difluoroeteno, na cal os Fs están no mesmo lado do dobre enlace, como se mostra na figura.

A configuración no carbono tetraédrico está especificada por @ ou @@. A L-alanina, que é o enantiómero máis común do aminoácido alanina, pode escribirse como N[C@@H](C)C(=O)O (ver imaxe). O especificador @@ indica que, cando se ve desde o nitróxeno ao longo do enlace ata o centro quiral, a secuencia de substituíntes hidróxeno (H), metilo (C) e carboxilato (C(=O)O) aparece no sentido das agullas do reloxo. A D-alanina pode escribirse como N[C@H](C)C(=O)O (ver imaxe). A orde dos substituíntes na cadea de caracteres SMILES é moi importante e a D-alanina pode tamén ser codificada como N[C@@H](C(=O)O)C (ver imaxe).

Isótopos

editar

Os isótopos especifícanse cun número igual á masa isotópica enteira que precede ao símbolo atómico. Un benceno cun átomo de carbono-14, escribiríase [14c]1ccccc1, e o deuterocloroformo sería [2H]C(Cl)(Cl)Cl.

Aplicación a algunhas moléculas

editar
Molécula Estrutura Fórmula SMILES
Dinitróxeno N≡N N#N
Metil isocianato (MIC) CH3–N=C=O CN=C=O
Sulfato de cobre(II) Cu2+ SO42− [Cu+2].[O-]S(=O)(=O)[O-]
Enantotoxina (toxina das plantas do xénero Oenanthe) (C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Piretrina II (C22H28O5)   COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Aflatoxina B1 (C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glicosa (glicopiranosa) (C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Berxenina (cuscutina, unha resina da planta Bergenia) (C14H16O9)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Unha feromona dunha cochinilla de Califoria   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-Chalcogran: unha feromona do escaravello da familia Scolytinae Pityogenes chalcographus[8]   CC[C@H](O1)CC[C@@]12CCCO2
Vanillina   O=Cc1ccc(O)c(OC)c1
Melatonina (C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopereirina (C17H15N2)   CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nicotina (C10H14N2)   CN1CCC[C@H]1c2cccnc2
Alfa-tuiona (terpeno de árbores do xénero Thuja) (C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamina (C12H17N4OS+)
(vitamin B1)
  OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2


Ilustración cunha molécula con máis de 9 aneis, a cefalostatina-1[9] (unha pirazina trisdecacíclica esteroidea coa fórmula empírica C54H74N2O10 illada do hemicordado do océano Índico Cephalodiscus gilchristi):
 

Empeza co grupo metilo máis á esquerda na figura:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

Nótese que '%' aparece diante do índice de etiquetas de peche de ciclos que seguen ao 9, polas razóns que se explicaron máis arriba na sección Enlaces.

Outros exemplos de SMILES

editar

A notación SMILES descríbese detalladamente no manual da teoría SMILES proporcionado por Daylight Chemical Information Systems, no que se presentan varios exemplos ilustrativos. A utilidade de representación de Daylight proporciona aos usuarios os medios para comprobar os seus propios exemplos de SMILES e está dispoñible como ferramenta educativa.

Ampliacións

editar

SMARTS é unha liña de notación para a especificación de patróns subestruturais en moléculas. Aínda que usa moitos símbolos iguais aos de SMILES, tamén permite a especificación de átomos e enlaces comodín (wildcard ou metacarácteres), que poden utilizarse para definir as consultas subestruturais para as buscas en bases de datos químicas. Unha concepción equivocada é que a busca subestrutural baseada en SMARTS implica a correspondencia das liñas de caracteres de SMILES e SMARTS. De feito, tanto as liñas de caracteres SMILES coma os SMARTS son convertidas primeiro en representacións gráficas internas, que se buscan por isomorfismo de subgráfico. SMIRKS é unha liña de notación para especificar transformacións de reacción.

Conversión

editar

Os SMILES poden ser convertidos en representacións bidimensionais usando algoritmoas de Xeración de Diagramas de Estrutura[10]. Esta conversión non está sempre falta de ambigüidade. As conversións a representación tridimensionais conséguense por medio dunha aproximación de minimización de enerxía. Hai moitas utilidaddes de conversión descargables e baseadas en webs.

  1. Weininger 1988
  2. 2,0 2,1 Weininger, Weininger & Weininger 1989
  3. Weininger 1990
  4. Weininger, Dave. "Acknowledgements on Daylight Tutorial smiles-etc page". Consultado o 24 de xuño de 2013. 
  5. Anderson, Veith & Weininger 1987
  6. "SMILES Tutorial: What is SMILES?". U.S. Environmental Protection Agency. Consultado o 2012-09-23. 
  7. Hutchison, David; Takeo Kanade, Josef Kittler, Jon M. Kleinberg, Friedemann Mattern, John C. Mitchell, Moni Naor, Oscar Nierstrasz, C. Pandu Rangan, Bernhard Steffen, Madhu Sudan, Demetri Terzopoulos, Dough Tygar, Moshe Y. Vardi, Gerhard Weikum, Louiqa Raschid, Greeshma Neglur, Robert L. Grossman, Bing Liu (2005). "Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples". En Ludäscher, Bertram. Data Integration in the Life Sciences. Lecture Notes in Computer Science 3615. Berlin: Springer. pp. 145–157. ISBN 978-3-540-27967-9. doi:10.1007/11530084_13. Consultado o 2021-05-12. 
  8. Byers, J. A.; Birgersson, G.; Löfqvist, J.; Appelgren, M.; Bergström, G. (1990). "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay" (PDF). Journal of Chemical Ecology 16 (3): 861–76. PMID 24263601. doi:10.1007/BF01016496. Consultado o 12 de maio de 2012. 
  9. National Center for Biotechnology Information (NCBI). PubChem Compound. (consultado o 12 de maio de 2012) PubChem Compound CID=183413 (Cephalostatin-1)
  10. Helson, H. E. (1999). "Structure Diagram Generation". En Lipkowitz, K. B.; Boyd, D. B. Rev. Comput. Chem. 13. New York: Wiley-VCH. pp. 313–398. doi:10.1002/9780470125908.ch6. 

Véxase tamén

editar

Bibliografía

editar
  • Anderson, E.; Veith, G. D.; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures. Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021. 
  • Weininger, David (febreiro de 1988). "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules". Journal of Chemical Information and Modeling 28 (1): 31–6. doi:10.1021/ci00057a005. 
  • Weininger, David; Weininger, Arthur; Weininger, Joseph L. (maio de 1989). "SMILES. 2. Algorithm for generation of unique SMILES notation". Journal of Chemical Information and Modeling 29 (2): 97–101. doi:10.1021/ci00062a008. 
  • Weininger, David (agosto de 1990). "SMILES. 3. DEPICT. Graphical depiction of chemical structures". Journal of Chemical Information and Modeling 30 (3): 237–43. doi:10.1021/ci00067a005. 

Outros artigos

editar

Ligazóns externas

editar

Especificacións

editar

Utilidades de software relacionadas con SMILES

editar