O InChI ou IUPAC International Chemical Identifier (Identificador Químico Internacional da IUPAC)[1] é un identificador textual para substancias químicas, deseñado para proporcionar un modo estándar e lexible polas persoas de codificar a información molecular e facilitar a investigación desa información nas bases de datos e nas webs. Foi desenvolvido inicialmente pola IUPAC e o NIST dos Estados Unidos entre 2000 e 2005, e o formato e os algoritmos non están patentados. O continuo desenvolvemento do estándar foi sostido desde 2010 pola organización sen ánimo de lucro InChI Trust, da cal a IUPAC forma parte. A versión actual é a 1.04 e foi lanzada en setembro de 2011.

Antes da 1.04, o software estaba dispoñible gratuitamente coa licenza de código aberto LGPL,[2] pero agora usa unha licenza chamada IUPAC-InChI Trust License.[3]

Este formato denominouse orixinalmente IChI (IUPAC Chemical Identifier, Identificador Químico da IUPAC), e despois foi renomeado en xullo de 2004 como INChI (IUPAC-NIST Chemical Identifier, Identificador Químico da IUPAC-NIST), e rebautizado outra vez en novembro de 2004 como InChI (IUPAC International Chemical Identifier, Identificador Químico Internacional da IUPAC), unha marca da IUPAC.

Introdución

editar

Os identificadores describen substancias químicas en termos de capas de información: sobre os átomos e os seus enlaces, información tautomérica, información isotópica, estereoquímica, e información de carga eléctrica.[4] Non hai que proporcionar información de todas as capas; por exemplo, a capa tautomérica pode omitirse se ese tipo de información non é relevante para unha aplicación determinada.

Os InChIs son diferentes dos amplamente utilizados números de rexistro CAS en tres aspectos:

  • son de uso gratuíto e non están patentados;
  • poden ser computerizados a partir de información estrutural e non teñen que ser asignados por unha organización;
  • a maioría da información nun InChI é lexible polas persoas (se teñen práctica).

Os InChIs poden así considerarse parecidos a unha versión xeral e extremadamente formalizada dos nomes IUPAC. Poden expresar máis información que a notación máis simple SMILES e diferéncianse en que cada estrutura ten unha única cadea de caracteres InChI, o cal é importante en aplicacións de bases de datos. A información sobre as coordenadas tridimensionais dos átomos non está representada no InChI; para este propósito pode utilizarse un formato como PDB.

O algoritmo InChI converte as entradas de información estrutural nun único identificador InChI nun proceso en tres etapas: normalización (para eliminar información redundante), canonización (para xerar unha etiqueta numérica única para cada átomo), e a seriación (para dar lugar a unha cadea de caracteres).

O InChIKey, denomínase ás veces hashed InChI (coa función hash), e é unha representación dixital condensada de lonxitude fixa (25 caracteres) do InChI, que non é comprensible por unha persoa. A especificación InChIKey lanzouse en setembro de 2007 para facilitar as buscas na web de compostos químicos, xa que estas eran problemáticas co InChI de lonxitude completa.[5] Debería terse en conta que, a diferenza do InChI, a InChIKey non é única: aínda que as colisións (dúas moléculas distintas co mesmo InChI) poden estimarse como moi raras, estas ás veces ocorren.[6]

En xaneiro de 2009 saíu a versión final 1.02 do software InChI. Esta proporcionou un medio para xerar os chamados InChI estándar, que non permiten opcións seleccionables polo usuario ao tratar coas capas estereoquímicas e tautoméricas da cadea de caracteres InChI. A InChIKey estándar é entón a versión con función hash da cadea InChI estándar. O InChI estándar simplifica a comparación da cadea de caracteres InChI e as claves xeradas por diferentes grupos, aos que se accede posteriormente por medio de bases de datos e recursos web.

Formato e capas

editar

Cada InChI empeza coa cadea "InChI=" seguida polo número da versión, actualmente 1. Despois segue a letra S que indica InChIs estándar (standard). A información restante está estruturada como unha secuencia de capas e subcapas, e cada capa proporciona un tipo específico de información. As capas e subcapas están separadas polo delimitador "/" e empezan cunha letra prefixo característica (excepto na subcapa de fórmula química da capa principal). As seis capas con importantes subcapas son:

  1. Capa principal
    • Fórmula química (ningún prefixo). Esta é a única subcapa que debe aparecer en cada InChI.
    • As conexións (enlaces) de átomos (prefixo: "c"). Os átomos da fórmula química (excepto os hidróxenos) numéranse sucesivamente; esta subcapa describe os átomos que están conectados por enlaces e con que outros átomos están enlazados.
    • Átomos de hidróxeno (prefixo: "h"). Describe cantos átomos de hidróxeno están conectados con cada un dos outros átomos.
  2. Capa de carga
    • subcapa de protóns (prefixo: "p" por "protóns")
    • subcapa de carga (prefixo: "q")
  3. Capa estereoquímica
    • dobres enlaces e cumulenos (dobres enlaces consecutivos) (prefixo: "b")
    • estereoquímica tetraédrica de átomos e alenos (prefixos: "t", "m")
    • tipo de información estereoquímica (prefixo: "s")
  4. Capa Iisotópica (prefixos: "i", "h", e tamén "b", "t", "m", "s")
  5. Capa H fixa (prefixo: "f"); contén algúns ou todos os tipos aneriores de capas excepto as conexións dos átomos; poden acabar coa subcapa "o"; nunca se inclúe no InChI estándar
  6. A capa reconectada (prefixo: "r"); contén o InChI completo dunha estrutura con átomos metálicos reconectados; nunca se inclúen nun InChI estándar

O formato delimitador-prefixo ten a vantaxe de que o usario pode usar facilmente unha busca con caracteres comodín para encontrar identificadores que teñen correspondencia só en certas capas.

Exemplos

editar
CH3CH2OH
etanol
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3

InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (InChI estándar)

 

L-ácido ascórbico
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (InChI estándar)

InChIKey

editar
 
Estrutura da morfina.

O InChIKey estándar de 27 caracteres condensado é unha versión con función hash do InChI estándar completo (que usa o algoritmo SHA-256), deseñado para permitir buscas de web fáciles de compostos químicos.[5] A maioría das estruturas químicas na Web ata 2007 eran representadas como ficheiros GIF, nos que non se pode buscar contido químico. O InChI completo demostrou ser demasiado longo para unha busca fácil, e, por tanto, desenvolveuse o InChIKey. Hai unha pequena probabilidade de que dúas moléculas diferentes teñan a mesma InChIKey, pero a probabilidade de duplicación considerando só os primeiros 14 caracteres estimouse como de só unha duplicación en 75 bases de datos que contivesen cada unha mil millóns de estruturas únicas. Como todas as bases de datos existentes actualmente teñen menos de 50 millóns de estruturas, é moi improbable que esas duplicacións aparezan no presente. Un estudo recente examinou máis detalladamente a taxa de colisión e atopou que a taxa de colisión experimental está en concordancia co agardado teoricamente.[7]

As InChIKeys constan de 14 caracteres que son o resultado dun hash da información de conectividade do InChI, seguidos dun hifen, seguido de 10 caracteres orixinados a partir dun hash das restantes capas do InChI, seguidas dun só carácter que indica a versión do InChI usado, e outro hifen, seguido dun só carácter de suma de verificación (checksum).

Exemplo: A morfina ten a estrutura que se mostra na imaxe da dereita. O InChI estándar para a morfina é InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 e o InChIKey estándar para a morfina é BQJCRHHNABKAKU-KBQPJGBKSA-N.[8]

InChI Resolvers

editar

Como o InChI non pode ser reconstruído a partir da InChIKey, unha InChIKey sempre necesita estar ligada ao InChI orixinal para volver á estrutura orixinal. Os InChI Resolvers actúan como un servizo de busca para facer estas ligazóns, e dispóñense de servizos de propotipos no National Cancer Institute, no servizo UniChem no Instituto Europeo de Bioinformática, e en PubChem. Ademais, ChemSpider tivo un destes resolvers ata xullo de 2015, momento en que se retirou o servizo.[9]

Desenvolvemento continuado

editar

A dirección científica do estándar InChI lévaa a cabo o Subcomité da División VIII da IUPAC, e o financiamento dos subgrupos que investigan e definen a expansión do estándar realízana tanto a IUPAC coma o InChI Trust. O InChI Trust financiou o desenvolvemento, a proba e a documentación do InChI. As extensións actuais están sendo definidas para manexar polímeros e mesturas, estruturas Markush, reaccións e organometálicos, e unha vez aceptadas polo Subcomité da División VIII son engadidas ao algoritmo.

Adopción

editar

O InChI foi adoptado por moitas bases de datos grandes e pequenas, entre as que están ChemSpider, ChEMBL, Golm Metabolome Database, OpenPHACTS, e PubChem.[10] Porén, a adopción non é directa e moitas bases de datos mostran unha discrepancia entre as estruturas químicas e o InChI que conteñen, o cal é un problema para ligar as bases de datos.[11]

  1. "InChI". Arquivado dende o orixinal o 04 de setembro de 2015. Consultado o 19 de setembro de 2015. 
  2. McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International 28 (6) (IUPAC). Consultado o 2007-09-18. 
  3. http://www.inchi-trust.org/download/104/LICENCE.pdf
  4. Heller, S.R.; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, the IUPAC International Chemical Identifier". Journal of Cheminformatics 7. doi:10.1186/s13321-015-0068-4. 
  5. 5,0 5,1 "The IUPAC International Chemical Identifier (InChI)". IUPAC. 5 de setembro de 2007. Arquivado dende o orixinal o 30 de outubro de 2007. Consultado o 2007-09-18. 
  6. E.L. Willighagen (17 September 2011). "InChIKey collision: the DIY copy/pastables". Consultado o 2012-11-06. 
  7. Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "InChIKey collision resistance: An experimental testing". Journal of Cheminformatics 4 (1): 39. PMC 3558395. PMID 23256896. doi:10.1186/1758-2946-4-39. 
  8. "InChI=1/C17H19NO3/c1-18...". Chemspider. Consultado o 2007-09-18. 
  9. InChI Resolver, 27 July 2015, http://www.chemspider.com/InChiResolverDecommissioned.aspx
  10. Warr, W.A. (2015). "Many InChIs and quite some feat". Journal of Computer-Aided Molecular Design. doi:10.1007/s10822-015-9854-3. 
  11. Akhondi, S. A.; Kors, J. A.; Muresan, S. (2012). "Consistency of systematic chemical identifiers within and between small-molecule databases". Journal of Cheminformatics 4 (1): 35. PMC 3539895. PMID 23237381. doi:10.1186/1758-2946-4-35. 

Véxase tamén

editar

Outros artigos

editar

Documentación e presentacións

editar

Software e servizos

editar