InChI
O InChI ou IUPAC International Chemical Identifier (Identificador Químico Internacional da IUPAC)[1] é un identificador textual para substancias químicas, deseñado para proporcionar un modo estándar e lexible polas persoas de codificar a información molecular e facilitar a investigación desa información nas bases de datos e nas webs. Foi desenvolvido inicialmente pola IUPAC e o NIST dos Estados Unidos entre 2000 e 2005, e o formato e os algoritmos non están patentados. O continuo desenvolvemento do estándar foi sostido desde 2010 pola organización sen ánimo de lucro InChI Trust, da cal a IUPAC forma parte. A versión actual é a 1.04 e foi lanzada en setembro de 2011.
Antes da 1.04, o software estaba dispoñible gratuitamente coa licenza de código aberto LGPL,[2] pero agora usa unha licenza chamada IUPAC-InChI Trust License.[3]
Nome
editarEste formato denominouse orixinalmente IChI (IUPAC Chemical Identifier, Identificador Químico da IUPAC), e despois foi renomeado en xullo de 2004 como INChI (IUPAC-NIST Chemical Identifier, Identificador Químico da IUPAC-NIST), e rebautizado outra vez en novembro de 2004 como InChI (IUPAC International Chemical Identifier, Identificador Químico Internacional da IUPAC), unha marca da IUPAC.
Introdución
editarOs identificadores describen substancias químicas en termos de capas de información: sobre os átomos e os seus enlaces, información tautomérica, información isotópica, estereoquímica, e información de carga eléctrica.[4] Non hai que proporcionar información de todas as capas; por exemplo, a capa tautomérica pode omitirse se ese tipo de información non é relevante para unha aplicación determinada.
Os InChIs son diferentes dos amplamente utilizados números de rexistro CAS en tres aspectos:
- son de uso gratuíto e non están patentados;
- poden ser computerizados a partir de información estrutural e non teñen que ser asignados por unha organización;
- a maioría da información nun InChI é lexible polas persoas (se teñen práctica).
Os InChIs poden así considerarse parecidos a unha versión xeral e extremadamente formalizada dos nomes IUPAC. Poden expresar máis información que a notación máis simple SMILES e diferéncianse en que cada estrutura ten unha única cadea de caracteres InChI, o cal é importante en aplicacións de bases de datos. A información sobre as coordenadas tridimensionais dos átomos non está representada no InChI; para este propósito pode utilizarse un formato como PDB.
O algoritmo InChI converte as entradas de información estrutural nun único identificador InChI nun proceso en tres etapas: normalización (para eliminar información redundante), canonización (para xerar unha etiqueta numérica única para cada átomo), e a seriación (para dar lugar a unha cadea de caracteres).
O InChIKey, denomínase ás veces hashed InChI (coa función hash), e é unha representación dixital condensada de lonxitude fixa (25 caracteres) do InChI, que non é comprensible por unha persoa. A especificación InChIKey lanzouse en setembro de 2007 para facilitar as buscas na web de compostos químicos, xa que estas eran problemáticas co InChI de lonxitude completa.[5] Debería terse en conta que, a diferenza do InChI, a InChIKey non é única: aínda que as colisións (dúas moléculas distintas co mesmo InChI) poden estimarse como moi raras, estas ás veces ocorren.[6]
En xaneiro de 2009 saíu a versión final 1.02 do software InChI. Esta proporcionou un medio para xerar os chamados InChI estándar, que non permiten opcións seleccionables polo usuario ao tratar coas capas estereoquímicas e tautoméricas da cadea de caracteres InChI. A InChIKey estándar é entón a versión con función hash da cadea InChI estándar. O InChI estándar simplifica a comparación da cadea de caracteres InChI e as claves xeradas por diferentes grupos, aos que se accede posteriormente por medio de bases de datos e recursos web.
Formato e capas
editarCada InChI empeza coa cadea "InChI=" seguida polo número da versión, actualmente 1. Despois segue a letra S que indica InChIs estándar (standard). A información restante está estruturada como unha secuencia de capas e subcapas, e cada capa proporciona un tipo específico de información. As capas e subcapas están separadas polo delimitador "/" e empezan cunha letra prefixo característica (excepto na subcapa de fórmula química da capa principal). As seis capas con importantes subcapas son:
- Capa principal
- Fórmula química (ningún prefixo). Esta é a única subcapa que debe aparecer en cada InChI.
- As conexións (enlaces) de átomos (prefixo: "c"). Os átomos da fórmula química (excepto os hidróxenos) numéranse sucesivamente; esta subcapa describe os átomos que están conectados por enlaces e con que outros átomos están enlazados.
- Átomos de hidróxeno (prefixo: "h"). Describe cantos átomos de hidróxeno están conectados con cada un dos outros átomos.
- Capa de carga
- subcapa de protóns (prefixo: "p" por "protóns")
- subcapa de carga (prefixo: "q")
- Capa estereoquímica
- dobres enlaces e cumulenos (dobres enlaces consecutivos) (prefixo: "b")
- estereoquímica tetraédrica de átomos e alenos (prefixos: "t", "m")
- tipo de información estereoquímica (prefixo: "s")
- Capa Iisotópica (prefixos: "i", "h", e tamén "b", "t", "m", "s")
- Capa H fixa (prefixo: "f"); contén algúns ou todos os tipos aneriores de capas excepto as conexións dos átomos; poden acabar coa subcapa "o"; nunca se inclúe no InChI estándar
- A capa reconectada (prefixo: "r"); contén o InChI completo dunha estrutura con átomos metálicos reconectados; nunca se inclúen nun InChI estándar
O formato delimitador-prefixo ten a vantaxe de que o usario pode usar facilmente unha busca con caracteres comodín para encontrar identificadores que teñen correspondencia só en certas capas.
Exemplos
editarCH3CH2OH etanol |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (InChI estándar) |
L-ácido ascórbico |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (InChI estándar) |
InChIKey
editarO InChIKey estándar de 27 caracteres condensado é unha versión con función hash do InChI estándar completo (que usa o algoritmo SHA-256), deseñado para permitir buscas de web fáciles de compostos químicos.[5] A maioría das estruturas químicas na Web ata 2007 eran representadas como ficheiros GIF, nos que non se pode buscar contido químico. O InChI completo demostrou ser demasiado longo para unha busca fácil, e, por tanto, desenvolveuse o InChIKey. Hai unha pequena probabilidade de que dúas moléculas diferentes teñan a mesma InChIKey, pero a probabilidade de duplicación considerando só os primeiros 14 caracteres estimouse como de só unha duplicación en 75 bases de datos que contivesen cada unha mil millóns de estruturas únicas. Como todas as bases de datos existentes actualmente teñen menos de 50 millóns de estruturas, é moi improbable que esas duplicacións aparezan no presente. Un estudo recente examinou máis detalladamente a taxa de colisión e atopou que a taxa de colisión experimental está en concordancia co agardado teoricamente.[7]
As InChIKeys constan de 14 caracteres que son o resultado dun hash da información de conectividade do InChI, seguidos dun hifen, seguido de 10 caracteres orixinados a partir dun hash das restantes capas do InChI, seguidas dun só carácter que indica a versión do InChI usado, e outro hifen, seguido dun só carácter de suma de verificación (checksum).
Exemplo: A morfina ten a estrutura que se mostra na imaxe da dereita. O InChI estándar para a morfina é InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 e o InChIKey estándar para a morfina é BQJCRHHNABKAKU-KBQPJGBKSA-N.[8]
InChI Resolvers
editarComo o InChI non pode ser reconstruído a partir da InChIKey, unha InChIKey sempre necesita estar ligada ao InChI orixinal para volver á estrutura orixinal. Os InChI Resolvers actúan como un servizo de busca para facer estas ligazóns, e dispóñense de servizos de propotipos no National Cancer Institute, no servizo UniChem no Instituto Europeo de Bioinformática, e en PubChem. Ademais, ChemSpider tivo un destes resolvers ata xullo de 2015, momento en que se retirou o servizo.[9]
Desenvolvemento continuado
editarA dirección científica do estándar InChI lévaa a cabo o Subcomité da División VIII da IUPAC, e o financiamento dos subgrupos que investigan e definen a expansión do estándar realízana tanto a IUPAC coma o InChI Trust. O InChI Trust financiou o desenvolvemento, a proba e a documentación do InChI. As extensións actuais están sendo definidas para manexar polímeros e mesturas, estruturas Markush, reaccións e organometálicos, e unha vez aceptadas polo Subcomité da División VIII son engadidas ao algoritmo.
Adopción
editarO InChI foi adoptado por moitas bases de datos grandes e pequenas, entre as que están ChemSpider, ChEMBL, Golm Metabolome Database, OpenPHACTS, e PubChem.[10] Porén, a adopción non é directa e moitas bases de datos mostran unha discrepancia entre as estruturas químicas e o InChI que conteñen, o cal é un problema para ligar as bases de datos.[11]
Notas
editar- ↑ "InChI". Arquivado dende o orixinal o 04 de setembro de 2015. Consultado o 19 de setembro de 2015.
- ↑ McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International 28 (6) (IUPAC). Consultado o 2007-09-18.
- ↑ http://www.inchi-trust.org/download/104/LICENCE.pdf
- ↑ Heller, S.R.; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, the IUPAC International Chemical Identifier". Journal of Cheminformatics 7. doi:10.1186/s13321-015-0068-4.
- ↑ 5,0 5,1 "The IUPAC International Chemical Identifier (InChI)". IUPAC. 5 de setembro de 2007. Arquivado dende o orixinal o 30 de outubro de 2007. Consultado o 2007-09-18.
- ↑ E.L. Willighagen (17 September 2011). "InChIKey collision: the DIY copy/pastables". Consultado o 2012-11-06.
- ↑ Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "InChIKey collision resistance: An experimental testing". Journal of Cheminformatics 4 (1): 39. PMC 3558395. PMID 23256896. doi:10.1186/1758-2946-4-39.
- ↑ "InChI=1/C17H19NO3/c1-18...". Chemspider. Consultado o 2007-09-18.
- ↑ InChI Resolver, 27 July 2015, http://www.chemspider.com/InChiResolverDecommissioned.aspx
- ↑ Warr, W.A. (2015). "Many InChIs and quite some feat". Journal of Computer-Aided Molecular Design. doi:10.1007/s10822-015-9854-3.
- ↑ Akhondi, S. A.; Kors, J. A.; Muresan, S. (2012). "Consistency of systematic chemical identifiers within and between small-molecule databases". Journal of Cheminformatics 4 (1): 35. PMC 3539895. PMID 23237381. doi:10.1186/1758-2946-4-35.
Véxase tamén
editarOutros artigos
editarDocumentación e presentacións
editar- InChI Trust site
- IUPAC InChI site
- Unofficial InChI FAQ Arquivado 06 de marzo de 2012 en Wayback Machine.
- InChI Technical Manual 335 KB
- IUPAC InChI (Google TechTalk)
- Descrición do algoritmo de canonización
- Googling para InChIs unha presentación do W3C.
- The Semantic Chemical Web: GoogleInChI and other Mashups Arquivado 27 de marzo de 2012 en Wayback Machine., Google Tech Talk de Peter Murray-Rust, setembro de 2006
- IUPAC InChI Arquivado 25 de novembro de 2011 en Wayback Machine., Google Tech Talk de Steve Heller e Steve Stein, novembro de 2006
- InChI Release 1.02 versión final do InChI 1.02 e explicación do Standard InChI, xaneiro de 2009
Software e servizos
editar- NCI/CADD Chemical Identifier Resolver Xera e resolve InChI/InChIKeys e moitos outros identificadores químicos
- Search Google for molecules (xera InChI a partir de compostos químicos interactivos e busca en Google páxinas con InChIs incrustados). Require Javascript no buscador
- ChemSketch Arquivado 18 de outubro de 2006 en Wayback Machine., paquete de debuxo de estruturas químicas gratuíto que inclúe entradas e saídas para o formato InCHI
- editor de moléculas en liña PubChem que soporta SMILES/SMARTS e InChI
- ChemSpider Services que permite a xeración de InChI e a conersión de InChI a estruturas (tamén SMILES e a xeración doutras propiedades)
- MarvinSketch de ChemAxon, aplicación de debuxo de estruturas (ou abre outros formatos de ficheiros) e saídas en formato InChI
- BKchemArquivado 09 de xuño de 2007 en Wayback Machine. aplica o seu propio analizador InChI e usa a aplicación da IUPAC para xerar cadeas InChI
- CompoundSearch - busca InChI e InChIKey en librarías espectrais
- JNI-InChI libraría Java
- the Chemistry Development Kit usa JNI-InChI para xerar InChIs, e pode converter InChIs en estruturas, e xerar tautómeros baseados en algoritmos InChI