KEGG

KEGG (Kyoto Encyclopedia of Genes and Genomes, Enciclopedia de Xenes e Xenomas de Kyoto) é unha colección de bases de datos sobre xenomas, vías biolóxicas, doenzas, fármacos, e substancias químicas. KEGG utilízase para a investigación bioinformática e educación, incluíndo as análises de datos en xenómica, metaxenómica, metabolómica e outros estudos ómicos, modelaxe e simulación en bioloxía de sistemas, e investigación traducional no desenvolvemento de fármacos.

Introdución

O proxecto da base de datos KEGG iniciouno en 1995 Minoru Kanehisa, profesor do Instituto para a Investigación Química da Universidade de Kyoto, baixo o entón en marcha Programa Xenoma Humano xaponés.^[1]^[2] Antecipando a necesidade dun recurso computerizado que se puidese utilizar para a interpretación biolóxica de datos de secuencias xenómicas, este profesor empezou a desenvolver a base de datos KEGG PATHWAY. É unha colección de mapas de vías KEGG debuxadas manualmente que representan o coñecemento experimental sobre metabolismo e outras varias funcións da célula e o organismo. Todos os mapas de vías conteñen unha rede de interaccións moleculares e reaccións e deseñouse para ligar os xenes do xenoma cos produtos xénicos (principalmente proteínas) da vía. Isto permitiu a análise chamada mapado de vías KEGG, no cal o contido de xenes no xenoma se compara coa base e datos KEGG PATHWAY para examinar cales son as vías e funcións que están probablemente codificadas no xenoma.

Segundo os seus desenvolvedores, KEGG é unha "representación en computador" do sistema biolóxico.^[3] Integra bloques de construción e esquemas eléctricos (como os das redes eléctricas) do sistema, máis especificamente, bloques de construción de xenes e proteínas, bloques de construción químicos de pequenas moléculas e reaccións, e esquemas eléctricos de redes de reaccións e interaccións moleculares. Este concepto lévase a cabo nas seguintes bases de datos de KEGG, que se categorizan en información de sistemas, de xenómica, de química e sobre saúde.^[4]

Sistemas de información
- PATHWAY — mapas de vías de funcións celulares e de organismo
- MODULE — módulos ou unidades funcionais de xenes
- BRITE — clasificacións xerárquicas de entidades biolóxicas
Información xenómica
- GENOME — xenomas completos
- GENES — xenes e proteínas nos xenomas completos
- ORTHOLOGY — grupos ortólogos de xenes nos xenomas completos
Información química
- COMPOUND, GLYCAN — compostos químicos e glicanos
- REACTION, RPAIR, RCLASS — reaccións químicas
- ENZYME — nomenclatura encimática
Información sobre saúde
- DISEASE — doenzas humanas
- DRUG — fármacos aprobados para o seu uso
- ENVIRON — fármacos "crus" (naturais non refinados) e substancias relacionadas coa saúde

Bases de datos

Información de sistemas

A base de datos KEGG PATHWAY, a base de esquemas eléctricos, é o núcleo do recurso KEGG. É unha colección de mapas de vías que integra moitas entidades como xenes, proteínas, ARNs, compostos químicos, glicanos, e reaccións químicas, xunto con xenes causantes de enfermidades e dianas de drogas, os cales están almacenados como entradas individuais noutras bases de datos de KEGG. Os mapas de vías clasifícanse nas seguintes seccións:

Metabolismo
Procesamento da información xenética (transcrición, tradución, replicación e reparación do ADN etc.)
Procesamento da información ambiental (transporte de membrana, transdución de sinais etc.)
Procesos celulares (crecemento celular, morte celular, funcións da membrana plasmática etc.)
Sistemas do organismo (sistema inmunitario, sistema endócrino, sistema nervioso etc.)
Doenzas humanas
Desenvolvemento de fármacos.

A sección de metabolismo contén mapas globais debuxados esteticamente que mostran unha imaxe global do metabolismo, ademais de mapas das vías metabólicas normais. Os mapas globais de baixa resolución poden utilizarse, por exemplo, para comparar as capacidades metabólicas de diferentes organismos en estudos xenómicos e diferentes mostras ambientais en estudos metaxenómicos. En contraste, os módulos KEGG da base de datos KEGG MODULE son de maior resolución, con esquemas eléctricos localizados, que representan unidades funcionais máis concretas nun mapa de vía, como as subvías conservadas entre grupos de organismos específicos e complexos moleculares. Os módulos KEGG defínense como conxuntos de xenes característicos que poden ser ligados con capacidades metabólicas específicas e outras funcións fenotípicas, para que poidan utilizarse para a interpretación automática de datos do xenoma e metaxenoma.

Outra base de datos que suplementa a KEGG PATHWAY é a base de datos KEGG BRITE. É unha base de datos de ontoloxía que contén clasificacións xerárquicas de varias entidades como xenes, proteínas, organismos, doenzas, fármacos, e compostos químicos. Aínda que KEGG PATHWAY está limitada a interaccións moleculares e reaccións desas entidades, KEGG BRITE incorpora ademais moitos tipos distintos de relacións.

Información xenómica

Varios meses despois de que se iniciase o proxecto KEGG en 1995, publicouse o primeiro informe sobre un xenoma bacteriano completamente secuenciado.^[5] Desde entón, todos os xenomas completos secuenciados acumúlanse en KEGG tanto de eucariotas coma de procariotas. A base de datos KEGG GENES contén información ao nivel de xene/proteína e a base de datos KEGG GENOME contén información a nivel de organismo para estes xenomas. A base de datos KEGG GENES consta de conxuntos de xenes de xenomas completos, e aos xenes de cada conxunto dánselles anotacións en forma de correspondencias establecidas cos esquemas eléctricos dos mapas de vías KEGG, módulos KEGG, e xerarquías BRITE.

Estas correspondencias están feitas usando o concepto de ortólogos. Os mapas de vías KEGG debúxanse baseándose en evidencias experimentais de organismos específicos, pero están deseñados para ser aplicables tamén a outros organismos, porque diferentes organismos, como poden ser un rato e un humano, comparten a miúdo vías idénticas que constan de xenes funcionalmente idénticos, chamados xenes ortólogos ou ortólogos. Todos os xenes na base de datos KEGG GENES están sendo agrupados en ditos ortólogos na base de datos KEGG ORTHOLOGY (KO). Como aos nodos (produtos xénicos) dos mapas de vías KEGG e aos módulos KEGG e xerarquías BRITE se lles dan identificadores KO, as correspondencias establécense unha vez que os xenes do xenoma son anotados con identificadores KO polo procedemento de anotación xenómica de KEGG.^[4]

Información química

Os mapas de vías metabólicas KEGG debúxanse para representar os aspectos duais da rede metabólica: a rede xenómica do modo en que os encimas codificados no xenoma están conectados para catalizar reaccións consecutivas e a rede química do modo en que as estruturas químicas de substratos e produtos son transformados por estas reaccións.^[6] Un conxunto de xenes encimáticos no xenoma identifican as redes de relacións encimáticas cando se superpoñen nos mapas de vías KEGG, que á súa vez caracterizan as redes de transformacións de estruturas químicas, o que permite a interpretación de potenciais biosintéticos e de biodegradación dos organismos. Alternativamente, un conxunto de metabolitos identificado no metaboloma serve para comprender as vías encimáticas e xenes de encimas implicados.

As bases de datos na categoría de información química, que en conxunto se chaman KEGG LIGAND, están organizadas por coñecementos tomados da rede química. Ao principio do proxecto KEGG, KEGG LIGAND constaba de tres bases de datos: KEGG COMPOUND para compostos químicos, KEGG REACTION para reaccións químicas, e KEGG ENZYME para reaccións na nomenclatura encimática.^[7] Actualmente, hai bases de datos adicionais: KEGG GLYCAN para os glicanos^[8] e dúas bases de datos auxiliares para reaccións chamada RPAIR (reactant pair alignments, aliñamentos do par reactivo) e RCLASS (clase de reacción).^[9] KEGG COMPOUND foi tamén ampliado para que conteña varios tipos de compostos como os xenobióticos, ademais dos metabolitos.

Información sobre saúde

En KEGG, as doenzas son consideradas como estados perturbados do sistema biolóxico causados por perturbantes de factores xenéticos e ambientais, e os fármacos considéranse como diferentes tipos de perturbantes.^[10] A base de datos KEGG PATHWAY inclúe non só os estados normais senón tamén os estados perturbados dos sistemas biolóxicos. Porén, os mapas de vías da maioría das doenzas non se poden debuxar porque os seus mecanismos moleculares non se coñecen ben. Na base de datos KEGG DISEASE adóptase unha aproximación alternativa, que simplemente cataloga os factores xenéticos e ambientais coñecidos das doenzas. Estes catálogos poden finalmente levar a elaborar esquemas eléctricos de doenzas máis completos.

A base de datos KEGG DRUG contén ingredientes activos de fármacos aprobados en Europa, Estados Unidos e o Xapón. Distínguense polas estruturas químicas e/ou os compoñentes químicos e son asociados con moléculas diana, encimas metabolizantes, e outras informacións de redes de interaccións moleculares nos mapas de vías KEGG e as xerarquías BRITE. Isto permite unha análise integrada de interaccións de fármacos con información xenómica. Os chamados fármacos "crus" e outras substancias relacionadas coa saúde, que quedan fóra da categoría dos fármacos aprobados, son almacenados na base de datos KEGG ENVIRON. A base de datos na categoría de información sobre a saúde denomínanse en conxunto KEGG MEDICUS, que tamén inclúe prospectos de todos os fármacos comercializados no Xapón.

Modelo de subscrición

En 2011 KEGG introduciu un modelo de subscrición para a descarga FTP debido a un significativo recorte dO financiamento gobernamental. KEGG continúa estando dispoñible libremente por medio da súa páxina web, pero o modelo de subscrición suscitou discusións sobre a sostibilidade das bases de datos bioinformáticas.^[11]^[12]

Notas

↑ Kanehisa M, Goto S (2000). "KEGG: Kyoto Encyclopedia of Genes and Genomes". Nucleic Acids Res 28 (1): 27–30. PMC 102409. PMID 10592173. doi:10.1093/nar/28.1.27.
↑ Kanehisa M (1997). "A database for post-genome analysis". Trends Genet 13 (9): 375–6. PMID 9287494. doi:10.1016/S0168-9525(97)01223-7.
↑ Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M (2006). "From genomics to chemical genomics: new developments in KEGG". Nucleic Acids Res 34 (Database issue): D354–7. PMC 1347464. PMID 16381885. doi:10.1093/nar/gkj102.
↑ ^4,0 ^4,1 Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M (2014). "Data, information, knowledge and principle: back to metabolism in KEGG". Nucleic Acids Res 42 (Database issue): D199–205. PMC 3965122. PMID 24214961. doi:10.1093/nar/gkt1076.
↑ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science 269 (5223): 496–512. PMID 7542800. doi:10.1126/science.7542800.
↑ Kanehisa M (2013). "Chemical and genomic evolution of enzyme-catalyzed reaction networks". FEBS Lett 587 (17): 2731–7. PMID 23816707. doi:10.1016/j.febslet.2013.06.026.
↑ Goto S, Nishioka T, Kanehisa M (1999). "LIGAND database for enzymes, compounds and reactions". Nucleic Acids Res 27 (1): 377–9. PMC 148189. PMID 9847234. doi:10.1093/nar/27.1.377.
↑ Hashimoto K, Goto S, Kawano S, Aoki-Kinoshita KF, Ueda N, Hamajima M, Kawasaki T, Kanehisa M (2006). "KEGG as a glycome informatics resource". Glycobiology 16 (5): 63R–70R. PMID 16014746. doi:10.1093/glycob/cwj010.
↑ Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M (2013). "Modular architecture of metabolic pathways revealed by conserved sequences of reactions". J Chem Inf Model 53 (3): 613–22. PMC 3632090. PMID 23384306. doi:10.1021/ci3005379.
↑ Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010). "KEGG for representation and analysis of molecular networks involving diseases and drugs". Nucleic Acids Res 38 (Database issue): D355–60. PMC 2808910. PMID 19880382. doi:10.1093/nar/gkp896.
↑ Galperin MY, Fernández-Suárez XM (2012). "The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection". Nucleic Acids Res 40 (Database issue): D1–8. PMC 3245068. PMID 22144685. doi:10.1093/nar/gkr1196.
↑ Hayden, EC. "Popular plant database set to charge users".

Véxase tamén

Outros artigos

PubMed

Ligazóns externas

[pmid10592173-1] Kanehisa M, Goto S (2000). "KEGG: Kyoto Encyclopedia of Genes and Genomes". Nucleic Acids Res 28 (1): 27–30. PMC 102409. PMID 10592173. doi:10.1093/nar/28.1.27.

[pmid9287494-2] Kanehisa M (1997). "A database for post-genome analysis". Trends Genet 13 (9): 375–6. PMID 9287494. doi:10.1016/S0168-9525(97)01223-7.

[pmid16381885-3] Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M (2006). "From genomics to chemical genomics: new developments in KEGG". Nucleic Acids Res 34 (Database issue): D354–7. PMC 1347464. PMID 16381885. doi:10.1093/nar/gkj102.

[pmid24214961-4] 4,0 ^4,1 Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M (2014). "Data, information, knowledge and principle: back to metabolism in KEGG". Nucleic Acids Res 42 (Database issue): D199–205. PMC 3965122. PMID 24214961. doi:10.1093/nar/gkt1076.

[pmid7542800-5] Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science 269 (5223): 496–512. PMID 7542800. doi:10.1126/science.7542800.

[pmid23816707-6] Kanehisa M (2013). "Chemical and genomic evolution of enzyme-catalyzed reaction networks". FEBS Lett 587 (17): 2731–7. PMID 23816707. doi:10.1016/j.febslet.2013.06.026.

[pmid9847234-7] Goto S, Nishioka T, Kanehisa M (1999). "LIGAND database for enzymes, compounds and reactions". Nucleic Acids Res 27 (1): 377–9. PMC 148189. PMID 9847234. doi:10.1093/nar/27.1.377.

[pmid16014746-8] Hashimoto K, Goto S, Kawano S, Aoki-Kinoshita KF, Ueda N, Hamajima M, Kawasaki T, Kanehisa M (2006). "KEGG as a glycome informatics resource". Glycobiology 16 (5): 63R–70R. PMID 16014746. doi:10.1093/glycob/cwj010.

[pmid23384306-9] Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M (2013). "Modular architecture of metabolic pathways revealed by conserved sequences of reactions". J Chem Inf Model 53 (3): 613–22. PMC 3632090. PMID 23384306. doi:10.1021/ci3005379.

[pmid19880382-10] Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010). "KEGG for representation and analysis of molecular networks involving diseases and drugs". Nucleic Acids Res 38 (Database issue): D355–60. PMC 2808910. PMID 19880382. doi:10.1093/nar/gkp896.

[pmid22144685-11] Galperin MY, Fernández-Suárez XM (2012). "The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection". Nucleic Acids Res 40 (Database issue): D1–8. PMC 3245068. PMID 22144685. doi:10.1093/nar/gkr1196.

[NatureNews-12] Hayden, EC. "Popular plant database set to charge users".

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]