Gene Ontology
Gene Ontology, abreviada como GO (Ontoloxía Xénica), é unha importante iniciativa bioinformática para unificar a representación dos atributos dos xenes e produtos xénicos de todas as especies de seres vivos.[1] O proxecto ten os seguintes obxectivos concretos: 1) Manter e desenvolver o seu vocabulario controlado de atributos de xenes e produtos xénicos; 2) anotar xenes e produtos xénicos, e asimilar e diseminar os datos de anotación; e 3) proporcionar ferramentas para un acceso doado a todos os aspectos dos datos proporcionados polo proxecto, e permitir a interpretación funcional de datos experimentais usando o GO, por exemplo por medio da análise de enriquecemento.
GO forma parte dun grande esforzo de clasificación, chamado Open Biomedical Ontologies (OBO).[2] Contén as ferramentas de busca AmiGO e OBO-Edit
Aínda que de modo xeral a nomenclatura de xenes pretende manter e desenvolver un vocabulario controlado de xenes e produtos xénicos, a ontoloxía xénica, en concreto, amplía os esforzos usando unha linguaxe de marcas para facer que os datos (e non só os de xenes e os seus produtos senón tamén de todos os atributos) sexan lexibles por máquinas, e para facer isto de modo unificado para todas as especies (mentres que as convencións da nomenclatura de xenes varía segundo o taxon biolóxico).
Termos e ontoloxía
editarDesde un punto de vista práctico, unha ontoloxía é unha representación de algo que se coñece. As “ontoloxías" consisten nunha representación de cousas que son detectables ou directamente observables, e as relacións entre ditas cousas. Non hai unha terminoloxía universal estándar en bioloxía e dominios relacionados, e os usos dos termos poden ser específicos dunha especie, áreas de investigación ou mesmo dun grupo investigador determinado. Isto fai que a comunicación e compartición de datos sexa máis difícil. O proxecto Gene Ontology proporciona unha ontoloxía de termos definidos que representan as propiedades dos produtos xénicos. A ontoloxía abrangue tres dominios:
- compoñentes celulares, as partes da célula ou o seu ambiente extracelular;
- funcións moleculares, as actividades elementais dun produto xénico a nivel molecular, como a unión a outras moléculas ou a catálise;
- procesos biolóxicos, operacións ou conxuntos de eventos moleculares cun comezo e final definidos, pertinentes a unidades vivas integradas ou en funcionamento: células, tecidos, órganos, e organismos.
Cada termo de GO da ontoloxía ten un nome de termo, que pode ser unha palabra ou unha cadea de palabras; un único identificador alfanumérico; unha definición con fontes citadas; e un espazo de nome (namespace) que indica o domino ao que pertence. Os termos poden tamén ter sinónimos, os cales están clasificados como exactamente equivalentes ao nome de termo, cun significado máis amplo, máis estreito ou relacionado; referencias a conceptos equivalentes noutras bases de datos; e comentarios sobre o uso dos termos. A ontoloxía GO está estruturada como un gráfico acíclico dirixido, e cada termo ten relacións definidas cou outro ou outros termos do mesmo dominio, e ás veces doutros dominios. O vocabulario GO está deseñado para ser neutral con respecto da especie, e inclúe termos aplicables a procariotas e eucariotas, organismos unicelulares e multicelulares.
GO non é estático, e as adcións, correccións e alteracións son suxeridas e solicitada por membros de comunidades científicas que se dedican á anotación e investigación, e tamén polos que están directamente implicados no proxecto GO. Por exemplo, un anotador pode requirir un termo específico para representar unha vía metabólica, ou unha sección da ontoloxía pode ser revisada coa axuda de expertos da comunidade (por exemplo [3]). As edicións suxeridas son revisadas polos editores de ontoloxías, e aplicadas cando é apropiado.
O ficheiro da ontoloxía GO está dispoñible gratuitamente na páxina web de GO[4] en varios formatos, ou pode accederse a ela en liña usando o buscador GO AmiGO. O proxdecto Gene Ontology tamén proporciona mapados descargables dos seus termos para outros sistemas de clasificación.
Exemplo de termo
editar- id: GO:0000016
- nome: lactase activity (actividade de lactase)
- espazo de nome (namespace): molecular_function
- def: "Catálise da reacción: lactosa + H2O = D-glicosa + D-galactosa." [EC:3.2.1.108]
- sinónimo: "lactase-phlorizin hydrolase activity" (acitividade de lactase-florticina hidrolase) AMPLO [EC:3.2.1.108]
- sinónimo: "lactose galactohydrolase activity" (actividade de lactosa galactrohidrolase) EXACTO [EC:3.2.1.108]
- xref: EC:3.2.1.108
- xref: MetaCyc:LACTASE-RXN
- xref: Reactome:20536
- is_a: GO:0004553 ! actividade de hidrolase, hidrolizando compostos O-glicosilo
Fonte de datos:[5]
Anotación
editarA anotación do xenoma é a práctica de capturar datos sobre un produto xénico, e as anotacións GO usan termos da ontoloxía GO para facelo. Os membros do Consorcio GO envían as súas anotacións para que se integren e diseminen na páxina web de GO, desde onde poden ser descargadas directamente ou vistas en liña usando AmiGO. Ademais do identificador do produto xénico e do termo GO relevante, as anotacións GO teñen os seguintes datos: A referencia utilizada para facer a anotación (por exemplo, un artigo de revista científica; Un código de evidencias que indica o tipo de evidencias probatorias sobre as que se basea a anotación en cuestión; Os datos e o creador da anotación.
O código de evidencias procede da Ontoloxía do Código de Evidencias, que é un vocabulario controlado de códigos que abranguen métodos de anotación manuais e automáticos. Por exemplo, o termo Traceable Author Statement (TAS ou Afirmación de Autor Rastrexable) significa que un curador leu un artigo científico publicado e os metadatos desa anotación levan unha cita de dito artigo; Inferred from Sequence Similarity (ISS ou Inferido da Semellanza de Secuencia) significa que un curador humano revisou os datos de saída dunha busca de semellanza de secuencias e verificou que é bioloxicamente significativa. Ás anotacións dos procesos automatizados (por exemplo, remapar anotacións creadas usando outro vocabulario de anotación) dáselle o código Inferred from Electronic Annotation (IEA ou Inferido de Anotación Electrónica). O 1 de abril de 2010, o 98% de todas as anotacións GO eran inferidas computacionalmente, non por curadores.[6] Como esas anotacións non están comprobadas por unha persoa, o Consorcio GO considéraas menos fiables e inclúe só unha parte delas nos datos dispoñibles en liña en AmiGO. Os conxuntos de datos de anotacións completos poden descargarse da páxina web de GO. Para apoiar o desenvolvemento da anotación, o ConsorcioGO proporciona campamentos de estudo e mentores para novos grupos de desenvolvedores.
Exemplo de anotación
editarProduto xénico: Actin, alpha cardiac muscle 1, (actina de músculo cardíaco alfa) UniProtKB:P68032
- Termo GO: contracción muscular ; GO:0060047 (proceso biolóxico)
- Código de evidencia: Inferred from Mutant Phenotype (IMP ou Inferido do Fenotipo Mutante )
- Referencia: PMID 17611253
- Asignado por: UniProtKB, 6 de xuño de 2008
Fonte de datos:[7]
Ferramentas
editarHai un gran número de ferramentas dispoñibles[8] tanto en liña coma para descargar que usan os datos proporcionados polo proxecto GO. A gran maioría destes proceden de terceiras partes; o Consorcio GO desenvolve e apoia dúas ferramentas, AmiGO e OBO-Edit.
AmiGO[9] é unha aplicación baseada en web que permite aos usuarios consultar, buscar e visualizar ontoloxías e datos de anotacións de produtos xénicos. Ademais, ten tamén unha ferramenta BLAST,[10] ferramentas que permiten a análise de grandes conxuntos de datos,[11][12] e unha interface para consultar a base de datos GO directamente.[13]
AmiGO pode utilizarse en liña na páxina web de GO para acceder aos datos proporcionados polo Consorcio GO, ou pode descargarse e instalarse para o seu uso local en calquera base de datos que empregue o esquema da base de datos GO (por exemplo [14]). É unha fonte de sotware de código aberto e está dispoñible como parte da distribución de software go-dev.[15]
OBO-Edit[16] é un editor de ontoloxías independente de plataforma de código aberto desenvolvido e mantido polo Consorcio Gene Ontology. Utiliza a linguaxe de programación Java, e usa unha estratexia orientada a gráficos para mostrar e editar as ontoloxías. OBO-Edit inclúe unha busca comprensiva e interface de filtro, coa opción de facer subconxuntos de termos que se visualizan; a interface de usuario pode tamén personalizarse segundo as preferencias do usuario. OBO-Edit tamén ten un razoador semántico que pode inferir ligazóns que non foron explicitamente establecidas, baseándose nas relacións existentes e as súas propiedades. Aínda que foi desenvolvido para ontoloxías biomédicas, OBO-Edit pode utilizarse para ver, procurar e editar calquera ontoloxía. Esta dispoñible gratuitamente para a súa descarga.[15]
Consorcio
editarO Consorcio Gene Ontology é o conxunto de bases de datos biolóxicas e grupos de investigación que están implicados activamente no proxecto de ontoloxía de xenes.[17] Inclúe varias bases de datos de organismos modelo e bases de datos de proteínas de múltiples especies, grupos de desenvolvemento de programas informáticos aplicables, e unha oficina editorial.
Historia
editarGene Ontology foi construído orixinalmente en 1998 por un consorciode investigadores que estudaban o xenoma de tres organismos modelo: Drosophila melanogaster (a mosca do vinagre), Mus musculus (rato caseiro), e Saccharomyces cerevisiae (lévedo de panadería).[18] Despois uníronse ao consorcio GO moitas outras bases de datos de organismos modelo, contribuíndo non só con datos de anotacións, senón tamén co desenvolvemento de ontoloxías e ferramentas para ver e aplicar os datos. Ata agora, a maioría das principais bases de datos de plantas, animais e microorganismos están a facer unha contribución a este proxecto. En xaneiro de 2008, GO contiña uns 24.500 termos aplicables a unha ampla variedade de organismos biolóxicos. Hai un corpo significativo de literatura para o desenvolvemento e uso de GO, e converteuse nunha ferramenta estándar no arsenal da bioinformática. Os seus obxectivos abranguen tres aspectos: a construción dun ontoloxía xénica, axudar á ontoloxía de xenes/produtos xénicos e desenvolver programas informáticos e bases de datos para os dous anteriores obxectivos.
Notas
editar- ↑ The Gene Ontology Consortium (xaneiro de 2008). "The Gene Ontology project in 2008". Nucleic Acids Res. 36 (Database issue): D440–4. PMC 2238979. PMID 17984083. doi:10.1093/nar/gkm883.
- ↑ Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (novembro de 2007). "The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration". Nat. Biotechnol. 25 (11): 1251–5. PMC 2814061. PMID 17989687. doi:10.1038/nbt1346.
- ↑ Diehl AD, Lee JA, Scheuermann RH, Blake JA (abril de 2007). "Ontology development for biological systems: immunology". Bioinformatics 23 (7): 913–5. PMID 17267433. doi:10.1093/bioinformatics/btm029.
- ↑ "Gene Ontology Database". Gene Ontology Consortium.
- ↑ The GO Consortium (07-10-2015). "gene_ontology.1_2.obo". Arquivado dende o orixinal (OBO 1.2 flat file) o 06-10-2015. Consultado o 2009-03-16.
- ↑ "The what, where, how and why of gene ontology—a primer for bioinformaticians — Brief Bioinform". doi:10.1093/bib/bbr002. Consultado o 07-10-2015.
- ↑ The GO Consortium (2009-03-16). "AmiGO: P68032 Associations". Arquivado dende o orixinal o 05 de novembro de 2012. Consultado o 2009-03-16.
- ↑ Mosquera JL, Sánchez-Pla A (xullo de 2008). "SerbGO: searching for the best GO tool". Nucleic Acids Res. 36 (Web Server issue): W368–71. PMC 2447766. PMID 18480123. doi:10.1093/nar/gkn256.
- ↑ Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S; AmiGO Hub; Web Presence Working Group (2008). "AmiGO: Online access to ontology and annotation data". Bioinformatics 25 (2): 288–289. PMC 2639003. PMID 19033274. doi:10.1093/bioinformatics/btn615.
- ↑ "AmiGO BLAST tool". Arquivado dende o orixinal o 20 de agosto de 2011. Consultado o 05 de outubro de 2015.
- ↑ AmiGO Term Enrichment tool Arquivado 07 de abril de 2008 en Wayback Machine.; finds significant shared GO terms in an annotation set
- ↑ AmiGO Slimmer Arquivado 29 de setembro de 2011 en Wayback Machine.; maps granular annotations up to high-level terms
- ↑ GOOSE Arquivado 01 de marzo de 2009 en Wayback Machine., GO Online SQL Environment; allows direct SQL querying of the GO database
- ↑ The Plant Ontology Consortium (2009-03-16). "Plant Ontology Consortium". Consultado o 2009-03-16.
- ↑ 15,0 15,1 "Gene Ontology downloads at SourceForge". Consultado o 2009-03-16.
- ↑ Day-Richter, J.; Harris, M. A.; Haendel, M.; Lewis, S. (2007). "OBO-Edit an ontology editor for biologists". Bioinformatics 23 (16): 2198–2200. PMID 17545183. doi:10.1093/bioinformatics/btm112.
- ↑ "The GO Consortium". Arquivado dende o orixinal o 02 de xullo de 2014. Consultado o 2009-03-16.
- ↑ Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (maio de 2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium". Nat. Genet. 25 (1): 25–9. PMC 3037419. PMID 10802651. doi:10.1038/75556.
Véxase tamén
editarOutros artigos
editarLigazóns externas
editar- SimCT: ferramenta baseada en páxina web para mostrar as relacións entre obxectos biolóxicos anotados a unha ontoloxía, en forma dunha árbore de agrupamento.
- SerbGO. a ferramenta GO compara as capacidades de diferentes programas para mostrar as súas características comúns e as súas diferenzas e para atopar aquelas ferramentas, se as hai, que teñan as capacidades específicas requiridas polos usuarios para unha análise GO.
- Domain-centric Gene Ontology Arquivado 02 de xaneiro de 2015 en Wayback Machine.: base de datos de ontoloxías centradas nos domnios sobre funcións, fenotipos, doenzas entre outras.
- ↑ Götz, S; García-Gómez, JM; Terol, J; Williams, TD; Nagaraj, SH; Nueda, MJ; Robles, M; Talón, M; Dopazo, J; Conesa, A (xuño de 2008). "High-throughput functional annotation and data mining with the Blast2GO suite". Nucleic Acids Research 36 (10): 3420–35. PMC 2425479. PMID 18445632. doi:10.1093/nar/gkn176.