O proxecto de base de datos de xenomas Ensembl[1] é un proxecto científico conxunto entre o Instituto Europeo de Bioinformática e o Wellcome Trust Sanger Institute, que foi lanzado en 1999 en resposta á inminente terminación do Proxecto Xenoma Humano.[2] Ensembl pretende proporcionar un recurso centralizado para xenetistas, biólogos moleculares e outros investigadores que estudan os xenomas da especie humana e doutros vertebrados e organismos modelo.[3] Ensembl é un dos varios buscadores xenómicos ben coñecidos para a obtención de información xenómica.

Logo do proxecto.

Bases de datos e buscadores similares encóntranse no NCBI e na Universidade de California, Santa Cruz (UCSC).

Fundamentos editar

O xenoma humano consta de tres mil millóns de pares de bases, que codifican aproximadamente de 20 000 a 25 000 xenes. Porén, o xenoma por si só é pouco útil a non ser que se poidan identificar as localizacións e relacións entre os distitnos xenes. Unha opción é a anotación manual, na que un equipo de científicos trata de localizar xenes utilizando datos experimentais de revistas científicas e bases de datos públicas. Porén, isto é unha tarefa lenta e penosa. A alternativa, chamada anotación automatizada, utiliza o poder dos computadores para facer o complexo labor de concordancia de padróns entre proteínas e ADN.[4]

No proxecto Ensembl, os datos de secuencia que se introducen no sistema de anotación de xenes (unha colección de "pipelines" de software escritas en Perl) que crea un conxunto de localizacións de xenes preditas e gárdaas na base de datos MySQL para unha posterior análise e presentación. Ensembl fai que estes datos estean libremente accesibles para a comunidade de investigadores de todo o mundo. Todos os datos e códigos producidos polo proxecto Ensembl están dispoñibles para ser descargados,[5] e hai tamén un servidor de base de datos de acceso público que permite o acceso remoto. Ademais, o sitio web de Ensembl proporciona presentacións visuais xeradas por computador de moitos dos datos.

Co tempo o proxecto expandiuse para incluír especies adicionais (como organismos modelo claves como o rato, mosca do vinagre e peixe cebra) e tamén unha ampla variedade de datos xenómicos, como as variacións xenéticas e características regulatorias. Desde abril de 2009, un proxecto irmán chamado Ensembl Genomes ampliou o alcance de Ensembl a animais invertebrados, plantas, fungos, bacterias, e protistas, mentres que o proxecto orixinal continúa centrándose só en vertebrados.

Presentación dos datos xenómicos editar

No concepto de Ensembl é esencial a capacidade de xerar automaticamente vistas gráficas dos aliñamentos de xenes e outros datos xenómicos con respecto a un xenoma de referencia. Estes móstranse como pistas de datos, e as pistas individuais poden ser encendidas ou apagadas, permitindo ao usuario personalizar a presentación para que sexa axeitada aos seus intereses. A interface tamén permiten que o usuario faga zoom nunha rexión ou moverse ao longo do xenoma en ambas as direccións.

Outras presentacións mostran os datos a varios niveis de resolución, desde o de cariotipo completo ao de representacións baseadas en textos de secuencias de ADN e de aminoácidos, ou mostrar outros tipos de presentacións como árbores de xenes similares (homólogos) nun rango de especies. Os gráficos son complementados por presentacións tabuladas, e en moitos casos os datos poden ser exportados directamente desde a páxina en varios formatos de ficheiros estándar como FASTA.

Os datos producidos externamente poden tamén engadirse á presentación, sexa por medio do servidor DAS (Distributed Annotation System) en Internet, ou sexa subindo un ficheiro axeitado nun dos formatos soportados, como BAM, BED ou PSL.

Os gráficos xéranse usando módulos de Perl personalizados en GD, a biblioteca de presentación de gráficos estándar de Perl.

Métodos alternativos de acceso editar

Ademais do seu sitio web, Ensembl proporciona unha Perl API[6] (Application Programming Interface, Interface de Programación de Aplicacións) que modela obxectos biolóxicos como xenes e proteínas, permitindo escribir scripts simples para obter os datos de interese. A mesma API utilízase internamente pola interface da web para mostrar os datos. Está dividida en seccións como a API central, a API compara (para datos xenómicos comparativos), a API de variacións (para acceder a SNPs, SNVs, CNVs..), e a API de xenómica funcional (para acceder a datos regulatorios). A páxima web de Ensembl proporciona ampla información sobre como instalar e usar as API.

Este software pode utilizarse para acceder á base de datos pública MySQL, evitando a necesidade de descargar enormes conxuntos de datos. Os usuarios mesmo poden elixir obter os datos de MySQL con buscas SQL directas, pero isto require un amplo coñecemento do esquema da base de datos actual.

Os conxuntos de datos grandes poden obterse usando a ferramenta de minado de datos BioMart. Proporciona unha interface web para descargar conxuntos de datos usando buscas complexas.

Finalmente, hai un servidor FTP que pode utilizarse para descargar bases de datos MySQL enteiras e tamén algúns conxuntos de datos seleccionados noutros formatos.

Especies actuais incluídas editar

Os xenomas anotados inclúen a maioría dos vertebrados que foron totalmente secuenciados e organismos modelo seleccionados. Todos eles son eucariotas, non hai procariotas (no Ensembl orixinal). En 2008, estes incluían:

Notas editar

  1. Hubbard T.; et al. (January 2002). "The Ensembl genome database project". Nucleic Acids Res. 30 (1): 38–41. PMC 99161. PMID 11752248. doi:10.1093/nar/30.1.38. Consultado o 11 November 2014. 
  2. Flicek P, Amode MR, Barrell D, et al. (November 2010). "Ensembl 2011". Nucleic Acids Res 39 (Database issue): D800–D806. PMC 3013672. PMID 21045057. doi:10.1093/nar/gkq1064. 
  3. Flicek P, Aken BL, Ballester B, et al. (January 2010). "Ensembl's 10th year". Nucleic Acids Res. 38 (Database issue): D557–62. PMC 2808936. PMID 19906699. doi:10.1093/nar/gkp972. 
  4. Iulian Pruteanu-Malinici, William H. Majoros, e Uwe Ohler. Automated annotation of gene expression image sequences via non-parametric factor analysis and conditional random fields. Bioinformatics. 2013 Jul 1; 29(13): i27–i35. DOI 10.1093/bioinformatics/btt206. PMCID PMC3694682. [1]
  5. Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Ian; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (January 2017). "Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation". Database 2017 (1). doi:10.1093/database/bax020. 
  6. Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (February 2004). "The Ensembl Core Software Libraries". Genome Research 14 (5): 929–933. PMC 479122. PMID 15123588. doi:10.1101/gr.1857204. 

Véxase tamén editar

Ligazóns externas editar