Rfam é unha base de datos que contén información sobre familias de ARN non codificante (ncRNA) e outros elementos de ARN estruturados. É unha base de datos anotada de acceso aberto desenvolvido orixinalmente no Wellcome Trust Sanger Institute en colaboración con Janelia Farm,[1][2][3][4] e albergado actualmente no Instituto Europeo de Bioinformática.[5] Rfam está deseñado para ser similar á base de datos Pfam de familias proteicas anotadas.

A diferenza das proteínas, os ARN non codificantes adoitan ter unha estrutura secundaria semellante sen compartir unha secuencia primaria moi similar. Rfam divide os ARN non codificantes en familias baseándose na evolución a partir dun antepasado común. Realizar aliñamentos de secuencias múltiples destas familias pode proporcionar coñecementos da súa estrutura e función, de xeito similar ao que ocorre coas familias de proteínas. Estes aliñamentos de secuencias múltiples máis útiles ao engadirse información da estrutura secundaria. Os investigadores de Rfam tamén contribúen ao Wikiproxecto ARN de Wikipedia.[4][6]

A base de datos Rfam pode utilizarse para diversas funcións. Para cada familia de ARN non codificante, a interface permite aos usuarios ver e descargar aliñamentos de secuencias múltiples, ler anotacións, e examinar a distribución nas especies dos membros da familia. Hai tamén ligazóns a referencias da literatura científica e outras bases de datos de ARN. A Rfam tamén proporciona ligazóns a Wikipedia para que as entradas poidan ser creadas ou editadas polos usuarios.

A interface da páxina web Rfam permite que os usuarios busquen os ARN non codificantes por palabra clave, nome da familia ou xenoma, así como buscar pola secuencia do ARN non codificante ou número de acceso de EMBL. [1] A información da base de datos tamén se pode descargar, instalar e usar utilizando o paquete de software INFERNAL.[7][8][9] O paquete INFERNAL pode tamén utilizarse para anotar secuencias (includíndo xenomas completos) de homólogos de ARN non codificsntes coñecidos.

Métodos

editar

Na base de datos a información da estrutura secundaria dos ARN e da secuencia primaria, representada polo aliñamento de secuencias múltiples, está combinado en modelos estatísticos chamados gramática libre de contexto estocástica de perfís (SCFG), tamén coñecidos como modelos de covarianza. Estes son análogos aos modelos de Markov ocultos usados para a anotación de familias proteicas na base de datos Pfam.[1] Cada familia na base de datos está representada por dous aliñamentos de secuencias mñultiples en formato Stockholm e un SCFG.

O primeiro aliñamento de secuencias múltiples é o aliñamento "semente". É un aliñamento revisado á man que contén membros representativos da familia de ARN non codificantes e é anotado con información estrutural. Este aliñamento semente é utilizado para crear o SCFG, que se utiliza co software INFERNAL de Rfam para identificar membros adicionais da familia e engadilos ao aliñamento. Escóllese un valor limiar específico de familia para evitar falsos positivos.

Ata a versión 12, Rfam usaba un paso de filtrado BLAST inicial porque os perfís SCFG eran demasiado caros computacionalmente. Porén, as últimas versións de INFERNAL son xa suficientemente rápidas,[10] polo que o paso BLAST xa non é necesario.[11]

O segundo aliñamento de secuencias múltiples é o aliñamento “completo”, que se crea como resultado dunha investigación usando o modelo de covarianza contra a base de datos de secuencias. Todos os homólogos detectados son aliñados ao modelo, dando o aliñamento completo producido automaticamente.

Historia

editar

A versión 1.0 de Rfam apareceu en 2003 e contiña 25 familias de ARN non codificante e uns 50 000 xenes de ARN non codificante anotados. En 2005, lanzouse a versión 6.1 que contiña 379 familias e uns 280 000 xenes anotados. En agosto de 2012, a versión 11.0 contiña 2 208 familias de ARN, mentres que a versión actual (13.0) comprende 2 686 familias anotadas.

Problemas

editar
  1. Os xenomas de eucariotas superiores conteñen moitos pseudoxenes derivados de ARN non codificantes, así como repeticións. Distinguir estes copias non funcionais do ARN non codificnte funcional é un reto formidable.[2]
  2. Os intróns non son modelados por modelos de covarianza.
  1. 1,0 1,1 Griffiths-Jones S, Bateman A, Marshall M, Khanna A, Eddy SR (2003). "Rfam: an RNA family database". Nucleic Acids Res. 31 (1): 439–41. PMC 165453. PMID 12520045. doi:10.1093/nar/gkg006. 
  2. 2,0 2,1 Griffiths-Jones S, Moxon S, Marshall M, Khanna A, Eddy SR, Bateman A (2005). "Rfam: annotating non-coding RNAs in complete genomes". Nucleic Acids Res. 33 (Database issue): D121–4. PMC 540035. PMID 15608160. doi:10.1093/nar/gki081. 
  3. Gardner PP, Daub J, Tate JG, et al. (October 2008). "Rfam: updates to the RNA families database". Nucleic Acids Research 37 (Database issue): D136. PMC 2686503. PMID 18953034. doi:10.1093/nar/gkn766. 
  4. 4,0 4,1 Gardner PP, Daub J, Tate J, Moore BL, Osuch IH, Griffiths-Jones S, Finn RD, Nawrocki EP, Kolbe DL, Eddy SR, Bateman A (2011). "Rfam: Wikipedia, clans and the "decimal" release.". Nucleic Acids Res 39 (Database issue): D141–5. PMC 3013711. PMID 21062808. doi:10.1093/nar/gkq1129. 
  5. "Moving to xfam.org". Xfam Blog. Consultado o 3 May 2014. 
  6. Daub J, Gardner PP, Tate J, et al. (October 2008). "The RNA WikiProject: Community annotation of RNA families". RNA 14 (12): 2462–4. PMC 2590952. PMID 18945806. doi:10.1261/rna.1200508. 
  7. Eddy SR, Durbin R (June 1994). "RNA sequence analysis using covariance models". Nucleic Acids Research 22 (11): 2079–88. PMC 308124. PMID 8029015. doi:10.1093/nar/22.11.2079. 
  8. Eddy SR (2002). "A memory-efficient dynamic programming algorithm for optimal alignment of a sequence to an RNA secondary structure". BMC Bioinformatics 3: 18. PMC 119854. PMID 12095421. doi:10.1186/1471-2105-3-18. 
  9. Nawrocki EP, Eddy SR (2013). "Infernal 1.1: 100-fold faster RNA homology searches.". Bioinformatics 29 (22): 2933–5. PMC 3810854. PMID 24008419. doi:10.1093/bioinformatics/btt509. 
  10. Nawrocki, Eric P.; Eddy, Sean R. (2013-11-15). "Infernal 1.1: 100-fold faster RNA homology searches". Bioinformatics 29 (22): 2933–2935. ISSN 1367-4811. PMC 3810854. PMID 24008419. doi:10.1093/bioinformatics/btt509. 
  11. Nawrocki, Eric P.; Burge, Sarah W.; Bateman, Alex; Daub, Jennifer; Eberhardt, Ruth Y.; Eddy, Sean R.; Floden, Evan W.; Gardner, Paul P.; Jones, Thomas A. (January 2015). "Rfam 12.0: updates to the RNA families database". Nucleic Acids Research 43 (Database issue): D130–137. ISSN 1362-4962. PMC 4383904. PMID 25392425. doi:10.1093/nar/gku1063. 

Véxase tamén

editar

Ligazóns externas

editar