InterPro

InterPro é unha base de datos de familias de proteínas, dominios e sitios funcionais de proteínas nos cales se encontran características identificables de proteínas coñecidas, que poden ser aplicadas a novas secuencias de proteínas^[1] para así caracterizalas funcionalmente.^[2]^[3]

Os contidos de InterPro constan de sinaturas diagnóstico e as proteínas coas cales estas se corresponden significativamente. As sinaturas constan de modelos (tipos simples, como expresións regulares ou tipos máis complexos, como modelos de Markov ocultos), que describen familias de proteínas, dominios e sitios. Os modelos constrúense a partir de secuencias de aminoácidos de familias coñecidas ou dominios e úsanse seguidamente para buscar secuencias descoñecidas (como as que se descobren a partir de novas secuenciacións de xenomas) para así clasificalas. Cada unha das bases de datos que están incluídas en InterPro contribúen a un nicho de información diferente, desde clasificacións baseadas na estrutura de alto nivel (SUPERFAMILY e CATH-Gene3D) ata clasificacións de subfamilias bastante específicas (PRINTS e PANTHER).

A intención de InterPro é proporcionar un centro multiservizos para a clasificación de proteínas, na que todas as sinaturas producidas polas diferentes bases de datos membros están situadas en entradas na base de datos InterPro. As sinaturas que representan dominios eqivalentes, sitios ou familias póñense na mesma entrada e as entradas poden tamén estar relacionadas unhas con outras. Tamén se proporciona cando é posible información adicional como a descrición, nomes consistentes e termos de Gene Ontology (GO) que están asociados con cada entrada.

Datos contidos en InterPro

InterPro contén tres entidades principais: proteínas, sinaturas (tamén chamadas "métodos" ou "modelos") e entradas. As proteínas de UniProtKB son tamén as entidades proteicas centrais en InterPro. A información sobre cales sinaturas se corresponden significativamente con estas proteínas calcúlase a medida que as secuencias aparecen en UniProtKB e estes resultados póñense a disposición do público (véxase máis abaixo). As correspondencias de sinaturas con proteínas son o que determina como están integradas as sinaturas nas entradas InterPro: o solapamento comparativo dos conxuntos de proteínas concordantes e a localización das correspondencias das sinaturas coas secuencias utilízanse como indicadores da súa maior ou menor relación. Só se integran en InterPro as sinaturas que se considera que teñen calidade dabondo.

InterPro tamén inclúe datos de variantes de splicing e as proteínas contidas nas bases de datos UniParc e UniMes.

Bases de datos incluídas en InterPro

As sinaturas de InterPro proceden de 11 "bases de datos membros", que son as que se indican a continuación:

CATH-Gene3D: Describe familias proteicas e arquitecturas de dominios en xenomas completos. As familias completas están formadas usando un algoritmo de agrupamento de Markov, seguido dun agrupamento de multi-ligazón segundo a identidade de secuencia. O mapado de estruturas preditas e dominios de secuencias é realizado usando bibliotecas de modelos de Markov ocultos que representan dominios CATH e Pfam. Proporciónase unha anotación funcional para proteínas procedente de múltiples fontes. A predición e análise funcional de arquitecturas de dominios está dispoñible na páxina web de Gene3D.
HAMAP: Son as siglas de High-quality Automated and Manual Annotation of microbial Proteomes (Anotación Manual e Automatizada de Alta calidade de Proteomas microbianos). Os perfís HAMAP son creados manualmente por revisores expertos e identifican proteínas que forman parte de familias ou subfamilias proteicas ben conservadas codificadas en bacterias, arqueas, e plastidios (é dicir, cloroplastos, cianelas, apicoplastos, plastidios non fotosintéticos).
PANTHER: É unha gran colección de familias proteicas que foron subdivididas en subfamilias relacionadas funcionalmente, usando expertos humanos. Estas subfamilias modelizan a diverxencia de funcións específicas en familias proteicas, o que permite unha asociación máis precisa coa súa función (con funcións moleculares revisadas por persoas e clasificacións de procesos biolóxicos e diagramas de vías), e tamén a inferencia dos aminoácidos que son importantes para a especificidade funcional. Constrúense modelos de Markov ocultos (HMMs) para cada familia e subfamilia para clasificar secuencias de proteínas adicionais.
Pfam: É unha gran colección de aliñamentos de secuencias múltiples e modelos de Markov ocultos que abranguen moitos dominios proteicos comúns e familias proteicas.
PIRSF: O sistema de clasificación de proteínas é unha rede con moitos niveis de diversidade de secuencia de superfamilias e subfamilias que reflicte as relacións evolutivas de proteínas de lonxitude completa e dominios. A unidade de clasificación PIRSF primaria é a familia homeomórfica, cuxos membros son tanto homólogos (que evolucionaron a partir dun antepasado común) coma homeomórficas (que comparten unha semellanza de secuencia de lonxitude completa e unha arquitectura de dominio común).
PRINTS: É un compendio de "pegadas dactilares" (fingerprints) de proteínas. Unha "pegada dactilar" é un grupo de motivos conservados usados para caracterizar unha familia proteica; o seu poder diagnóstico é refinado por un escaneado iterativo de UniProt. Usualmente os motivos non se solapan, senón que están separados ao longo da secuencia, aínda que poden tamén estar contiguos no espazo tridimensional. Estas "pegadas dactilares" poden codificar pregamentos de proteínas e funcionalidades de xeito máis flexible e potente do que se pode con motivos únicos, e a súa gran potencia de diagnóstico deriva do contexto mutuo ofrecido polos motivos veciños.
ProDom: Base de datos de dominios proteicos que consta dunha compilación automática de dominios homólogos. As versións actuais de ProDom constrúense usando un procedemento novo baseado en buscas PSI-BLAST recursivas.
PROSITE: É unha base de datos de familias e dominios de proteínas. Consta de sitios bioloxicamente significativos das proteínas, patróns e perfís que axudan a identificar con fiabilidade a que familia coñecida (se existe) pertence unha nova secuencia.
SMART: Permite a identificación e anotación de dominios xeneticamente móbiles e a análise de arquitecturas de dominios. Son detectables máis de 800 familias de dominios que se encontran en proteínas asociadas coa cromatina, a sinalización, e extracelulares. Estes dominios están amplamente anotados en canto á súa distribución filética, clase funcional, estruturas terciarias e residuos importantes funcionalmente.
SUPERFAMILY: É unha biblioteca de perfís de modelos de Markov ocultos que representan todas as proteínas de estrutura descoñecida. A biblioteca está baseada na clasificación SCOP das proteínas: cada modelo corresponde a un dominio SCOP e pretende representar a superfamilia SCOP completa á que pertence o dominio. SUPERFAMILY foi utilizada para realizar asignacións estruturais de todos os xenomas completamente secuenciados.
TIGRFAMs: É unha colección de familias de proteínas, que presenta aliñamentos de secuencias múltiples revisados, modelos de Markov ocultos e anotacións, que proporciona unha ferramenta para identificar proteínas funcionalmente relacionadas baseadas na homoloxía de secuencia. Estas entradas, que son o que se chama "equivalogs", agrupan proteínas homólogas que están conservadas con respecto á súa función.

Acceso

A base de datos está dispoñible para buscas baseadas en secuencias e textos por medio dun servidor web, e para descargas por medio de FTP anónima. Como outras bases de datos do EBI, os datos están en dominio público, xa que o seu contido pode utilizarse "por calquera individuo e para calquera propósito".^[4]

Os usuarios poden tamén usar o software de escaneado de sinaturas, InterProScan, se teñen novas secuencias que precisan caracterización.^[5] InterProScan é usada frecuentemente en proxectos xenoma para obter unha primeira caracterización inicial do xenoma de interese.^[6]^[7] En febreiro de 2013, a versión pública de InterProScan (v4.x) estaba baseada en Perl, aínda que unha nova arquitectura baseada en Java está baixo desenvolvemento, e formará o núcleo de InterProScan v5.^[8]

InterPro ten como obxectivo poñer novos datos en dominio público cada 8 semanas, tipicamente un día despois da aparición en UniProtKB dos datos das mesmas proteínas.

Notas

↑ Hunter, S.; Jones, P.; Mitchell, A.; Apweiler, R.; Attwood, T. K.; Bateman, A.; Bernard, T.; Binns, D.; Bork, P.; Burge, S.; De Castro, E.; Coggill, P.; Corbett, M.; Das, U.; Daugherty, L.; Duquenne, L.; Finn, R. D.; Fraser, M.; Gough, J.; Haft, D.; Hulo, N.; Kahn, D.; Kelly, E.; Letunic, I.; Lonsdale, D.; Lopez, R.; Madera, M.; Maslen, J.; McAnulla, C.; McDowall, J. (2011). "InterPro in 2011: New developments in the family and domain prediction database". Nucleic Acids Research 40 (Database issue): D306–D312. PMC 3245097. PMID 22096229. doi:10.1093/nar/gkr948.
↑ Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.; Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.; Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin, A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.; Servant, F.; Sigrist, C. J.; Zdobnov, E. M. (2001). "The InterPro database, an integrated documentation resource for protein families, domains and functional sites". Nucleic Acids Research 29 (1): 37–40. PMC 29841. PMID 11125043. doi:10.1093/nar/29.1.37.
↑ Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.; Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D. R.; Durbin, R.; Falquet, L.; Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin, A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.; Servant, F.; Sigrist, C. J. A.; Zdobnov, E. M.; Interpro, C. (2000). "InterPro--an integrated documentation resource for protein families, domains and functional sites". Bioinformatics 16 (12): 1145–1150. PMID 11159333. doi:10.1093/bioinformatics/16.12.1145.
↑ http://www.ebi.ac.uk/Information/termsofuse.html
↑ Quevillon, E. .; Silventoinen, V. .; Pillai, S. .; Harte, N. .; Mulder, N. .; Apweiler, R. .; Lopez, R. . (Jul 2005). "InterProScan: protein domains identifier" (Free full text). Nucleic Acids Research 33 (Web Server issue): W116–W120. ISSN 0305-1048. PMC 1160203. PMID 15980438. doi:10.1093/nar/gki442.
↑ Lander, E. S.; Linton, M.; Birren, B.; Nusbaum, C.; Zody, C.; Baldwin, J.; Devon, K.; Dewar, K.; Doyle, M.; Fitzhugh, W.; Funke, R.; Gage, D.; Harris, K.; Heaford, A.; Howland, J.; Kann, L.; Lehoczky, J.; Levine, R.; McEwan, P.; McKernan, K.; Meldrim, J.; Mesirov, J. P.; Miranda, C.; Morris, W.; Naylor, J.; Raymond, C.; Rosetti, M.; Santos, R.; Sheridan, A.; et al. (Feb 2001). "Initial sequencing and analysis of the human genome". Nature 409 (6822): 860–921. ISSN 0028-0836. PMID 11237011. doi:10.1038/35057062.
↑ Holt, A.; Subramanian, M.; Halpern, A.; Sutton, G.; Charlab, R.; Nusskern, R.; Wincker, P.; Clark, G.; Ribeiro, M.; Wides, R.; Salzberg, S. L.; Loftus, B.; Yandell, M.; Majoros, W. H.; Rusch, D. B.; Lai, Z.; Kraft, C. L.; Abril, J. F.; Anthouard, V.; Arensburger, P.; Atkinson, P. W.; Baden, H.; De Berardinis, V.; Baldwin, D.; Benes, V.; Biedler, J.; Blass, C.; Bolanos, R.; Boscus, D.; et al. (Oct 2002). "The genome sequence of the malaria mosquito Anopheles gambiae". Science 298 (5591): 129–149. Bibcode:2002Sci...298..129H. ISSN 0036-8075. PMID 12364791. doi:10.1126/science.1076181.
↑ https://code.google.com/p/interproscan/

Véxase tamén

Ligazóns externas

[pmid22096229-1] Hunter, S.; Jones, P.; Mitchell, A.; Apweiler, R.; Attwood, T. K.; Bateman, A.; Bernard, T.; Binns, D.; Bork, P.; Burge, S.; De Castro, E.; Coggill, P.; Corbett, M.; Das, U.; Daugherty, L.; Duquenne, L.; Finn, R. D.; Fraser, M.; Gough, J.; Haft, D.; Hulo, N.; Kahn, D.; Kelly, E.; Letunic, I.; Lonsdale, D.; Lopez, R.; Madera, M.; Maslen, J.; McAnulla, C.; McDowall, J. (2011). "InterPro in 2011: New developments in the family and domain prediction database". Nucleic Acids Research 40 (Database issue): D306–D312. PMC 3245097. PMID 22096229. doi:10.1093/nar/gkr948.

[2] Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.; Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D.; Durbin, R.; Falquet, L.; Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin, A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.; Servant, F.; Sigrist, C. J.; Zdobnov, E. M. (2001). "The InterPro database, an integrated documentation resource for protein families, domains and functional sites". Nucleic Acids Research 29 (1): 37–40. PMC 29841. PMID 11125043. doi:10.1093/nar/29.1.37.

[3] Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M.; Bucher, P.; Cerutti, L.; Corpet, F.; Croning, M. D. R.; Durbin, R.; Falquet, L.; Fleischmann, W.; Gouzy, J.; Hermjakob, H.; Hulo, N.; Jonassen, I.; Kahn, D.; Kanapin, A.; Karavidopoulou, Y.; Lopez, R.; Marx, B.; Mulder, N. J.; Oinn, T. M.; Pagni, M.; Servant, F.; Sigrist, C. J. A.; Zdobnov, E. M.; Interpro, C. (2000). "InterPro--an integrated documentation resource for protein families, domains and functional sites". Bioinformatics 16 (12): 1145–1150. PMID 11159333. doi:10.1093/bioinformatics/16.12.1145.

[termsofuse-4] ttp://www.ebi.ac.uk/Information/termsofuse.html

[pmid15980438-5] Quevillon, E. .; Silventoinen, V. .; Pillai, S. .; Harte, N. .; Mulder, N. .; Apweiler, R. .; Lopez, R. . (Jul 2005). "InterProScan: protein domains identifier" (Free full text). Nucleic Acids Research 33 (Web Server issue): W116–W120. ISSN 0305-1048. PMC 1160203. PMID 15980438. doi:10.1093/nar/gki442.

[pmid11237011-6] Lander, E. S.; Linton, M.; Birren, B.; Nusbaum, C.; Zody, C.; Baldwin, J.; Devon, K.; Dewar, K.; Doyle, M.; Fitzhugh, W.; Funke, R.; Gage, D.; Harris, K.; Heaford, A.; Howland, J.; Kann, L.; Lehoczky, J.; Levine, R.; McEwan, P.; McKernan, K.; Meldrim, J.; Mesirov, J. P.; Miranda, C.; Morris, W.; Naylor, J.; Raymond, C.; Rosetti, M.; Santos, R.; Sheridan, A.; et al. (Feb 2001). "Initial sequencing and analysis of the human genome". Nature 409 (6822): 860–921. ISSN 0028-0836. PMID 11237011. doi:10.1038/35057062.

[pmid12364791-7] Holt, A.; Subramanian, M.; Halpern, A.; Sutton, G.; Charlab, R.; Nusskern, R.; Wincker, P.; Clark, G.; Ribeiro, M.; Wides, R.; Salzberg, S. L.; Loftus, B.; Yandell, M.; Majoros, W. H.; Rusch, D. B.; Lai, Z.; Kraft, C. L.; Abril, J. F.; Anthouard, V.; Arensburger, P.; Atkinson, P. W.; Baden, H.; De Berardinis, V.; Baldwin, D.; Benes, V.; Biedler, J.; Blass, C.; Bolanos, R.; Boscus, D.; et al. (Oct 2002). "The genome sequence of the malaria mosquito Anopheles gambiae". Science 298 (5591): 129–149. Bibcode:2002Sci...298..129H. ISSN 0036-8075. PMID 12364791. doi:10.1126/science.1076181.

[i5codebase-8] ttps://code.google.com/p/interproscan/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]