Familia de proteínas

Unha familia de proteínas é un grupo de proteínas relacionadas evolutivamente con estruturas, funcións e secuencias parecidas. En moitos casos unha familia de proteínas ten unha familia de xenes correspondente, na cal cada xene codifica a súa proteína cunha relación de 1:1.

As proteínas dunha mesma familia descenden dun antepasado común (ver homoloxía) e tipicamente teñen unhas estruturas tridimensionais e funcións similares, e unha semellanza de secuencia significativa. A máis importante destas semellanzas é a semellanza de secuencia (xeralmente na secuencia de aminoácidos), xa que é o indicador máis estrito de homoloxía e, por tanto, o indicador máis claro de que hai un antepasado común. Existe un conxunto de ferramentas bastante desenvolvido para avaliar a importancia da semellanza entre un grupo de secuencias usando os métodos de aliñamento de secuencias. As proteínas que non comparten un devanceiro común é moi improbable que mostren unha semellanza de secuencia estatisticamente significativa, o que fai que o aliñamento de secuencias sexa unha ferramenta poderosa para identificar os membros das familias proteicas.

As familias son ás veces agrupadas en clados máis grandes chamados superfamilias baseándose en semellanzas estruturais ou de mecanismo de acción, mesmo cando non hai unha homoloxía de secuencia identificable.

Actualmente, definíronse unhas 60.000 familias proteicas,^[1] aínda que a ambigüidade na definición de familia proteica (ata onde debe chegar a "semellanza"?) leva a que diferentes investigadores ofrezan cifras moi distintas.

Terminoloxía e uso

Como ocorre con moitos termos biolóxicos, o significado de familia de proteínas depende do contexto no que se use; pode indicar grandes grupos de proteínas co nivel máis baixo posible de semellanza de secuencia detectable, ou grupos moi restrinxidos de proteínas con secuencias case idénticas, e funcións e estruturas tridimensionais moi similares, ou un grupo de proteínas intermedio entre estes extremos. Para distinguir entre estas situacións, utilízase con frecuencia o termo superfamilia proteica para aquelas proteínas que só están relacionadas distantemente cuxo parentesco non é detectable pola semellanza de secuencias, senón só por características estruturais compartidas.^[2]^[3]^[4] Acuñáronse tamén outros termos como clase, grupo, clan e sub-familia de proteínas ao longo dos anos, pero todos sofren unha ambigüidade similar no seu uso. Un uso común é que as superfamilias (homoloxía estrutural) conteñen familias (homoloxía de secuencia) que á súa vez conteñen sub-familias. Xa que logo, unha superfamilia, como a do clan PA de proteases, ten unha conservación de secuencias moito menor que unha das familias que contén, por exemplo a familia C04. É improbable que se chegue a acordar unha definición exacta, polo que depende do lector discernir como se están usando eses termos exactamente nun determinado contexto.

Dominios e motivos proteicos

O concepto de familia de proteínas concibiuse nun momento en que se coñecían poucas estruturas e secuencias de proteínas; daquela, as que se comprendían estruturalmente eran principalmente pequenas proteínas de dominio único como a mioglobina, hemoglobina, e o citocromo c. Desde entón, descubriuse que moitas proteínas comprenden moitas unidades funcionais e estruturais independentes ou dominios. Debido á mesturanza ou reorganización evolutiva, diferentes dominios dunha proetína evolucionaron independentemente. Isto levou en anos recentes a centrar a atención nos dominios e familias proteicos. Varios recursos en liña están dedicados a identificar e catalogar eses dominios (ver lista de ligazóns ao final deste artigo).

As rexións de cada proteína teñen diferentes restricións funcionais (características esenciais para a función e estrutura da proteína). Por exemplo, o sitio activo dun encima require que certos residuos de aminoácidos estean orientados de modo preciso nas tres dimensións. Por outra parte, unha interface de unión proteína-proteína pode consistir en grandes superficies con restricións de hidrofobicidade ou polaridade dos residuos de aminoácidos. As rexións funcionalmente restrinxidas das proteínas evolucionan máis lentamente que as rexións non restrinxidas como os bucles superficiais, que dan lugar a bloques discernibles de secuencias conservadas cando se comparan as secuencias dunha familia proteica (ver aliñamento múltiple de secuencias). Estes bloques denomínanse xeralmente motivos, aínda que se teñen usado moitos outros termos (bloques, sinaturas, pegadas dactilares etc.). Tamén para isto hai un gran número de recursos en liña que se dedican a identificar e catalogar os motivos proteicos (ver a lista do final deste artigo).

Evolución das familias de proteínas

Segundo o consenso actual, as familias proteicas orixínanse de dous xeitos. Primeiramente, a separación dunha especie parental en dúas especies descendentes illadas xeneticamente permite que se acumulen independentemente variacións nun xene/proteína (mutacións) nestas dúas liñaxes. Isto ten como resultado a formación dunha familia de proteínas ortólogas, xeralmente con motivos de secuencia conservados. En segundo lugar, unha duplicación xénica pode crear unha segunda copia dun xene (denominado parálogo). Como o xene orixinal aínda pode realizar a súa función, o xene duplicado é libre de diverxer e pode adquirir novas funcións (por mutación aleatoria). Certas familias de xenes/proteínas, especialmente en eucariotas, sofren unha expansión e contracción extremas no decurso da evolución, ás veces conxuntamente con duplicacións xenómicas completas. Esta expansión e contracción de familias proteicas é unha das características salientables da evolución xenómica, pero a súa importancia e ramificacións aínda non están claras.

Árbore filoxenética a superfamilia Ras. A árbore xerouse utilizando FigTree (un programa informático en liña).

Uso e importancia das familias de proteínas

A medida que se incrementa o número de proteínas secuenciadas e aumenta o interese na análise do proteoma, estanse a facer esforzos por organizar as proteínas en familias e por describir os dominios e motivos que os compoñen. Unha identificación fiable das familias de proteínas é básica na análise filoxenética, na anotación funcional, e na exploración da diversidade de funcións das proteínas nunha rama filoxenética dada. A Enzyme Function Initiative (EFI) está usando as familias e superfamilias proteicas como base para o desenvolvemento dunha estrartexia baseada en secuencia/estrutura para facer asignamentos funcionais a grande escala de encimas de función descoñecida.^[5]

Os medios algorítmicos para establecer familias de proteínas a grande escala están baseados na noción de semellanza. A maioría das veces a única semellanza á que se ten acceso é a semellanza de secuencia.

Recursos sobre familias de proteínas

Hai moitas bases de datos biolóxicas que rexistran exemplos de familias proteicas e permiten aos usuarios identificar se as novas proteínas que se identifican pertencen a unha nova familia. Velaquí algúns exemplos:

Pfam - Base de datos de familias de aliñamentos e HMMs
PROSITE - Base de datos de dominios proteicos, familias e sitios fncionais
PIRSF - SuperFamily Classification System (Sistema de Clasificación de Superfamilias)
PASS2 - Protein Alignment as Structural Superfamilies v2 (Aliñamento de Proteínas como Superfamilias Estruturais v2) - PASS2@NCBS^[6]
SUPERFAMILY - Libraría de HMMs que representan superfamilias e bases de datos de anotacións (de superfamilias e familias) para todos os organismos completamente secuenciados
SCOP e CATH - clasificacións de estruturas de proteínas en superfamilias, familias e dominios

De xeito similar existen moitos algoritmos de busca de bases de datos, como por exemplo:

BLAST - Busca de semellanza de secuencia de ADNs
BLASTp - Busca de semellanza de secuencia de proteínas
OrthoFinder: Arquivado 02 de marzo de 2021 en Wayback Machine. un método rápido, escalable e preciso de agrupar as proteínas en familias (ortogrupos) ^[7]

Notas

↑ Kunin, V.; Cases, I.; Enright, A. J.; De Lorenzo, V.; Ouzounis, C. A. (2003). "Myriads of protein families, and still counting". Genome Biology 4 (2): 401. PMC 151299. PMID 12620116. doi:10.1186/gb-2003-4-2-401.
↑ Dayhoff, M. O. (1974). "Computer analysis of protein sequences". Federation proceedings 33 (12): 2314–2316. PMID 4435228.
↑ Dayhoff, M. O.; McLaughlin, P. J.; Barker, W. C.; Hunt, L. T. (1975). "Evolution of sequences within protein superfamilies". Die Naturwissenschaften 62 (4): 154. doi:10.1007/BF00608697.
↑ Dayhoff, M. O. (1976). "The origin and evolution of protein superfamilies". Federation proceedings 35 (10): 2132–2138. PMID 181273.
↑ Gerlt, J. A.; Allen, K. N.; Almo, S. C.; Armstrong, R. N.; Babbitt, P. C.; Cronan, J. E.; Dunaway-Mariano, D.; Imker, H. J.; Jacobson, M. P.; Minor, W.; Poulter, C. D.; Raushel, F. M.; Sali, A.; Shoichet, B. K.; Sweedler, J. V. (2011). "The Enzyme Function Initiative". Biochemistry 50 (46): 9950–9962. PMC 3238057. PMID 21999478. doi:10.1021/bi201312u.
↑ Gandhimathi, A.; Nair, A. G.; Sowdhamini, R. (2011). "PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies". Nucleic Acids Research 40 (Database issue): D531–D534. PMC 3245109. PMID 22123743. doi:10.1093/nar/gkr1096.
↑ Emms DM, Kelly S. (Aug 2015). "OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy.". Genome Biology. 16 (157). PMID 26243257. doi:10.1186/s13059-015-0721-2.

Véxase tamén

Outros artigos

[1] Kunin, V.; Cases, I.; Enright, A. J.; De Lorenzo, V.; Ouzounis, C. A. (2003). "Myriads of protein families, and still counting". Genome Biology 4 (2): 401. PMC 151299. PMID 12620116. doi:10.1186/gb-2003-4-2-401.

[2] Dayhoff, M. O. (1974). "Computer analysis of protein sequences". Federation proceedings 33 (12): 2314–2316. PMID 4435228.

[3] Dayhoff, M. O.; McLaughlin, P. J.; Barker, W. C.; Hunt, L. T. (1975). "Evolution of sequences within protein superfamilies". Die Naturwissenschaften 62 (4): 154. doi:10.1007/BF00608697.

[4] Dayhoff, M. O. (1976). "The origin and evolution of protein superfamilies". Federation proceedings 35 (10): 2132–2138. PMID 181273.

[5] Gerlt, J. A.; Allen, K. N.; Almo, S. C.; Armstrong, R. N.; Babbitt, P. C.; Cronan, J. E.; Dunaway-Mariano, D.; Imker, H. J.; Jacobson, M. P.; Minor, W.; Poulter, C. D.; Raushel, F. M.; Sali, A.; Shoichet, B. K.; Sweedler, J. V. (2011). "The Enzyme Function Initiative". Biochemistry 50 (46): 9950–9962. PMC 3238057. PMID 21999478. doi:10.1021/bi201312u.

[6] Gandhimathi, A.; Nair, A. G.; Sowdhamini, R. (2011). "PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies". Nucleic Acids Research 40 (Database issue): D531–D534. PMC 3245109. PMID 22123743. doi:10.1093/nar/gkr1096.

[7] Emms DM, Kelly S. (Aug 2015). "OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy.". Genome Biology. 16 (157). PMID 26243257. doi:10.1186/s13059-015-0721-2.

[1]

[2]

[3]

[4]

[5]

[6]

[7]