Aliñamento múltiple de secuencias

Un aliñamento múltiple de secuencias ou aliñamento de secuencias múltiples (MSA, nas súas siglas en inglés, de Multiple Sequence Alignment) é un aliñamento das secuencias de tres ou máis secuencias biolóxicas, xeralmente proteínas, ADN ou ARN (secuencias de aminoácidos ou de nucleótidos). En xeral, asúmese que as diversas secuencias a examinar que se introducen como entrada (conxunto problema) teñen unha relación evolutiva, comparten unha liñaxe e descenden dun antepasado común. Do MSA resultante, pode inferirse a homoloxía entre esas moléculas, e pode realizarse unha análise filoxenética para avaliar as orixes evolutivas compartidas polas secuencias. As representacións visuais do aliñamento poñen de manifesto mutacións tales como mutacións puntuais (un só cambio de aminoácidos ou nucleótidos) que aparecen como diferentes caracteres nunha soa columna do aliñamento, e a inserción ou supresión de mutacións (ou indeis) que aparecen como ocos nunha ou varias das secuencias da aliñación. O aliñamento múltiple de secuencias utilízase a miúdo para avaliar a conservación dos dominios proteicos, as estruturas terciarias e secundarias das moléculas, e mesmo aminoácidos ou nucleótidos individuais.

As primeiras 90 posicións dun aliñamento múltiple de secuencias de exemplos da proteína ribosómica ácida P0 (L10E) de varios organismos. Xerado con ClustalX.
Aliñamento múltiple de 27 secuencias da proteína hemaglutinina do virus da gripe aviaria, coloreado segundo a conservación de residuos (máis escuro canta maior conservación; arriba) e as súas propiedades químicas (abaixo).

Co termo aliñamento múltiple de secuencias tamén se fai referencia ao proceso de aliñalas como un conxunto de secuencias. Como pode ser difícil aliñar a man tres ou máis secuencias de lonxitude bioloxicamente relevante, e case sempre leva moito tempo, utilízanse algoritmos computacionais para producir e analizar os aliñamentos. Os MSA requiren metodoloxías máis sofisticadas que os aliñamento de pares porque son computacionalmente máis complexos de producir. A maior parte dos programas de aliñamento múltiple de secuencias usan métodos heurísticos en lugar de optimización global, porque identificar o aliñamento óptimo entre máis dunhas poucas secuencias de lonxitude moderada é moi custoso computacionalmente.

Programación dinámica e complexidade computacional editar

O método máis directo para producir aliñamentos múltiples de secuencias utiliza a técnica de programación dinámica para identificar a solución de aliñamento globalmente óptima. Para as proteínas, este método supón normalmente dous conxuntos de parámetros: unha penalización por oco (gap) e unha matriz de substitución que asigna puntuacións ou probabilidades ao aliñamento de cada posible par de aminoácidos baseadas na semellanza das propiedades químicas destes ou na probabilidade evolutiva da mutación. Para secuencias de nucleótidos pode usarse unha matriz de substitución, mais dado que só hai catro caracteres estándar posibles (A, T, G, C) por secuencia, e que os nucleótidos individuais non difiren moito na súa probabilidade de substitución, os parámetros para secuencias de ADN e ARN consisten, normalmente, nunha penalización por gap, unha puntuación positiva para coincidencias de caracteres, e unha puntuación negativa para as faltas de coincidencia. Os valores na matriz de substitución poden ser todos positivos ou unha mestura de positivos e negativos no caso dun aliñamento global, pero deben ser tanto positivos coma negativos no caso dun aliñamento local.[1]

Para n secuencias individuais, o método require construír o equivalente n-dimensional da matriz formada no aliñamento estándar de pares de secuencias da programación dinámica. Desta forma, o espazo de busca increméntase exponencialmente conforme se incrementa n, dependendo tamén fortemente da lonxitude da secuencia. Atopar desta forma o óptimo global para n secuencias é un problema dos denominados NP-completos.[2][3] Os métodos para reducir o espazo de busca efectuando inicialmente aliñamentos de pares mediante programación dinámica sobre cada par de secuencias no conxunto problema, e buscando só o espazo solución preto destes resultados (encontrando de forma efectiva a intersección entre traxectorias locais nos arredores inmediatos de cada solución óptima de aliñamento por pares) representan a técnica de programación dinámica máis eficiente. O método denominado "suma de pares" utilízase co software MSA, pero non é aínda práctico para a maioría de aplicacións de aliñamento múltiple de secuencias que requiren o aliñamento simultáneo de ducias (e mesmo de varios centos) de secuencias. Os métodos de programación dinámica só se usan agora cando cómpre facer un aliñamento de moi alta calidade entre un pequeno número de secuencias, e como benchmark estándar (estándar de comparación) na avaliación de técnicas heurísticas novas ou melloradas.

Construción progresiva do aliñamento editar

Un método para realizar unha busca heurística do aliñamento é a técnica progresiva (tamén coñecida como método xerárquico ou de árbore) que constrúe un aliñamento múltiple final realizando primeiro unha serie de aliñamentos de pares sobre secuencias sucesivamente menos emparentadas. Tales métodos comezan aliñando en primeiro lugar as dúas secuencias máis cercanamente relacionadas, para seguir aliñando sucesivamente a seguinte secuencia do conxunto problema máis emparentada co aliñamento producido no paso previo. O par inicial "máis relacionado", ou emparentado, determínase mediante un método eficiente de categorización (ou clustering) tal como UPGMA ou neighbour-joining, baseado nunha simple busca heurística do conxunto problema cunha ferramenta como FASTA. As técnicas progresivas, por tanto, constrúen automaticamente tanto unha árbore filoxenética coma un aliñamento.

Unha limitación importante dos métodos progresivos é a súa forte dependencia da asignación inicial do parentesco entre as secuencias, e da calidade do aliñeamento inicial. Deste modo, os métodos son sensibles tamén á distribución das secuencias no conxunto problema: o rendemento mellora cando a cuantificación da estrutura do parentesco entre as secuencias problema compón un gradiente relativamente suave en lugar de encontrarse en categorías afastadas. Tamén se degrada significativamente o rendemento cando todas as secuencias do conxunto teñen unha relación bastante distante, xa que entón son máis probables as imprecisións no aliñamento inicial. Os métodos progresivos máis modernos modifican a súa función de puntuación cunha función de ponderación secundaria que asigna individualmente factores de escala a membros do conxunto problema de forma non liñal, baseada na súa distancia filoxenética aos seus veciños máis próximos. Unha elección asisada dos pesos pode axudar na avaliación das relacións e mitigar os efectos de aliñamentos iniciais relativamente pobres en instantes temperáns da progresión.

Os métodos de aliñamento progresivo son dabondo eficientes como para aplicalos a grande escala para moitas secuencias, e execútanse a miúdo en servidores web acesibles publicamente, polo que os usuarios non necesitan instalar localmente as aplicacións de interese. Uns métodos de aliñamento progresivo moi utilizados son os da familia Clustal,[4] especialmente a variante ponderada ClustalW,[5] cuxo acceso se proporciona nun bo número de portais web, entre os que están GenomeNet, EBI e EMBNetArquivado 01 de maio de 2011 en Wayback Machine.. Hai diferentes portais ou aplicacións que poden variar a interface co usuario e facer accesibles a este diferentes parámetros. O uso de Clustal está moi estendido para a construción de árbores filoxenéticas e como input para a predición da estrutura de proteínas por medio da modelaxe por homoloxía.

Outro método común de aliñamento progresivo denominado T-Coffee[6] é máis lento que Clustal e os seus derivados, mais xeralmente produce aliñamentos máis precisos para conxuntos de secuencias distantemente emparentadas. T-Coffee calcula aliñamentos de pares combinando o aliñamento directo do par con aliñamentos indirectos que aliñan cada secuencia do par cunha terceira. Usa a saída de Clustal así como outro programa de aliñamento local, LALIGN, que encontra rexións múltiples de aliñamento local entre dúas secuencias. Os aliñamentos e a árbore filoxenética resultante úsanse como guía para producir factores de ponderación novos e máis precisos.

Como os métodos progresivos son heurísticos e, por tanto, non garanten a converxencia a un óptimo global, a calidade do aliñamento pode ser difícil de avaliar, e a súa verdadeira significación biolóxica pode ser escura. Un método semiprogresivo moi recente que mellora a calidade do aliñamento e que non utiliza unha heurística "con perdas" á vez que se executa en tempo polinómico[7] aplicouse no programa PSAlignArquivado 02 de agosto de 2020 en Wayback Machine..

Métodos iterativos editar

Un conxunto de métodos para producir aliñamentos múltiples de secuencias que reducen os erros inherentes aos métodos progresivos son os clasificados como “iterativos”, xa que traballan de forma similar aos métodos progresivos, pero realiñan repetidamente as secuencias iniciais ademais de engadiren novas secuencias ao MSA en crecemento. Unha razón pola que os métodos progresivos son tan fortemente dependentes da alta calidade do aliñamento inicial é que estes aliñamentos se incorporan sempre ao resultado final; é dicir, unha vez que unha secuencia foi aliñada dentro do MSA, o seu aliñamento non volve a ser considerado. Este enfoque mellora a eficiencia a costa da precisión. En contraste, os métodos iterativos poden volver a aliñamentos de pares previamente calculados (ou sub-MSAs) incorporando subconxuntos da secuencia problema como un medio de optimización dunha función obxectivo xeral, tal como encontrar unha puntuación de aliñamento de alta calidade.

Aplicáronse unha variedade de métodos de iteración sutilmente diferentes, que se poden encontrar en diferentes paquetes de software. Existen revisións e comparacións útiles, pero evitan, xeralmente, elixir algunha das técnicas como a "mellor".[8]

O paquete PRRN/PRRP utiliza un algoritmo hill climbing (ascenso da colina) para optimizar a súa puntuación de aliñamento do MSA[9] e corrixir iterativamente tanto as ponderacións do aliñamento como as rexións localmente diverxentes (con ocos) do aliñamento múltiple de secuencias en crecemento.[10] O PRRP actúa mellor cando refina un aliñamento previamente construído por un método máis rápido.[10]

Outro programa iterativo chamado DIALIGN, segue unha estratexia infrecuente ao concentrarse estreitamente en aliñamentos locais entre subsegmentos ou secuencias motivo sen introducir unha penalización por oco.[11] Consegue o aliñamento de motivos individuais cunha representación matricial similar a unha gráfica de matriz de puntos nun aliñamento de pares. Un método alternativo que utiliza aliñamentos locais rápidos como puntos de referencia ou "sementes" para un procedemento máis lento de aliñamento global aplícase na suite CHAOS/DIALIGN.[12]

Un terceiro método de uso común baseado na iteración, chamado MUSCLE (de multiple sequence alignment by log-expectation, ou aliñamento múltiple de secuencias por log-esperanza; este último termo corresponde a unha función de puntuación non común baseada na esperanza matemática, e resultado de modificar a función log-average ou log-media), mellora os resultados en relación aos métodos progresivos ao obter unha medida máis precisa da distancia para valorar o parentesco de dúas secuencias.[13] A medición da distancia actualízase entre as etapas da iteración (porén, na súa forma orixinal, MUSCLE contiña só dúas ou tres iteracións, dependendo de se se activaba ou non o refinamento).

Modelos de Markov ocultos editar

Os modelos de Markov ocultos (ou HMM, do inglés Hidden Markov Models) son modelos probabilísticos que asignan probabilidades a todas as posibles combinacións de ocos, coincidencias e diferenzas para determinar o máis probable aliñamento múltiple de secuencias ou conxunto de posibles MSA. Os HMM poden producir unha saída única coa maior puntuación, pero tamén poden xerar unha familia de aliñamentos posibles que poidan avaliarse en canto á súa importancia biolóxica. Dado que os modelos ocultos de Markov son probabilísticos, non producen a mesma solución cada vez que se executan sobre o mesmo conxunto de datos; desta forma, non poden garantir converxer ao aliñamento óptimo. Os HMM poden producir aliñamentos tanto locais coma globais. Aínda que os métodos baseados nestes modelos foron desenvolvidos recentemente, ofrecen melloras significativas na velocidade computacional, especialmente para secuencias que conteñen rexións solapadas.[10]

Os métodos típicos baseados en HMM traballan representando un MSA baixo a forma de grafo dirixido acíclico, coñecido como un grafo de orde parcial, e que consiste nunha serie de nodos que representan posibles entradas nas columnas dun aliñamento múltiple de secuencias. Nesta representación, unha columna que estea absolutamente conservada (é dicir, que todas as secuencias no MSA compartan un carácter determinado nesa posición en particular) codifícase como un único nodo con tantas conexións saíntes coma posibles caracteres haxa na seguinte columna do aliñamento. Nos termos dun típico modelo oculto de Markov, os estados observados son as columnas individuais do aliñamento, e os estados "ocultos" representan a suposta secuencia ancestral desde a cal se presume que descenden as secuencias do conxunto problema. Unha variante de busca eficiente do método de programación dinámica, coñecida como algoritmo de Viterbi, úsase xeralmente para aliñar sucesivamente o MSA en crecemento coa seguinte secuencia do conxunto problema para xerar un novo MSA.[14] Isto é diferente dos métodos de aliñamento progresivo porque o aliñamento das secuencias previas se actualiza en cada adición dunha nova secuencia. Porén, igual que nos métodos progresivos, esta técnica pode verse influenciada pola orde na cal as secuencias do conxunto problema son integradas no aliñamento, especialmente cando as secuencias están relacionadas distantemente.[10]

Poden atoparse bastantes programas de software nos cales se aplican variantes dos métodos baseados en HMM, e que se caracterizan pola súa escalabilidade e eficiencia, aínda que o uso correcto dun método HMM é máis complexo que o dos métodos progresivos máis comúns. O máis sinxelo é POA (Partial-Order Alignment, Aliñamento de orde parcial).[15] Un método similar, pero máis xeral, aplícase no paquete SAM (Sequence Alignment and Modeling System, sistema de aliñamento e modelado de secuencia).[16] O SAM tense usado como unha fonte de aliñamentos para predición de estrutura de proteínas ao participar no experimento de predición de estrutura CASP (de Critical Assessment of Techniques for Protein Structure Prediction, Valoración crítica de técnicas para predición da estrutura de proteínas), e para desenvolver unha base de datos de proteínas preditas na especie de lévedos Saccharomyces cerevisiae. Os métodos HMM tamén poden usarse para buscas en bases de datos con HMMer.[17]

Métodos conscientes da filoxenia editar

 
Aliñamentos de exóns non homólogos por un método iterativo (a), e por un método consciente da filoxenia (b).

A maioría dos métodos de aliñamento múltiple de secuencias tratan de minimizar o número de insercións/delecións (ocos ou gaps) e, en consecuencia, producen aliñamentos compactos. Isto causa varios problemas se as secuencias que teñen que ser aliñadas conteñen rexións non homólogas, se os ocos teñen información valiosa para unha análise filoxenética. Estes problemas son comúns en secuencias recentemente producidas que están pouco anotadas e poden conter corrementos da pauta de lectura, dominios incorrectos ou exóns empalmados non homólogos.

O primeiro destes métodos foi desenvolvido en 2005 por Löytynoja e Goldman.[18] Os mesmos autores prepararon un paquete de software chamado PRANK en 2008.[19] PRANK mellora os aliñamentos cando están presentes insercións. Non obstante, é un programa máis lento comparado cos métodos progresivos ou iterativos, que foron desenvolvidos ao longo de varios anos.

En 2012, apareceron dúas novas ferramentas conscientes da filoxenia (phylogeny-aware). Unha chámase PAGAN, que foi desenvolvida polo mesmo equipo de PRANK,[20] e a outra é ProGraphMSA desenvolvida por Szalkowski.[21] Estes paquetes de software foron desenvolvidos independentemente pero comparten algunhas características, principalmente o uso de algoritmos gráficos para mellorar o recoñecemento de rexións non homólogas, e unha mellora na rapidez de producir o código con respecto a PRANK.

Algoritmos xenéticos e simulated annealing editar

No intento de producir MSA de calidade de forma máis eficiente tamén se usaron algunhas técnicas de optimización estándar en ciencias da computación inspiradas por procesos físicos (pero que non os reproducen directamente). Unha delas son os algoritmos xenéticos, que se utilizaron na produción de MSA intentando simular, en liñas xerais, o hipotético proceso evolutivo que dá lugar á diverxencia no conxunto problema. Este método traballa rompendo en fragmentos unha serie de posibles MSA e reordenando repetidamente estes fragmentos coa introdución de ocos en diferentes posicións. Unha función obxectivo xeral optimízase durante a simulación, normalmente unha función de maximización "suma de pares" introducida nos métodos de MSA de programación dinámica. Aplicouse unha técnica para secuencias de proteínas no programa de software SAGA (Sequence Alignment by Genetic Algorithm, Aliñamento de secuencias por algoritmo xenético),[22] e denomínsse RAGA o seu equivalente para ARN.[23]

Mediante a técnica de simulated annealing, un aliñamento múltiple de secuencias existente, producido por outro método, refínase por unha serie de reordenamentos deseñados para encontrar rexións máis óptimas do espazo de aliñamento que a xa ocupada polo MSA previo. Igual que no método de algoritmos xenéticos, no simulated annealing maximízase unha función obxectivo como a suma de pares. Este método utiliza un "factor de temperatura" metafórico que determina o ritmo ao cal avanzan os reordenamentos, e a probabilidade de cada un deles. Un uso típico alterna períodos de altos ritmos de reorganización e relativamente baixa probabilidade (para explorar rexións máis distantes do espazo de aliñamento), con períodos de baixos ritmos e máis altas probabilidades para explorar a fondo mínimos locais preto das rexións recentemente “colonizadas”. Este enfoque foi aplicado no programa MSASA (Multiple Sequence Alignment by Simulated Annealing, aliñamento múltiple de secuencias por annealing simulado).[24]

Descubrimento de motivos editar

 
Aliñamento das caspases de Drosophila coloreado por motivos identificados por MEME. Cando as posicións dos motivos e os aliñamentos das secuencias se xeran independentemente, a miúdo correlaciónanse, pero non perfectamente, como neste exemplo.

O descubrimento de motivos, tamén coñecido como análise de perfís, é un método de localización de motivos de secuencia en MSA globais, que supón un medio para producir mellores aliñamentos múltiples de secuencias e para producir unha matriz de puntuación para ser usada na busca de motivos similares noutras secuencias. Desenvolvéronse varios métodos para illar os motivos, pero todos están baseados na identificación de patróns curtos altamente conservados dentro dun aliñamento maior, e na construción dunha matriz, similar a unha de substitución, que reflicta a composición de aminoácidos ou nucleótidos de cada posición no suposto motivo. Os aliñamentos pódense refinar entón usando estas matrices. Na análise estándar de perfís, a matriz inclúe entradas para cada posible carácter, e entradas para ocos.[10] Alternativamente, os algoritmos estatísticos de descubrimento de patróns poden identificar motivos como precursores de MSA, en lugar de como derivados. En moitos casos, cando o conxunto de secuencias problema contén só un pequeno número de secuencias, ou contén só secuencias altamente relacionadas, engádense pseudocontadores para normalizar a distribución reflectida na matriz de puntuación. Isto corrixe, en particular, entradas na matriz con probabilidade cero mediante valores pequenos, pero non nulos.

A análise de bloques é un método de descubrimento de motivos que os restrinxe a rexións sen ocos no aliñamento. Os bloques pódense xerar desde un MSA ou poden ser extraídos de secuencias sen aliñar usando un conxunto precalculado de motivos previamente xerado desde familias coñecidas de xenes.[25] A puntuación dos bloques depende xeralmente do espazado dos caracteres con altas frecuencias, en lugar de recaer sobre o cálculo dunha matriz de substitución explícita. O servidor BLOCKS proporciona un método interactivo para localizar tales motivos en secuencias sen aliñar.

Aplicáronse comparadores de patróns utilizando tanto o algoritmo expectación-maximización coma a mostraxe de Gibbs. Unha das ferramentas máis comúns de descubrimento de motivos, denominada MEME, utiliza expectación-maximización e modelos ocultos de Markov para xerar motivos que logo se usan como ferramentas de busca polo seu programa compañeiro MAST na suite combinada MEME/MAST.[26][27]

Aliñamento múltiple de secuencias non codificantes editar

As rexións do ADN non codificantes, especialmente TFBSs (transcriptor factor binding sites, sitios de unión de factores de transcrición), están bastante máis conservadas e non necesariamente están relacionadas evolutivamente, e puideron ter converxido a partir de antepasados non comúns. Así, as asuncións utilizadas para aliñar secuencias de proteínas e rexións de ADN codificantes son inherentemente diferentes daquelas que se teñen para as secuencias TFBS. Aínda que ten senso aliñar rexións de ADN codificantes para secuencias homólogas usando operadores mmutacionais, o aliñamento de secuencias de sitios de unión para o mesmo factor de transcrición non poden dependenr de operacións mutacionais relacionadas evolutivamente. De xeito similar, o operador evolutivo de mutacións puntuais pode usarse para definir unha distancia de edición para secuencias codificantes, pero isto ten pouco senso nas secuencias TFBS, porque calquera variación na secuencia ten que manter un certo nivel de especificidade para que funcione o sitio de unión. Isto faise especificamente importante cando se tratan de aliñar secuencias TFBS coñecidas para construír modelos supervisados para predicir localizacións descoñecidas dos mesmos TFBS. Por tanto, os métodos de aliñamento múltiple de secuencias necesitan axustar as hipóteses evolutivas subxacentes e os operadores utilizados como nos traballos publicados incorporando a información termodinámica de bases veciñas [28] para aliñar os sitios de unión buscando o aliñamento termodinámico máis baixo que conserva a especificidade do sitio de unión, EDNA.

Visuaización do aliñamento e control de calidade editar

O uso necesario de heurística para facer aliñamentos múltiples significa que para un conxunto arbitrario de proteínas, hai sempre bastantes probabilidades de que o aliñamento conteña erros. Por exemplo, unha avaliación de varios programas de aliñamento usando BAliBase benchmark atopou que polo menos o 24% de todos os pares de aminoácidos aliñados estaban aliñados incorrectamente.[29] Estes erros poden orixinarse a causa de insercións únicas nunha ou máis rexións das secuencias, ou a través dalgúns procesos evolutivos máis complexos que orixinan proteínas que non se aliñan facilmente só pola súa secuencia. A medida que o número de secuencias e a súa diverxencia se incrementa cometeranse moitos máis erros simplemente debido á natureza heurística dos algoritmos de aliñamentos múltiples de secuencias. Os chamados visores de aliñamento múltiple de secuencias permiten revisar visualmente os aliñamentos, a miúdo inspeccionando a calidade do aliñamento para sitios funcionais anotados en dúas ou máis secuencias. Moitos tamén permiten que o aliñamento sexa editado para corrixir estes erros (xeralmente menores), para obter un aliñamento óptimo "verificado" que sexa axeitado para o seu uso en análises filoxenéticas ou modelaxe comparativa.[30]

Porén, a medida que o número de secuencias se incrementa e especialmente en estudos a escala xenómica que implican moitos aliñamentos múltiples de secuencias é imposible verificar manualmente todos os aliñamentos. Ademais, a verificación manual é subxectiva. E, finalmente, mesmo o mellor experto non pode aliñar con seguridade os casos máis ambiguos de secuencias moi diverxentes. En tales casos é unha práctica común utilizar procedementos automáticos para excluír rexións aliñadas inseguras a partir de aliñamentos múltiples de secuencias. Co propósito de facer reconstrucións filoxenéticas (véxase máis abaixo) utilízase moito o programa Gblocks para eliminar bloques de aliñamentos sospeitosos de ser de baixa calidade, de acordo con varios límites no número de secuencias con ocos en columnas aliñadas.[31] Con todo, estes criterios poden filtrar excesivamente rexións con eventos de inserción/deleción que aínda poden ser aliñados con confianza, e estas rexións poderían ser desexables para outros propósitos como a detección de seleccións positivas. Uns poucos algoritmos de aliñamento xeran puntuacións específicas de sitio que permiten a selección de rexións de elevada confianza. O programa SOAP foi o primeiro que ofreceu un servizo dese tipo,[32] que comproba a robustez de cada columna ás perturbacións nos parámetros do programa de aliñamento moi usado CLUSTALW. O programa T-Coffee[33] usa unha libraría de aliñamentos na construción do aliñamento múltiple de secuencias final, e o aliñamento que xera está coloreado de acordo coas puntuacións de confianza que reflicten a concordancia entre diferentes aliñamentos na libraría en relación con cada residuo aliñado. A súa extensión TCS (Transitive Consistency Score, Puntuación de Consistencia Transitiva) usa librarías T-Coffee de aliñamentos por pares para avaliar calquera aliñamento múltiple independente (third party). As proxeccións por pares poden producirse usando métidos rápidos ou lentos, o que permite chegar a un compromiso entre velocidade e precisión.[34] Outro programa de aliñamento que pode xerar un aliñamento múltiple con puntuacións de confianza é FSA,[35] o cal utiliza un modelo estatístico que permite o cálculo da incerteza do aliñamento. A puntuación HoT (Heads-Or-Tails) pode utilizarse tamén como unha medida da incerteza do aliñamento específico de sitio debido á existencia de múltiples solucións coóptimas.[36] O programa GUIDANCE[37] calcula unha medida de confianza específica de sitio similar baseada na robustez do aliñamento para a incerteza na árbore guía que se utiliza nos programas de aliñamento progresivo. Unha alternativa, cun enfoque xustificado máis estatisticamente para estimar a incerteza do aliñamento, é o uso de modelos evolutivos probabilísticos para a estimación conxunta (joint estimation) da filoxenia e o aliñamento. Un enfoque bayesiano permite o cálculo de probabilidades posteriores de aliñamento e filoxenia estimada, que é unha medida da confianza nestas estimacións. Nese caso, pode calcularse unha probabilidade posterior para cada sitio do aliñamento. Ese enfoque foi o aplicado no programa BAli-Phy.[38]

Velaquí algúns programas libres dispoñibles para a visualización de aliñamentos múltiples de secuencias: JalView, UGENE.

Uso en filoxenia editar

Os aliñamentos múltiples de secuencias poden utilizarse para crear unha árbore filoxenética.[39] Isto é posible por dúas razóns. A primeira é que dominios funcionais que son coñecidos en secuencias anotadas poden utilizarse para o aliñamento en secuencias non anotadas. A segunda é que se poden encontrar as rexións conservadas que se sabe que son funcionalmente importantes. Isto fai posible que se usen os aliñamentos múltiples de secuencias para analizar e atopar relacións evolutivas por medio da homoloxía entre as secuencias. Poden detectarse as mutacións puntuais e os eventos de inserción de deleción (chamados indeis).

Os aliñamentos múltiples de secuencias poden tamén utilizarse para identificar sitios importantes funcionalmente, como sitios de unión de moléculas, sitios activos, ou sitios que realizan outras funcións clave, ao localizar dominios conservados. Cando se buscan aliñamentos de múltiples de secuencias é útil considerar diferentes aspectos das secuencias cando se comparan secuencias. Estes aspectos inclúen identidade, semellanza, e homoloxía. A identidade significa que as secuencias teñen residuos idénticos nas súas respectivas posicións. Por outra parte, a semellanza ten que ver coa comparación das secuencias que teñen residuos similares cuantitativamente. Por exemplo, en canto a secuencias de nucleótidos, as pirimidinas considéranse similares entre si, e o mesmo ocorre coas purinas. A semellanza en último extremo leva a unha homoloxía, no sentido que canto máis similares son as secuencias, máis próximas son para ser homólogas. Esta semellanza nas secuencias pode despois axudar a encontrar un antepasaado común.[39]

Notas editar

  1. "Help with matrices used in sequence comparison tools". European Bioinformatics Institute. Arquivado dende o orixinal o 11 de marzo de 2010. Consultado o March 3, 2010. 
  2. Wang L, Jiang T. (1994) On the complexity of multiple sequence alignment. J Comput Biol 1:337-348.
  3. Just W. (2001). Computational complexity of multiple sequence alignment with SP-score. J Comput Biol 8(6):615-23.
  4. Higgins DG, Sharp PM. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene 73(1):237-44.
  5. Thompson JD, Higgins DG, Gibson TJ. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Res 22:4673-4680.
  6. Notredame C, Higgins DG, Heringa J. (2000). T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol 302(1):205-17.
  7. Sze SH, Lu Y, Yang Q. (2006). A polynomial time solvable formulation of multiple sequence alignment. J Comput Biol 13(2):309-19.
  8. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). Comprehensive study on iterative algorithms of multiple sequence alignment. Comput Appl Biosci 11:13-18.
  9. Gotoh O. (1996). Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol 264(4):823-38.
  10. 10,0 10,1 10,2 10,3 10,4 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  11. Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B. (2003) Fast and sensitive multiple alignment of large genomic sequences. BMC Bioinformatics 4:66.
  12. Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B. (2003) Fast and sensitive multiple alignment of large genomic sequences BMC Bioinformatics 4:66.
  13. Edgar RC. (2004), MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research 32(5), 1792-97.
  14. Hughey R, Krogh A. (1996). Hidden Márkov models for sequence analysis: extension and analysis of the basic method. CABIOS 12(2):95-107.
  15. Grasso C, Lee C. (2004). Combining partial order alignment and progressive multiple sequence alignment increases alignment speed and scalability to very large alignment problems. Bioinformatics 20(10):1546-56.
  16. Hughey R, Krogh A. SAM: Sequence alignment and modeling software system. Technical Report UCSC-CRL-96-22, University of California, Santa Cruz, CA, September 1996.
  17. Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
  18. Loytynoja, A. (2005). "An algorithm for progressive multiple alignment of sequences with insertions". Proceedings of the National Academy of Sciences 102 (30): 10557–10562. doi:10.1073/pnas.0409137102. [1]
  19. Loytynoja, A.; Goldman, N. (2008). "Phylogeny-Aware Gap Placement Prevents Errors in Sequence Alignment and Evolutionary Analysis". Science 320 (5883): 1632–1635. doi:10.1126/science.1158395. PMID 18566285.
  20. Loytynoja, A.; Vilella, A. J.; Goldman, N. (2012). "Accurate extension of multiple sequence alignments using a phylogeny-aware graph algorithm". Bioinformatics 28 (13): 1684–1691. doi:10.1093/bioinformatics/bts198. PMC 3381962. PMID 22531217.
  21. Szalkowski, A. M. (2012). "Fast and robust multiple sequence alignment with phylogenyaware gap placement". BMC Bioinformatics 13: 129–1180. doi:10.1186/1471-2105-13-129. PMC 3495709. PMID 22694311.
  22. Notredame C, Higgins DG. (1996). SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res 24(8):1515-24.
  23. Notredame C, O'Brien EA, Higgins DG. (1997). RAGA: RNA sequence alignment by genetic algorithm. Nucleic Acids Res 25(22):4570-80.
  24. Kim J, Pramanik S, Chung MJ. (1994). Multiple sequence alignment using simulated annealing. Comput Appl Biosci 10(4):419-26.
  25. Henikoff S, Henikoff JG. (1991). Automated assembly of protein blocks for database searching. Nucleic Acids Res 19:6565-72.
  26. Bailey TL, Elkan C.(1994). Fitting a mixture model by expectation maximization to discover motifs in biopolymers. Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28-36, AAAI Press, Menlo Park, California.
  27. Bailey TL, Gribskov M. (1998). Combining evidence using p-values: application to sequence homology searches. Bioinformatics14:48-54.
  28. Salama RA, Stekel DJ (2013). "A non-independent energy-based multiple sequence alignment improves prediction of transcription factor binding sites". Bioinformatics. doi:10.1093/bioinformatics/btt463. 
  29. Nuin PA, Wang Z, Tillier ER (2006). "The accuracy of several multiple sequence alignment programs for proteins". BMC Bioinformatics 7: 471. PMC 1633746. PMID 17062146. doi:10.1186/1471-2105-7-471. 
  30. "Manual editing and adjustment of MSAs". European Molecular Biology Laboratory. 2007. Arquivado dende o orixinal o 24 de setembro de 2015. Consultado o March 7, 2010. 
  31. Castresana J (2000). "Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis". Mol Biol Evol 17: 540–552. doi:10.1093/oxfordjournals.molbev.a026334. 
  32. Loytynoja A, Milinkovitch MC (2001). "SOAP, cleaning multiple alignments from unstable blocks". Bioinformatics 17: 573–574. doi:10.1093/bioinformatics/17.6.573. 
  33. Poirot O, O’Toole E, Notredame C (2003). "Tcoffee@igs: a web server for computing, evaluating and combining multiple sequence alignments". Nucleic Acids Res 31: 3503–3506. doi:10.1093/nar/gkg522. 
  34. Chang, JM; Di Tommaso, P; Notredame, C (Jun 2014). "TCS: A New Multiple Sequence Alignment Reliability Measure to Estimate Alignment Accuracy and Improve Phylogenetic Tree Reconstruction.". Molecular Biology and Evolution 31 (6): 1625–37. PMID 24694831. doi:10.1093/molbev/msu117. 
  35. Bradley RK, Roberts A, Smoot M, Juvekar S, Do J, Dewey C, Holmes I, Pachter L (2009). "Fast statistical alignment". PLoS Comput Biol 5: e1000392. doi:10.1371/journal.pcbi.1000392. 
  36. Landan G, Graur D (2008). "Local reliability measures from sets of co-optimal multiple sequence alignments". Pac Symp Biocomput 13: 15–24. doi:10.1142/9789812776136_0003. 
  37. Penn O, Privman E, Landan G, Graur D, Pupko T (2010). "An Alignment Confidence Score Capturing Robustness to Guide Tree Uncertainty". Mol Biol Evol 27: 1759–1767. doi:10.1093/molbev/msq066. 
  38. Redelings BD, Suchard MA (2005). "Joint Bayesian Estimation of Alignment and Phylogeny". Systematic Biology 54: 401–418. doi:10.1080/10635150590947041. 
  39. 39,0 39,1 Budd, Aidan (10 February 2009). "Multiple sequence alignment exercises and demonstrations". European Molecular Biology Laboratory. Arquivado dende o orixinal o 05 de marzo de 2012. Consultado o June 30, 2010. 

Véxase tamén editar

Bibliografía editar

  • Duret, L.; S. Abdeddaim (2000). "Multiple alignment for structural functional or phylogenetic analyses of homologous sequences". En D. Higgins and W. Taylor. Bioinformatics sequence structure and databanks. Oxford: Oxford University Press. 
  • Notredame, C. (2002). "Recent progresses in multiple sequence alignment: a survey". Pharmacogenomics 31 (1): 131 –– 144. 
  • Thompson, J. D.; F. Plewniak and O. Poch (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Research 27 (13): 12682––2690. 
  • Wallace, I.M.; Blackshields G and Higgins DG. (2005). "Multiple sequence alignments". Curr Opin Struct Biol 15 (3): 261–6. 
  • Notredame, C (2007). "Recent evolutions of multiple sequence alignment algorithms". PLOS Computational Biology 8 (3): e123. 

Outros artigos editar

Ligazóns externas editar