Secuenciación de escopeta
En xenética, a secuenciación de escopeta ou secuenciación shotgun é un método utilizado para secuenciar febras de ADN longas. Denomínase así por analoxía co padrón de disparo case aleatorio e de rápida expansión dunha escopeta.
O método de terminación da cadea de secuenciación de ADN tradicional ("secuenciación de Sanger") só pode utilizarse para febras de ADN curtas de 100 a 1 000 pares de bases. Debido a este límite de tamaño, as secuencias máis longas poden ser divididas en fragmentos máis pequenos que se poidan secuenciar separadamente, e estas secuencias son despois ensambladas para dar a secuencia completa.
Hai dous métodos principais para este proceso de fragmentación e secuenciación. O primer walking (ou "chromosome walking") progresa ao longo do anaco enteiro de febra, anaco por anaco, mentres que a secuenciación de escopeta é un proceso máis rápido pero máis complexo, que usa fragmentos ao chou.
Na secuenciación de escopeta,[1][2] o ADN fragméntase de forma aleatoria orixinando numerosos segmentos pequenos, que son secuenciados usando o método de terminación de cadea para obter lecturas. Realizando varias roldas desta fragmentación e secuenciación obtéñense múltiples lecturas que se solapan para o ADN diana. Certos programas informáticos utilizan despois os extremos solapantes de diferentes lecturas para ensamblalas formando unha secuencia continua.[1]
A secuenciación de escopeta ou shotgun foi unha das tecnoloxias precursoras que permitiu realizar unha secuenciación de xenoma completo.
Exemplo
editarPor exemplo, consideremos as seguintes dúas roldas de lecturas de escopeta:
Febra | Secuencia |
---|---|
Orixinal | AGCATGCTGCAGTCATGCTTAGGCTA
|
Primeira secuencia de escopeta | AGCATGCTGCAGTCATGCT------- -------------------TAGGCTA
|
Segunda secuencia de escopeta | AGCATG-------------------- ------CTGCAGTCATGCTTAGGCTA
|
Reconstrución | AGCATGCTGCAGTCATGCTTAGGCTA
|
Neste exemplo extremadamente simplificado, ningunha das lecturas cobre a lonxitude total da secuencia orixinal, pero as catro lecturas poden ensamblarse na secuencia orixinal usando o solapamento dos seus extremos para alinealas e ordenalas. En realidade, este proceso usa enormes cantidades de información que están inzadas de ambigüidades e erros de secuenciación. A ensamblaxe de xenomas complexos é ademais complicada pola grande abundancia de secuencias repetitivas, o que significa que as lecturas curtas proceden de partes completamente diferentes da secuencia.
Cómpre utilizar moitas lecturas solapantes para cada segmento do ADN orixinal para superar estas dificultades e ensamblar con exactitude a secuencia. Por exemplo, para completar o Proxecto Xenoma Humano, a maioría do xenoma humano foi secuenciado a unha cobertura de 12X ou maior; é dicir, cada base da secuencia final estaba presente como media en 12 lecturas diferentes. Incluso así, os métodos correntes non conseguiran en 2004 illar ou ensamblar secuencias fiables para o aproximadamente o 1% do xenoma humano (eucromático).[3]
Secuenciación de escopeta de xenoma completo
editarHistoria
editarA secuenciación de escopeta de xenoma completo de pequenos xenomas (de 4 000 a 7 000 pares de bases) foi suxerida por primeira vez en 1979.[1] O primeiro xenoma secuenciado por secuenciación de escopeta foi o do virus do mosaico da coliflor, publicado en 1981.[4][5]
Secuenciación de extremos apareados
editarUnha aplicación máis ampla da técnica beneficiouse da secuenciación de extremos apareados, coñecida coloquialmente como secuenciación de escopeta de dobre canón. A medida que os proxectos de secuenciación empezaron a tratar con secuencias de ADN máis longas e complicadas, moitos grupos empezaron a decatarse de que podía obterse información útil secuenciando ambos os extremos dun fragmento de ADN. Aínda que secuenciar ambos os extremos do mesmo fragmento e facer un seguimento dos datos apareados era máis laborioso que secuenciar un só extremo de dous fragmentos distintos, o coñecemento de que as dúas secuencias estaban orientadas en direccións opostas e eran de aproximadamente a lonxitude dun fragmento era valioso para reconstruír a secuencia do fragmento diana orixinal.
Historia. A primeira descrición publicada do uso de extremos apareados é do ano 1990[6] e formaba parte da secuenciación do locus HGPRT humano, aínda que o uso de extremos apareados estaba limitado a pechar ocos (na secuencia) despois da aplicación da estratexia tradicional de escopeta. A primeira descrición teórica dunha estratexia de secuenciación apareada pura, asumindo fragmentos de lonxitude constante, fíxose en 1991.[7] Nesa época, había un consenso na comunidade de investigadores de que a lonxitude de fragmento óptimo para a secuenciación de extremos apareados sería de tres veces a lonxitude da lectura de secuencia. En 1995 Roach et al.[8] introduciron a innovación de usar fragmentos de varios tamaños e demostraron que unha estratexia de secuenciación de extremos apareados pura sería posible en dianas grandes. A estratexia foi adoptada seguidamente por The Institute for Genomic Research (TIGR) para secuenciar o xenoma da bacteria Haemophilus influenzae en 1995,[9] e despois por Celera Genomics para secuenciar o xenoma da mosca do vinagre Drosophila melanogaster en 2000,[10] e seguidamente o xenoma humano.
Estratexia
editarPara aplicar a estratexia, unha febra de ADN de alto peso molecular rómpese en fragmentos ao chou, de tamaño seleccionado (xeralmente de 2, 10, 50 e 150 kb), e clónase nun vector apropiado. Os clons son despois secuenciados desde ambos os extremos usando o método de terminación da cadea rendendo dúas curtas secuencias. Cada secuencia denomínase lectura de extremo ou lectura e dúas lecturas de cada clon denomínanse pares apareados (mate pairs). Como o método de terminación da cadea xeralmente só pode producir lecturas de entre 500 e 1 000 bases de longo, en todos menos nos clons máis pequenos, os pares apareados raramente se solapan.
Ensamblaxe
editarA secuencia orixinal reconstrúese a partir doas lecturas usando software para a ensamblaxe de secuencias. Primeiro, as lecturas que se solapan recóllense formando secuencias compostas máis longas denominadas cóntigos (contigs). Os cóntigos poden ser ligados en armazóns seguindo as conexións entre os pares apareados. A distancia entre cóntigos pode inferirse a partir das posicións dos pares apareados se se coñece cal é a lonxitude do fragmento media da biblioteca e ten unha fiestra estreita de desviación. Dependendo do tamaño do oco entre cóntigos, poden utilizarse diferentes técnicas para encontrar a secuecia que hai nos ocos. Se o oco é pequeno (5-20kb) entón cómpre utilizar a PCR para amplificar a rexión, seguida de secuenciación. Se o oco é grande (>20kb) entón clónase o fragmento grande en vectores especiais como un BAC (cromosoma artificial bacteriano) e seguidamente secuénciase o vector.
Pros e contras
editarOs que propoñen esta estratexia argumentan que é posible secuenciar o xenoma completo dunha vez usando grandes conxuntos de secuenciadores, o que fai o proceso total sexa moito máis eficiente que as estratexias máis tradicionais. Os detractores argumentan que, aínda que a técnica secuencia rapidamente grandes rexións do ADN, a súa capacidade de ligar correctamente estas rexións é dubidosa, especialmente para xenomas con rexións repetitivas. A medida que os programas de ensmblaxe de secuencias sexan máis sofisticados e o poder de computaión se faga máis barato, será posible superar esta limitación.[11]
Cobertura
editarA cobertura (profundidade de lectura ou profundidade) é o número medio delecturas que representan un determinado nucleótido na secuencias reconstruída. Pode calcularse a partir da lonxitude do xenoma orixinal (G), o número de lecturas (N), e a lonxitude media das lecturas (L) como . Por exemplo, un xenoma hipotético de 2 000 pares de bases reconstruído a partir de 8 lecturas cunha lonxitude media de 500 nucleótidos terá unha redundancia de 2x. Este prámetro tamén permite estimar outras cantidades, como a porcentaxe do xenoma cuberto polas lecturas (ás veces tamén chamada cobertura). É moi interesante que haxa unha alta cobertura na secuenciación de escopeta porque pode superar os erros na chamada de bases (ou base calling, a asignación de nucleobases a picos do cromatograma) e de ensamblaxe. A teoría de secuenciación do ADN trata das relacións estes estas cantidades.
Ás veces faise unha distinción entre a cobertura da secuencia e a cobertura física. A cobertura da secuencia é o número medio de veces que se le unha base (como se describiu antes). A cobertura física é o número medio de veces que se le unha base ou é abranguida por lecturas de pares apareados.[12]
Secuenciación de escopeta xerárquica
editarAínda que a secuenciación de escopeta pode en teoría aplicarse a un xenoma de calquera tamaño, a súa aplicación directa á secuenciación de xenomas grandes (por exemplo, o xenoma humano) estivo limitada ata finais da década de 1990, cando os avances tecnolóxicos fixeron que fose práctico manexar as enormes cantidades de datos complexos implicados no proceso.[13] Historicamente, a secuenciación de escopeta de xenoma completo críase que estaba limitada polo tamaño dos grandes xenomas e pola complexidade engadida pola alta porcentaxe de ADN repetitivo (maior do 50% para o xenoma humano) presente en grandes xenomas.[14] Non estaba amplamente aceptado que a secuencia de escopeta de xenomas completos proporcionase datos fiables. Por estas razóns, ideáronse outras estratexias que rebaixaban a carga computacional de ensamblaxe de secuencias que tiña que ser utilizada antes da secuenciación de escopeta.[14] Na secuenciación xerárquica, tamén coñecida como secuenciación de arriba a abaixo, faise un mapa físico de baixa resolución do xenoma antes da secuenciación real. A partir deste mapa, selecciónanse para a secuenciación un número mínimo de fragmentos que cobren o cromosoma enteiro.[15] Deste modo, requírese a mínima cantidade de secuenciación de alto rendemento e ensamblae.
O xenoma amplificado é primeiramente fragmentado en anacos máis grandes (de 50-200kb) e clonado nun hóspede bacteriano usando BACs ou PACs. Como se fragmentaron múltiples copias de xenomas de forma aleatoria, os fragmentos contidos neses clons teñen extremos diferentes, e con suficiente cobertura (ver sección máis arriba) é teoricamente posible atopar un armazón de cóntigos de BAC que cobre o xenoma enteiro. Esta armazón denomínase camiño de baldosas (tilling path). Unha vez que se encontra un camiño de baldosas, os BACs que forman este camiño son fragmentados ao chou en pequenos fragmentos e poden secuenciarse usando o método de escopeta a escala menor.
Aínda que as secuencias completas de cóntigos de BACs non se coñecen, as orientacións relativas entre eles si se saben. Hai varios métodos para deducir esta orde e seleccionar os BACs que constitúen o camiño de baldosas. A estratexia xeral supón identificar as posicións de clons unha en relación doutra e despois seleccionar o menor número de clons necesarios para formar un armazón contiguo que cubra toda a área de interese. A orde dos clons dedúcese determinando o modo no cal se solapan.[16] Os clons que se solapan poden ser identificados de varias maneiras. Pode hibridarse unha pequena sonda etiquetada radioactivamente ou quimicamente que contén un sitio etiquetado por secuencia (STS ou sequence-tagged site) nunha micromatriz sobre a cal se imprimen os clons.[16] Deste modo, identifícanse todos os clons que conteñen un secuencia determinada no xenoma. O extremo dun destes clons pode despois ser secuenciado para render unha nova sonda e o repetirse o proceso nun método chamado chromosome walking.
Alternativamente, a biblioteca de BACs pode ser dixerida por restrición. Infírese que dous clons que teñen varios tamaños de fragmentos en común se solapan porque conteñen múltiples sitios de restrición espallados regularmente en común.[16] Este método de mapado xenómico denomínase pegada dactilar de restrición porque identifica un conxunto de sitios de restrición contidos en cada clon. Unha vez que se atopou o solapamento entre os clons e se coñece a súa orde relativa no xenoma, secuénciase polo método da escopeta un armazón dun subconxunto mínimo destes cóntigos que cobre todo o xenoma.[15]
Dado que implica que primeiro hai que crear un mapa de baixa resolución do xenoma, a secuenciación de escopeta xerárquica é máis lenta que a secuenciación de escopeta de xenoma completo, pero depende menos fortemente de algoritmos de computación que a secuenciación de escopeta de xenoma completo. Porén, o proceso da creación de bibliotecas de BACs amplas e a selección do camiño de baldosas fan que a secuenciación de escopeta xerárquica sexa lenta e requira moito traballo. Agora que se dispón da tecnoloxía, que a fiabilidade dos datos está demostrada,[14] a velocidade e eficiencia de custo da secuenciación de escopeta de xenoma completo converteuna no método primario para a secuenciación de xenomas.
Secuenciación de seguinte xeración
editarA secuenciación de escopeta clásica estaba baseada no método de secuenciación de Sanger e esta foi a técnica máis avanzada para a secuenciación de xenomas aproximadamente durante o período 1995–2005. A estratexia de escopeta ou shotgun aínda se aplica hoxe en día; porén, faise usando outras tecnoloxías de secuenciación, chamadas secuenciación de seguinte xeración. Estas tecnoloxías producen lecturas máis curtas (de aproximadamente 25–500 pares de bases), pero moitos milleiros ou millóns de lecturas nun tempo relativamente curto (da orde dun día).[17] Isto ten como resultado unha alta cobertura, pero o proceso de ensamblaxe require un uso máis intensivo da computación. Estas tecnoloxías son moi superiores á secuenciación de Sanger debido ao alto volume de datos e o tempo relativamente curto que se tarda en secuenciar un xenoma completo.[18]
Secuenciación de escopeta metaxenómica
editarPara determinar a especie/cepa do organismo do cal procede o ADN examinado, é dabondo ter lecturas de 400-500 pares de bases con tal que o seu xenoma sexa xa coñecido, usando por exemplo un software de clasificación taxonómica baseado en k-mer. Con millóns de lecturas de secuenciación de seguinte xeración de mostras ambientais, é posible ter unha visión completa de calquera microbioma complexo formado por miles de especies, como a flora intestinal. As vantaxes sobre a secuenciación de amplicón de ARNr 16S son: non está limitada a bacterias; pode facer unha clasificación ao nivel de cepas, mentres que a secuenciación de amplicón só o fai a nivel de xénero; e a posibilidade de extraer xenes completos e especificar as súas funcións como parte do metaxenoma.[19] A sensibilidade da secuenciación metaxenómica faina unha elección atractiva para o uso clínico.[20] Porén, enfatiza o problema da contaminación da mostra ou a canle de secuenciación.[21]
Notas
editar- ↑ 1,0 1,1 1,2 Staden, R (1979). "A strategy of DNA sequencing employing computer programs". Nucleic Acids Research 6 (70): 2601–10. PMC 327874. PMID 461197. doi:10.1093/nar/6.7.2601.
- ↑ Anderson, S (1981). "Shotgun DNA sequencing using cloned DNase I-generated fragments". Nucleic Acids Research 9 (13): 3015–27. PMC 327328. PMID 6269069. doi:10.1093/nar/9.13.3015.
- ↑ Human Genome Sequencing Consortium, International (21 October 2004). "Finishing the euchromatic sequence of the human genome". Nature 431 (7011): 931–945. Bibcode:2004Natur.431..931H. PMID 15496913. doi:10.1038/nature03001.
- ↑ Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Shepherd, Robert J.; Messing, Joachim (1981-06-25). "The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing". Nucleic Acids Research (en inglés) 9 (12): 2871–2888. ISSN 0305-1048. PMC 326899. PMID 6269062. doi:10.1093/nar/9.12.2871.
- ↑ Doctrow, Brian (2016-07-19). "Profile of Joachim Messing". Proceedings of the National Academy of Sciences (en inglés) 113 (29): 7935–7937. ISSN 0027-8424. PMC 4961156. PMID 27382176. doi:10.1073/pnas.1608857113.
- ↑ Edwards, A; Caskey, T (1991). "Closure strategies for random DNA sequencing". Methods: A Companion to Methods in Enzymology 3 (1): 41–47. doi:10.1016/S1046-2023(05)80162-8.
- ↑ Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. (1990). "Automated DNA sequencing of the human HPRT locus". Genomics 6 (4): 593–608. PMID 2341149. doi:10.1016/0888-7543(90)90493-E.
- ↑ Roach, JC; Boysen, C; Wang, K; Hood, L (1995). "Pairwise end sequencing: a unified approach to genomic mapping and sequencing". Genomics 26 (2): 345–353. PMID 7601461. doi:10.1016/0888-7543(95)80219-C.
- ↑ Fleischmann, RD; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800.
- ↑ Adams, MD; et al. (2000). "The genome sequence of Drosophila melanogaster" (PDF). Science 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. PMID 10731132. doi:10.1126/science.287.5461.2185. Arquivado dende o orixinal (PDF) o 22 de xullo de 2018. Consultado o 10 de febreiro de 2019.
- ↑ Kenner, Richardson; et al. (2010). "Shotgun sequencing: Review of progress in sequence assembly developments". Methods in Biomolecular Research 38 (4): 1022–1035.
- ↑ Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Advances in understanding cancer genomes through second-generation sequencing". Nature Reviews Genetics 11 (10): 685–696. PMID 20847746. doi:10.1038/nrg2841.
- ↑ Dunham, I. Genome Sequencing. Encyclopedia of Life Sciences, 2005. doi 10.1038/npg.els.0005378
- ↑ 14,0 14,1 14,2 Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ Encyclopedia of Life Sciences, 2006.
- ↑ 15,0 15,1 Gibson, G. and Muse, S. V. A Primer of Genome Science. 3rd ed. P.84
- ↑ 16,0 16,1 16,2 Dear, P. H. Genome Mapping. Encyclopedia of Life Sciences, 2005. doi 10.1038/npg.els.0005353.
- ↑ Karl, V; et al. (2009). "Next Generation Sequencing: From Basic Research to Diagnostics". Clinical Chemistry 55 (4): 41–47. PMID 19246620. doi:10.1373/clinchem.2008.112789.
- ↑ Metzker, Michael L. (2010). "Sequencing technologies - the next generation" (PDF). Nat Rev Genet 11 (1): 31–46. PMID 19997069. doi:10.1038/nrg2626. Arquivado dende o orixinal (PDF) o 28 de xaneiro de 2023. Consultado o 10 de febreiro de 2019.
- ↑ Roumpeka, Despoina D.; et al. (2017). "A review of bioinformatics tools for bio-prospecting from metagenomic sequence data". Frontiers in Genetics 8: 23. PMC 5337752. PMID 28321234. doi:10.3389/fgene.2017.00023.
- ↑ Gu, Wei; Miller, Steve & Chiu, Charles Y. (2019-01-24). "Clinical Metagenomic Next-Generation Sequencing for Pathogen Detection". Annual Review of Pathology: Mechanisms of Disease (en inglés) 14 (1): 319–338. ISSN 1553-4006. PMC 6345613. PMID 30355154. doi:10.1146/annurev-pathmechdis-012418-012751. Arquivado dende o orixinal o 22 de marzo de 2019. Consultado o 22 de marzo de 2019.
- ↑ Thoendel, Matthew; et al. (2017). "Impact of contaminating DNA in whole genome amplification kits used for metagenomic shotgun sequencing for infection diagnosis". Journal of Clinical Microbiology 55 (6): 1789–1801. PMC 5442535. PMID 28356418. doi:10.1128/JCM.02402-16.
Véxase tamén
editarOutros artigos
editarBibliografía
editar- "Shotgun sequencing comes of age". The Scientist. Arquivado dende o orixinal o 14 de maio de 2011. Consultado o 31 de decembro de 2002.
- "Shotgun sequencing finds nanoorganisms - Probe of acid mine drainage turns up unsuspected virus-sized Archaea". SpaceRef.com. Arquivado dende o orixinal o 15 de setembro de 2019. Consultado o 23 de decembro de 2006.
- "Genomic shotgun sequencing". biology science. Arquivado dende o orixinal o 12 de xuño de 2013. Consultado o 11 de abril de 2009.
Ligazóns externas
editarEste artigo incorpora material en dominio público do documento do National Center for Biotechnology Information "NCBI Handbook".