Summary

Nueva secuencia descubrimiento por la genómica sustractivo

Published: January 25, 2019
doi:

Summary

El propósito de este protocolo es utilizar una combinación de computacional y de investigación del Banco para buscar nuevas secuencias que no se puede separar fácilmente de una secuencia Co purificador, que puede ser conocida sólo parcialmente.

Abstract

Sustractivo genómica puede utilizarse en cualquier investigación donde el objetivo es identificar la secuencia de un gen, la proteína o región general que está incrustado en un contexto más amplio de la genómico. Sustractivo genómica permite a un investigador aislar una secuencia Diana de interés (T) por la secuencia completa y restando elementos genéticos conocidos (referencia R). El método puede utilizarse para identificar secuencias novedosas tales como mitocondrias, cloroplastos, virus, o línea germinal restringido los cromosomas y es particularmente útil cuando T no puede ser fácilmente aislado de R. a partir de los datos genomic integrales (R + T), el método utiliza básico Local herramienta alineación de la búsqueda (BLAST) contra una secuencia de referencia, o secuencias, para quitar las secuencias conocidas correspondientes (R), dejando detrás del objetivo (T). Resta trabajar mejor, R debe ser un proyecto relativamente completo que falta T. Desde secuencias queda después de restar se prueban a través cuantitativo reacción en cadena polimerasa (qPCR), R no necesita ser completa para el método de trabajo. Aquí enlazamos pasos computacionales con medidas experimentales en un ciclo que puede ser iterado según sea necesario, secuencialmente eliminando múltiples secuencias de referencia y refinar la búsqueda para T. La ventaja de la genómica sustractivo es que puede identificarse una secuencia de destino completamente novedoso incluso en los casos en que la purificación física es difícil, imposible o costoso. Un inconveniente del método es encontrar una referencia adecuada para la resta y la obtención de T-positivos y negativos de las muestras para ensayos de qPCR. Se describe la implementación del método en la identificación el primer gen del cromosoma del germline-restricta del pinzón de la cebra. En ese caso filtrado computacional involucrados tres referencias (R), eliminados secuencialmente en tres ciclos: un incompleto conjunto genómico datos genómicos y transcriptómicos datos.

Introduction

El propósito de este método es identificar un nuevo destino (T) secuencia genomic, ya sea ADN o ARN, de un contexto genómico o de referencia (R) (figura 1). El método es más útil si el objetivo no se puede separar físicamente, o que sería costoso hacerlo. Solamente unos pocos organismos han terminado perfectamente genomas para sustracción, una innovación clave de nuestro método es la combinación de computacional y métodos del Banco en un ciclo, permitiendo a los investigadores aislar secuencias diana cuando la referencia es imperfecta, o un proyecto genoma de un organismo no modelo. Al final de un ciclo, ensayo qPCR se utiliza para determinar si es necesario restar más. Una secuencia del candidato validada T mostrará estadísticamente mayor detección en muestras de T-positivo conocidas por qPCR.

Encarnaciones del método han sido implementadas en el descubrimiento de nuevas dianas bacterianas drogas que no tienen host homólogos1,2,3,4 y la identificación de nuevos virus desde equipos infectados 5,6. Además de la identificación de T, el método puede mejorar R: recientemente utilizamos el método para identificar los genes que faltan 936 desde el genoma de referencia de Pinzón de la cebra y un nuevo gen de un cromosoma sólo del germline (T)7. Sustractivo genómica es particularmente valioso cuando T es probable que sea extremadamente divergentes de secuencias conocidas, o cuando la identidad de T es ampliamente definida, como en el pinzón cebra restringido del germline del cromosoma7.

Al no requerir previamente la identificación positiva de T, una ventaja clave de la genómica sustractivo es que es imparcial. En un estudio reciente, Readhead et al examinaron la relación entre la enfermedad de Alzheimer y abundancia viral en cuatro regiones del cerebro. Para la identificación viral, Readhead et al crearon una base de datos de 515 virus8, limitando seriamente los agentes virales que su estudio podría identificar. Sustractivo genómica podría se han utilizado para comparar los sanos y genomas de Alzheimer para aislar de posibles virus nuevos asociados a la enfermedad, independientemente de su semejanza a los agentes infecciosos conocidos. Si bien hay 263 virus dirigidos a humanos, se ha estimado que existen aproximadamente 1,67 millones por descubrir especies virales, con 631.000 827.000 de ellos con un potencial para infectar a los seres humanos9.

Aislamiento de virus nuevos es un área en la cual resta genómica es muy eficaz, pero algunos estudios pueden que no necesite un método riguroso. Por ejemplo, estudios de identificables nuevos virus han utilizado imparcial secuenciación de alto rendimiento seguido por transcripción reversa y BLASTx de secuencias virales5 o enriquecimiento de ácidos nucleicos virales para extraer e invertir transcriben secuencias virales 6. mientras estos estudios secuenciación de novo y Asamblea, resta no fue utilizada porque las secuencias blanco se identificaron positivamente a través de la explosión. Si los virus eran completamente nuevos y no relacionados con (o muy relacionados) a otros virus, genómica sustractivo habría sido una técnica útil. El beneficio de la genómica sustractivo es que se pueden obtener secuencias que son completamente nuevas. Si se conoce el genoma del organismo, puede restarse a dejar cualquier secuencia viral. Por ejemplo, en nuestro estudio publicado se aislaron una secuencia viral novela del pinzón de la cebra a través de la genómica sustractivo, aunque no era nuestra intención original7.

Sustractivo genómica también ha demostrado ser útil en la identificación de los objetivos de la vacuna bacteriana, motivados por el aumento dramático en la resistencia a los antibióticos1,2,3,4. Para minimizar el riesgo de reacción autoinmune, investigadores limitado los objetivos potenciales de la vacuna restando cualquier proteínas que tienen homólogos en el anfitrión humano. Un estudio particular, mirando la pseudotuberculosis del Corynebacterium, realiza sustracción de genoma hospedador vertebrado de varios genomas bacterianos para que objetivos de medicamentos posible no afectaría a las proteínas en los anfitriones llevando a efectos secundarios 1. el flujo de trabajo básico de estos estudios es para descargar el proteoma bacteriano, determinar proteínas vitales, quitar proteínas redundantes, usar BLASTp para aislar las proteínas esenciales y BLASTp contra host proteoma para quitar cualquier proteínas con homólogos de host 1 , 2 , 3 , 4. en este caso, genómica resta asegurar que las vacunas desarrolladas no tendrá efectos off-target en el host1,2,3,4.

Utilizamos sustractivo genómica para identificar el primer gen codificante de la proteína en un restringido del germline cromosoma (GRC) (en este caso, T), que se encuentra en germlines pero no somática tejido de ambos sexos de10. Antes de este estudio, la información solamente genomic que se sabía acerca de lo GRC fue una región repetitiva11. Asamblea de novo fue realizada en RNA secuenciado de tejidos de ovario y teste (T + R) de pinzones cebra adulto. La eliminación computacional de secuencias se realizó usando publicado somático (muscular) genoma secuencia (R1)12, su materia prima (Sanger) lee datos (R2) y somático (cerebro) transcriptoma (R3)13. El uso secuencial de tres referencias fue impulsado por qPCR en paso 5 de cada ciclo (figura 2A), mostrando que el filtrado adicional se requiere. El gen de la α-SNAP descubierto fue confirmado mediante qPCR de DNA y RNA, clonación y secuenciación. Mostramos en el ejemplo que este método es flexible: no es dependiente en las coincidencias con los ácidos nucleicos (ADN vs RNA) y que resta se puede realizar con referencias (R) que están compuestos por conjuntos o lee crudo.

Protocol

1. de novo montar a partir de secuencia Nota: Los datos de la secuencia de la próxima generación (NGS) pueden utilizarse, como un conjunto puede obtenerse de esos datos. Datos de entrada adecuados incluyen Illumina, PacBio, o Oxford Nanopore Lee montado en un archivo fasta. De concreción, esta sección describe un conjunto transcriptómicos Illumina-base específica para el estudio de Pinzón cebra realizamos7; sin embargo ten en cuenta que los detalles variar…

Representative Results

Después de ejecutar el BLAST, el archivo de salida tendrá una lista de las secuencias de la consulta que coincida con la base de datos. Después resta de Python, un número de secuencias nonmatching obtenido y probado por qPCR. Los resultados de este y próximos pasos, se discuten a continuación. Negativo resultado. Hay dos posibles resultados negativos que se observan después de la explosión a la secuencia…

Discussion

Aunque genómica sustractivo es potente, no es un enfoque de cortador de la galleta, que requieren personalización en varios pasos y una cuidadosa selección de secuencias de referencia y las muestras de prueba. Si la Asamblea de consulta es de mala calidad, filtrado de pasos podría aislar sólo artefactos de Asamblea. Por lo tanto, es importante validar completamente el conjunto de novo utilizando un protocolo de validación adecuado para el proyecto específico. Para RNA-seq, directrices se proporcionan en e…

Declarações

The authors have nothing to disclose.

Acknowledgements

Los autores reconocen Michelle Biederman, Alyssa Pedersen y Colin J. Saldanha por su ayuda con el proyecto de genómica del pinzón cebra en diversas etapas. También reconocemos Evgeny Biisk informática administración de sistemas de cluster y NIH grant 1K22CA184297 (a J.R.B.) y NIH NS 042767 (a C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

Referências

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).
check_url/pt/58877?article_type=t

Play Video

Citar este artigo
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video