Novel Sequence Discovery by Subtractive Genomics

Kathryn C. Asalone; Megan M. Nelson; John R. Bracht

doi:10.3791/58877

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genética

Découverte de roman-fleuve de génomique soustractive

Published: January 25, 2019

doi:

10.3791/58877

Kathryn C. Asalone, Megan M. Nelson, John R. Bracht

¹Biology Department,American University

Summary

Le but du présent protocole est d’utiliser une combinaison de calcul et de la recherche de banc pour trouver de nouvelles séquences qui ne peuvent être facilement séparés d’une séquence co purificatrice, qui peut-être n’être que partiellement connue.

Abstract

Soustractive génomique peut être utilisé dans des recherches dont le but est d’identifier la séquence d’un gène, protéine ou une région qui est incorporée dans un contexte plus large de génomique. Soustractive génomique permet à un chercheur d’isoler une séquence cible d’intérêt (T) en séquençage complet et en soustrayant les éléments génétiques connus (référence, R). La méthode peut être utilisée pour identifier de nouvelles séquences comme les mitochondries, chloroplastes, virus, ou cellules germinales restreinte de chromosomes et est particulièrement utile lorsque T ne peut pas être facilement isolé de R. commençant par les données génomiques complètes (R + T), la méthode utilise base locale alignement Search Tool (BLAST) contre une séquence de référence, ou séquences, pour supprimer les séquences connues correspondants (R), laissant derrière lui la cible (T). Pour la soustraction fonctionner au mieux, R doit être un projet relativement complet auquel il manque T. Depuis les séquences restantes après soustraction sont testés à travers quantitative Polymerase Chain Reaction (qPCR), R n’a pas besoin d’être terminés pour que la méthode fonctionne. Ici nous relions computational étapes avec des étapes expérimentales dans un cycle qui peut être itéré selon les besoins, séquentiellement, supprimant plusieurs séquences de référence et affiner la recherche de T. L’avantage de la génomique soustractive, c’est qu’une séquence complètement nouvelle cible soient reconnaissables même dans les cas où la purification physique est difficile, impossible ou coûteux. L’inconvénient de la méthode est trouver une référence appropriée pour la soustraction et obtenir T-positifs et négatifs des échantillons pour les tests de qPCR. Nous décrivons notre implémentation de la méthode dans l’identification du premier gène du chromosome germline restreints de zebra finch. Dans ce cas de filtrage informatique impliqué trois références (R), retirés dans l’ordre pendant trois cycles : un assemblage génomique incomplète et données génomiques brutes données transcriptomiques.

Introduction

Le but de cette méthode est d’identifier une nouvelle cible (T) séquence génomique, ADN ou ARN, d’un contexte génomique, ou d’une référence (R) (Figure 1). La méthode est plus utile si la cible ne peut pas être physiquement séparée, ou il serait coûteux de le faire. Seuls quelques organismes ont fini parfaitement génomes pour la soustraction, donc une innovation majeure de notre méthode est la combinaison de calcul et les méthodes de banc dans un cycle permettant aux chercheurs d’isoler les séquences cibles lorsque la référence est imparfaite, ou un projet génome d’un organisme non-modèle. À la fin d’un cycle, qPCR test sert à déterminer si la soustraction plus est nécessaire. Une séquence de candidat validé T montrera détection statistiquement supérieure dans les échantillons de T positifs connus de qPCR.

Incarnations de la méthode ont été mis en œuvre dans la découverte de nouvelles cibles de médicaments bactérienne qui n’ont pas d’hôte homologues¹^,²^,³^,⁴ et l’identification de nouveaux virus d’hôtes infectés⁵^,⁶. En plus de l’identification de T, la méthode peut améliorer r : nous avons récemment utilisé la méthode pour identifier des gènes manquants 936 du génome de référence zebra finch et un nouveau gène provenant d’une seule lignée germinale chromosome (T)⁷. La génomique soustractive est particulièrement précieuse lorsque T est susceptible d’être extrêmement divergentes de séquences connues, ou lorsque l’identité de T est largement indéfinie, comme dans le zebra finch germline restreints du chromosome⁷.

En n’exigeant ne pas une identification positive de T au préalable, un avantage majeur de génomique soustractive est qu’il est non biaisée. Dans une étude récente, Readhead et coll. ont examiné la relation entre la maladie d’Alzheimer et l’abondance viral dans quatre régions du cerveau. D’identification virale, Readhead et coll. a créé une base de données de 515 virus⁸, limitant sévèrement les agents viraux qui pourrait identifier leur étude. Soustractive génomique pourrait ont été utilisés pour comparer des bien-portants et génomes Alzheimer afin d’isoler les possibles nouveaux virus associés à la maladie, quelle que soit leur ressemblance à des agents infectieux connus. Bien qu’il y a 263 virus connus de ciblage de l’homme, on estime qu’environ 1,67 millions espèces virales non découvertes existent, avec 631 000-827 000 d’entre eux ayant un potentiel d’infecter les humains⁹.

Isolement des nouveaux virus est un domaine dans lequel soustractive génomique est particulièrement efficace, mais certaines études ne peut-être pas besoin d’une telle méthode rigoureuse. Par exemple, études, identification de nouveaux virus ont utilisé le séquençage haut débit impartial suivie par transcription inverse et BLASTx pour séquences virales⁵ ou enrichir des acides nucléiques viraux d’extraire et d’inverser transcrivent des séquences virales⁶. alors que ces études utilisées séquençage de novo et Assemblée, soustraction n’était pas utilisée parce que les séquences cibles ont été identifiés par le biais de BLAST. Si les virus étaient complètement nouveaux et non liées (ou lointainement apparentées) à d’autres virus, génomique soustractive aurait été une technique utile. L’avantage de la génomique soustractive est qu’on peuvent obtenir les séquences qui sont complètement nouveaux. Si le génome de l’organisme est connu, il peut déduire de quitter toutes les séquences virales. Par exemple, dans notre étude publiée nous avons isolé un roman-fleuve virale de zebra finch par la génomique soustractive, même s’il n’était pas notre intention originale⁷.

Soustractive génomique s’est avérée aussi utile dans l’identification des cibles de vaccin bactérien, motivés par l’augmentation impressionnante de la résistance aux antibiotiques¹^,²^,³^,⁴. Pour minimiser le risque de réaction auto-immune, chercheurs a réduit les cibles potentielles de vaccin en soustrayant toutes les protéines qui ont des homologues chez l’hôte humain. Une étude particulière, en regardant pseudotuberculosis Corynebacterium, jouée soustraction des génomes de vertébrés hôtes de plusieurs génomes bactériens pour s’assurer que cibles médicamenteuses possibles n’affecterait pas les protéines chez les hôtes conduisant à des effets secondaires ¹. le flux de travail de base de ces études est de télécharger le protéome bactérien, déterminer les protéines vitales, éliminer les protéines redondants, utiliser BLASTp pour isoler les protéines essentielles et BLASTp contre hôte proteome pour enlever toutes les protéines avec les homologues de l’hôte ¹ ^, ² ^, ³ ^, ⁴. dans ce cas, génomique soustractive assure que les vaccins mis au point n’auront pas d’effets hors cible dans l’hôte¹^,²^,³^,⁴.

Nous avons utilisé soustractive génomique pour identifier le premier gène codant pour des protéines sur un lignée germinale restreints du chromosome (GRC) (dans ce cas, T), qui se trouve dans germlines mais tissu pas somatique des deux sexes¹⁰. Avant cette étude, l’information seulement génomique qui savait sur la GRC était une région répétée¹¹. Assemblée de novo a été réalisée sur RNA séquencée à partir de tissus de l’ovaire et teste (R + T) de diamants mandarins adultes. L’élimination de calcul des séquences a été effectuée à l’aide de publiées somatique (muscle) génome sequence (R₁)¹², ses brute (Sanger) lire données (R₂) et un de transcriptome (R₃) somatique (cerveau)¹³. L’utilisation séquentielle de trois références est pilotée par le qPCR test à l’étape 5 de chaque cycle (Figure 2A), indiquant qu’il fallait un filtrage supplémentaire. Le gène α-SNAP découvert a été confirmé par qPCR d’ADN et d’ARN et clonage et séquençage. Nous montrons dans notre exemple que cette méthode est souple : il n’est pas tributaire de l’appariement des acides nucléiques (ADN vs RNA) et cette soustraction peut être effectuée avec des références (R) qui sont composent d’assemblées ou de lectures brutes.

Protocol

1. séquence de démarrage assembler de novo Remarque : Toute séquence de génération (NGS) données peuvent servir, tant qu’un assembly peut être produit à partir de ces données. Les données d’entrée appropriées comprennent Illumina, PacBio, ou Oxford Nanopore lit assemblé dans un fichier de fasta. Pour concret, cette section décrit un assembly de base Illumina transcriptomique spécifique à l’étude de zebra finch, nous avons réalisé7; Toute…

Representative Results

Après l’exécution de BLAST, le fichier de sortie aura une liste de séquences de la requête qui correspond à la base de données. Après soustraction de Python, un certain nombre de séquences non correspondantes est obtenu et testé par qPCR. Les résultats du présent et les prochaines étapes, sont examinés ci-dessous. Résultat négatif. Il y a deux résultats négatifs possibles qui peuvent être vus…

Discussion

Tandis que la génomique soustractive est puissante, il n’est pas une approche d’emporte-pièce, nécessitant une personnalisation à plusieurs étapes clés et une sélection rigoureuse des séquences de référence et des échantillons pour essai. Si l’assembly de la requête est de mauvaise qualité, des mesures de filtrage pourrait isoler seulement artefacts de l’Assemblée. Par conséquent, il est important de valider complètement l’assembly en reprenant à l’aide d’un protocole de validation…

Declarações

The authors have nothing to disclose.

Acknowledgements

Les auteurs reconnaissent Michelle Biederman, Alyssa Pedersen et Colin J. Saldanha pour leur aide avec le projet de génomique de zebra finch à divers stades. Nous remercions également Evgeny Boivin au calcul d’administration système de cluster et NIH grant 1K22CA184297 (pour J.R.B.) et 042767 NS NIH (à C.J.S).

Materials

Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki

Referências

Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Découverte de roman-fleuve de génomique soustractive

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

Découverte de roman-fleuve de génomique soustractive

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

✖

To prove you're not a robot, please enter the text in the image below