Summary

Roman sekvens opdagelsen af subtraktiv genomforskning

Published: January 25, 2019
doi:

Summary

Formålet med denne protokol er at bruge en kombination af beregningsmæssige og bænk forskning for at finde roman sekvenser, der ikke kan adskilles let fra en co rensende sekvens, som muligvis er kun delvis kendt.

Abstract

Subtraktiv genomforskning kan bruges i enhver forskning, hvor målet er at identificere sekvensen af et gen, protein eller generelle region, der er integreret i en større genomisk sammenhæng. Subtraktive genomforskning giver mulighed for en forsker at isolere en target sekvens af interesse (T) ved omfattende sekvensering og fratrække kendte genetiske elementer (reference, R). Metoden kan bruges til at identificere roman sekvenser som mitokondrier, grønkorn, vira, eller kønscelleoverførsel begrænset kromosomer, og er især nyttig, når T ikke være let isoleret fra R. begynder med den omfattende genomisk data (R + T), metoden bruger grundlæggende lokale justering søgning værktøj (BLAST) mod en reference sekvens, eller sekvenser, for at fjerne de tilsvarende kendte sekvenser (R), efterlader mål (T). For subtraktion til at fungere bedst, bør R være en forholdsvis komplette udkast, som mangler T. Siden sekvenser tilbage efter subtraktion er testet gennem kvantitative Polymerase Chain Reaction (qPCR), behøver R ikke at være komplet metode til at arbejde. Her linker vi beregningsmæssige trin med eksperimentelle skridt ind i en cyklus, der kan være gentog efter behov, sekventielt at fjerne flere reference sekvenser og raffinering søgen efter T. Fordelen ved subtraktiv genomforskning er, at en helt roman target sekvens kan identificeres selv i tilfælde, hvor fysisk rensning er vanskeligt, umuligt eller dyrt. En ulempe ved metoden at finde en passende henvisning til subtraktion og opnå T-positive og negative prøver for qPCR test. Vi beskriver vores gennemførelse af metoden i identifikationen af de første gen fra den germline-begrænset kromosom af zebrafinke. I så fald beregningsmæssige filtrering involveret tre referencer (R), sekventielt fjernet over tre cyklusser: en ufuldstændig genomisk forsamling, genomisk rådata og transkriptom data.

Introduction

Formålet med denne metode er at identificere en roman mål (T) genomisk sekvens, enten DNA eller RNA, fra en genomisk kontekst eller en reference (R) (figur 1). Metoden er mest nyttigt, hvis målet ikke kan adskilles fysisk, eller det ville være dyrt at gøre. Kun et par organismer er helt færdig genomer for subtraktion, så en afgørende fornyelse af vores metode er den kombination af beregningsmæssige og bænk metoder i en cyklus, der gør det muligt for forskere at isolere target sekvenser, når henvisningen er ufuldstændig, eller et udkast til genom fra en ikke-model organisme. I slutningen af en cyklus bruges qPCR test til at afgøre, om mere subtraktion er nødvendig. En valideret kandidat T sekvens vil vise statistisk større afsløring i kendte T-positive prøver af qPCR.

Inkarnationer af metoden er blevet gennemført i opdagelsen af nye bakteriel stof mål, der ikke har vært homologs1,2,3,4 og identifikation af nye virus fra inficerede værter 5,6. Ud over identifikation af T, kan metoden, der forbedre R: vi for nylig brugte metoden til at identificere 936 mangler gener fra zebrafinke reference genom og et nyt gen fra en germline-only kromosom (T)7. Subtraktive genomforskning er særlig værdifuld når T forventes at være ekstremt divergerende fra kendte sekvenser, eller når identiteten af T er bredt udefineret, som i zebrafinke germline-begrænset kromosom7.

Ved ikke at kræve positiv identifikation af T på forhånd, er en afgørende fordel af subtraktiv genomforskning, at det er upartisk. I en nylig undersøgelse undersøgt Readhead et al. forholdet mellem Alzheimers sygdom og viral overflod i fire områder af hjernen. For viral identifikation, Readhead et al. oprettet en database over 515 virus8, alvorligt begrænser de virale agenter, som deres undersøgelse kunne identificere. Subtraktive genomforskning kunne have været brugt til at sammenligne den sunde og Alzheimers genomer for at isolere mulige roman virus forbundet med sygdommen, uanset deres lighed med kendte smitstoffer. Mens der er 263 kendte målretning af menneskelige virus, er det blevet anslået at ca 1,67 million uopdagede viral arter findes, med 631,000-827,000 af dem har et potentiale til at inficere mennesker9.

Isolering af nye virus er et område, hvor subtraktiv genomforskning er særligt effektive, men nogle undersøgelser kan ikke behøver sådan en stringent metode. For eksempel, transskribere undersøgelser at identificere nye vira har brugt upartiske høj overførselshastighed sekventering efterfulgt af reverse transkription og BLASTx for viral sekvenser5 eller berigelse af viral nukleinsyrer at udtrække og vende viral sekvenser 6. mens disse undersøgelser ansat de novo sekvensering og forsamling, subtraktion ikke blev brugt, fordi målet sekvenser var positivt identificeret gennem BLAST. Hvis virus var helt nye og ikke relaterede (eller fjernt beslægtede) til andre vira, subtraktiv genomforskning ville have været en nyttig teknik. Fordelen ved subtraktiv genomforskning er, at sekvenser, der er helt ny kan opnås. Hvis den organisme genom er kendt, kan det trækkes ud til at forlade enhver viral sekvenser. For eksempel, i vores offentliggjort undersøgelse isoleret vi en roman viral sekvens fra zebra finke gennem subtraktiv genomforskning, men det ikke var vores oprindelige hensigt7.

Subtraktive genomforskning har også vist sig nyttig i identifikation af bakterielle vaccine mål, motiveret af den dramatiske stigning i antibiotikaresistens1,2,3,4. For at minimere risikoen for autoimmun reaktion, indsnævret forskere de potentielle vaccine mål ved at fratrække alle proteiner, der har homologs i den menneskelig vært. En særlig undersøgelse, ser på Corynebacterium pseudotuberculosis, udført subtraktion af hvirveldyr vært genomer fra flere bakterielle genomer at sikre, at mulige drug mål ikke ville påvirke proteiner til hosts fører til bivirkninger 1. grundlæggende arbejdsflow af disse undersøgelser er at downloade det bakterielle proteomet, bestemme vigtige proteiner, fjerne overflødige proteiner, brug BLASTp til at isolere de væsentlige proteiner, og BLASTp mod vært proteomet for at fjerne enhver proteiner med vært homologs 1 , 2 , 3 , 4. I dette tilfælde subtraktiv genomforskning sikre, at vacciner udviklet ikke har nogen off-target effekter i vært1,2,3,4.

Vi brugte subtraktiv genomforskning til at identificere det første protein-kodning gen på en germline-begrænset kromosom (GRC) (i dette tilfælde, T), som findes i germlines men ikke somatiske væv af begge køn10. Før denne undersøgelse var de kun genomisk oplysninger, der blev kendt om GRC en gentagne region11. De novo Forsamling blev udført på RNA sekventeret fra æggestokken og teste væv (R + T) fra voksne zebrafinker. Den beregningsmæssige afskaffelse af sekvenser blev udført ved hjælp af offentliggjorte somatiske (muskel) genomet sekvens (R1)12, dets rå (Sanger) læse data (R2) og en somatisk (hjernen) transkriptom (R3)13. Sekventiel brugen af tre referencer var drevet af qPCR test på trin 5 for hver cyklus (figur 2A), viser, at yderligere filtrering var påkrævet. Opdaget α-SNAP genet blev bekræftet gennem qPCR fra DNA og RNA, og kloning og sekventering. Vi viser i vores eksempel, at denne metode er fleksibel: det er ikke afhængige af matchende nukleinsyrer (DNA vs RNA) og at subtraktion kan udføres med referencer (R), der består af forsamlinger eller rå læsninger.

Protocol

1. de novo samle starter sekvens Bemærk: Alle data, næste generations sekvens (NGS) kan bruges, så længe en assembly kan fremstilles af disse data. Passende input data omfatter Illumina, PacBio, eller Oxford Nanopore læser samlet i en fasta fil. For konkrethed, i dette afsnit beskrives en Illumina-baserede transkriptom forsamling specifikke for zebrafinke undersøgelse vi udført7; dog være opmærksom på, at detaljerne vil variere fra projekt. For vores ek…

Representative Results

Efter at have kørt BLAST, vil outputfil have en liste af sekvenser fra forespørgslen, der svarer til databasen. Efter Python subtraktion, vil en række opfylder sekvenser blive indhentet, og testet af qPCR. Resultaterne af dette, og næste skridt er diskuteret nedenfor. Negative resultat. Der er to mulige negative resultater, der kan ses efter BLAST til reference sekvens. Der kan være nogen BLAST resultater, …

Discussion

Mens subtraktiv genomforskning er kraftfuld, er det ikke en cookie-cutter tilgang, der kræver tilpasning på flere vigtige skridt, og omhyggelig udvælgelse af reference sekvenser og prøveemner. Hvis forespørgslen forsamling er af dårlig kvalitet, kan filtrering trin kun isolere forsamling artefakter. Det er derfor vigtigt at grundigt validere de novo forsamlingen ved hjælp af en passende valideringsprotokollen til det konkrete projekt. For RNA-FF. findes retningslinjerne på Trinity hjemmeside<sup class="x…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Forfatterne anerkender Michelle Biederman, Alyssa Pedersen og Colin J. Saldanha for deres hjælp med projektets zebrafinke genomforskning på forskellige stadier. Vi anerkender også Evgeny Bisk for computing klynge systemadministration og NIH grant 1K22CA184297 (til J.R.B.) og NIH NS 042767 (til C.J.S).

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).
check_url/kr/58877?article_type=t

Play Video

Cite This Article
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video