Summary

Transcriptoom analyse<em> C</em>.<em> elegans</em> RNA Sequencing gegevens via de Tuxedo Suite op de Galaxy Project

Published: April 08, 2017
doi:

Summary

Galaxy en David hebben zich ontwikkeld tot populaire tools die het mogelijk maken de onderzoekers zonder bioinformatica training te analyseren en RNA-Seq gegevens te interpreteren. We beschrijven een protocol voor C. elegans onderzoekers RNA-Seq experimenten toegang voeren en verwerken dataset behulp Galaxy en zinvolle biologische informatie uit het gen lijsten met behulp DAVID verkrijgen.

Abstract

Next generation sequencing (NGS) technologieën hebben de aard van de biologische onderzoek een revolutie. Daarvan heeft Sequencing RNA (RNA-Seq) naar voren gekomen als een krachtig hulpmiddel voor genexpressie analyse en transcriptoom mapping. Echter, de behandeling van RNA-Seq datasets vereist geavanceerde computational expertise en stelt inherente uitdagingen voor de biologie onderzoekers. Dit knelpunt is getemperd door het open access Galaxy project dat gebruikers in staat stelt zonder bioinformatica vaardigheden om RNA-Seq gegevens te analyseren, en de database voor annotatie, visualisatie, en Integrated Discovery (DAVID), een Gene Ontology (GO) term analyse suite dat helpt ontlenen biologische betekenis van grote datasets. Echter, voor de eerste keer gebruikers en amateurs bioinformatica, self-learning en kennismaking met deze platforms kan tijdrovend en ontmoedigend zijn. We beschrijven een eenvoudige workflow die u zullen helpen C. elegans onderzoekers worm RNA te isoleren, voeren een RNA-Seq experimenten analyseren van de gegevens met behulp Galaxy en DAVID platforms. Dit protocol geeft stapsgewijze instructies voor het gebruik van verschillende Galaxy modules voor toegang ruwe NGS data, kwaliteitscontroles, uitlijning en differentiële genexpressie-analyse, die de gebruiker de parameters bij elke stap een gen lijst die kunnen worden gescreend op verrijking van genereren genklassen of biologische processen waarbij DAVID. Over het algemeen verwachten we dat dit artikel informatie zal verstrekken aan C. elegans onderzoekers onderneming RNA-Seq-experimenten voor het eerst als frequente gebruikers die een klein aantal monsters.

Introduction

De eerste sequentiebepaling van het menselijk genoom, uitgevoerd met behulp van Fred Sanger dideoxynucleotide-sequencing methode, duurde 10 jaar en kostte naar schatting 3 miljard US $ 1, 2. Echter, in iets meer dan een decennium sinds haar oprichting, Next-Generation Sequencing (NGS) technologie heeft het mogelijk gemaakt om het gehele menselijke genoom binnen twee weken en voor US $ 1.000. New NGS instrumenten die het mogelijk maken steeds grotere snelheid van verzamelen sequencing-data met een ongelooflijke efficiëntie, samen met scherpe verlaging van de kosten, zijn een revolutie in de moderne biologie in onvoorstelbare manieren genoom sequencing projecten snel worden steeds gemeengoed. Bovendien hebben deze ontwikkelingen vooruitgang op vele andere terreinen zoals genexpressie analyse met behulp van RNA-Sequencing (RNA-Seq), studie van genoom-brede epigenetische modificaties, DNA-eiwit interacties verzinkt en screening op microbiële diversiteit in menselijke gastheren. NGS-gebaseerde RNA-Seq name heeft het mogelijk gemaakt om de kaart transcriptomes identificeren en volledig nauwkeurig en gevoelig en heeft microarray technologie vervangen de voorkeursmethode voor expressieprofilering. Terwijl microarray technologie uitgebreid gebruikt, wordt beperkt door de afhankelijkheid van reeds bestaande arrays met bekende genomische informatie en andere nadelen zoals kruishybridisatie en beperkte aantal veranderingen expressie die betrouwbaar kan worden bepaald. RNA-seq, anderzijds, kan worden gebruikt om zowel bekende als onbekende transcripten, terwijl er lage achtergrondruis vanwege de eenduidige DNA mapping natuur. RNA-Seq, samen met de vele genetische instrumenten aangeboden door model organismen zoals gist, vliegen, wormen, vissen en muizen, heeft gediend als de basis voor een groot aantal belangrijke recente biomedische ontdekkingen. Echter, resteren nog aanzienlijke uitdagingen die NGS ontoegankelijk voor de bredere wetenschappelijke gemeenschap, met inbegrip van beperkingen van de opslag, verwerking, en vooral, m eaningful bioinformatica analyse van grote hoeveelheden sequencing data.

De snelle vooruitgang in sequencing technologieën en exponentiële data accumulatie hebt gemaakt een grote behoefte aan computational platforms waarmee onderzoekers om toegang te krijgen, te analyseren en te begrijpen van deze informatie. Vroege systemen waren sterk afhankelijk van computer kennis van programmeren, terwijl genoom browsers zoals NCBI die manier konden niet-programmeurs om toegang te krijgen en te visualiseren data heeft verfijnde analyses niet toe. De web-based, open-access platform, Galaxy ( https://galaxyproject.org/ ), die leemte en bewezen een waardevolle pijpleiding die onderzoekers NGS gegevens te verwerken en het uitvoeren van een spectrum van maakt zijn eenvoudig te complex bioinformatica analyses. Galaxy werd in eerste instantie opgericht, en wordt onderhouden door de laboratoria van Anton Nekrutenko (Penn State University) en James Taylor (Johns Hopkins University)f "> 3. Galaxy biedt een breed scala van rekentaken waardoor het een 'one-stop-shop' voor talloze bioinformatica behoeften, met inbegrip van alle deelnemers aan een RNA-Seq studie stappen. Itallows gebruikers gegevens verwerking uit te voeren, hetzij op haar servers of lokaal op hun eigen machines. de gegevens en workflows kunnen worden gereproduceerd en gedeeld. Online tutorials, help-sectie en een wiki-pagina ( https://wiki.galaxyproject.org/Support ) gewijd aan de Galaxy Project consistente ondersteuning. echter, voor de eerste keer gebruikers, met name degenen die geen bio-informatica opleiding, de pijpleiding kan ontmoedigend verschijnen en het proces van zelf-leren en vertrouwd kan tijdrovend zijn. Bovendien is het biologische systeem bestudeerd en bijzonderheden van het experiment en de gebruikte methoden, invloed de analytische beslissingen op verschillende stappen, en deze kunnen moeilijk te navigeren zonder instructie.

De Overall RN A-Seq Galaxy workflow bestaat uit uploaden van gegevens en kwaliteitscontrole gevolgd door analyse met behulp van Smoking Suite 4, 5, 6, 7, 8, 9, die een collectief van diverse werktuigen voor verschillende stadia van RNA-Seq gegevensanalyse 10, 11, 12, 13, 14. Een typische RNA-Seq experiment bestaat uit het experimentele gedeelte (monsterbereiding, mRNA isolatie en cDNA-bibliotheek voorbereiding), NGS en bioinformatica gegevensanalyse. Een overzicht van deze secties, en de stappen die betrokken zijn bij de Galaxy pijpleiding, worden getoond in Figuur 1.

3fig1.jpg"/>
Figuur 1: Overzicht van een RNA-Seq workflow. Afbeelding van de experimentele en computationele stappen van een RNA-Seq experiment om het gen-expressieprofielen van twee worm stammen (A en B, oranje en groen lijnen en pijlen respectievelijk) vergelijken. De verschillende modules van Galaxy gebruikt worden in dozen met de desbetreffende stap in ons protocol rood aangegeven. De uitgangen van verschillende bewerkingen zijn geschreven in grijs met de bestandsformaten in blauw. Klik hier om een grotere versie van deze afbeelding te bekijken.

De eerste tool in de Tuxedo Suite is een alignment programma genaamd 'Tophat'. Het breekt NGS ingang leest in kleinere fragmenten en mapping van een referentie genoom. Dit tweestapsproces zorgt leest overspannende introngebieden waarvan de uitlijning anders disrupted of gemiste worden verantwoord en in kaart gebracht. Dit verhoogt dekking en vergemakkelijkt de identificatie van nieuwe splice junctions. Tophat uitvoer wordt geregistreerd als twee bestanden, een bestand BED (informatie over splitsingsplaatsen die genomische locatie bevatten) en BAM bestand (met mapping gegevens van elke lees). Vervolgens wordt het bestand BAM gericht tegen een genoom verwijzing naar de veelheid afzonderlijke transcripten schatten binnen elk monster in de eerstvolgende gereedschap in de Smoking Suite genaamd 'Manchetknopen'. Manchetknopen functies door het scannen van de uitlijning volledige lengte transcriptfragmenten of 'transfrags' dat alle mogelijke splice varianten van de invoergegevens voor elk gen overspannen melden. Op basis hiervan, genereert een 'transcriptoom' (assemblage van alle transcripten gegenereerd per gen voor elk gen) voor elk monster dat wordt gesequenced. Deze manchetknopen samenstellen worden vervolgens ingestort of samengevoegd, samen met de referentie genoom één annotatiebestand voor downstream differentiële analyse met behulp van de volgende gereedschap 'Cuffmerge' te produceren. Tenslotte de 'Cuffdiff' hulpmiddel maatregelen differentiële genexpressie tussen de monsters door vergelijking van de TopHat uitgangssignalen van elk van de monsters aan de uiteindelijke Cuffmerge uitvoerbestand (figuur 1). Manchetknopen gebruikt FPKM / RPKM (Fragments / Leest Per kilobase van transcript per miljoen toegewezen leest) waarden transcript abundanties melden. Deze waarden weerspiegelen de normalisering van de ruwe NGS gegevens diepte (gemiddeld aantal gelezen uit een monster die zijn afgestemd op de referentie-genoom) en gen lengte (genen verschillende lengten, zodat tellingen moeten worden genormaliseerd voor lengte van een gen niveaus vergelijken tussen genen). FPKM en RPKM in wezen hetzelfde met RPKM gebruikt voor één-end RNA-Seq waar elke lees- overeenkomt met een enkel fragment, dat wordt gebruikt voor FPKMgepaarde-end RNA-Seq, zoals verklaart het feit dat twee leest kan overeenkomen met hetzelfde fragment. Uiteindelijk is het resultaat van deze analyse is een lijst van genen die differentieel tot expressie van de voorwaarden en / of stammen getest.

Zodra een succesvolle Galaxy run is voltooid en een 'gene list' wordt opgewekt, de volgende logische stap vereist meer bioinformatica analyses om betekenisvolle kennis af te leiden uit de datasets. Veel softwarepakketten zijn ontstaan om tegemoet te komen aan deze behoefte, met inbegrip van openbaar beschikbare web-based computational pakketten zoals DAVID (de Database voor annotatie, visualisatie en geïntegreerde discovery) 15. DAVID vergemakkelijkt toekennen biologische betekenis van grote gen lijsten van high-throughput onderzoek door het vergelijken van het gen lijst geüpload naar de geïntegreerde biologische kennisbank en waaruit de biologische aantekeningen in verband met de lijst gen. Daarna volgt Enrichment Analysis, dwz tests identify eventueel biologisch proces of gen klasse oververtegenwoordigd in de lijst (en) gen op een statistisch significante wijze. Het is uitgegroeid tot een populaire keuze als gevolg van een combinatie van een brede, geïntegreerde kennis-base en krachtige analytische algoritmen die onderzoekers in staat stellen om de biologische thema verrijkt binnen detecteren genomics-afgeleid 'gene lijsten' 10, 16. Bijkomende voordelen zijn onder meer de mogelijkheid om gen lijsten gemaakt op de elke sequencing platform en een zeer gebruiksvriendelijke interface te verwerken.

De nematode Caenorhabditis elegans is een genetisch modelsysteem, bekend om zijn vele voordelen zoals kleine grootte, absorberende stof eenvoudig lichaamsplan, gemak van cultuur en grote ontvankelijkheid voor genetische en moleculaire dissectie. Wormen een kleine, eenvoudige en goed geannoteerde genoom die tot bevat tot 40% geconserveerde genen met bekende humane homologen 17. Inderdaad, C. eleganswas de eerste metazoan waarvan het genoom werd volledig gesequenced 18 en een van de eerste soort waarbij RNA-Seq werd gebruikt om een organisme transcriptoom 19, 20 in kaart. Vroege worm studies werden uitgevoerd bij het experimenteren met verschillende methoden voor high-throughput RNA capture, bibliotheek voorbereiding en sequencing, evenals bioinformatica pijpleidingen die hebben bijgedragen aan de vooruitgang van de technologie 21, 22. In de afgelopen jaren is RNA-Seq-gebaseerde experimenten in wormen gemeengoed geworden. Maar, voor de traditionele worm biologen de uitdagingen van geautomatiseerde analyse van RNA-Seq data blijft een grote belemmering voor een grotere en betere benutting van de techniek.

In dit artikel beschrijven we een protocol voor het gebruik van Galaxy platform high-throughput RNA-Seq data gegenereerd uit C. elegans analyseren. Voor veel first-time en kleine scale gebruikers, de meest kosten-efficiënte en eenvoudige manier om een ​​RNA-Seq experiment ondernemen is om RNA te isoleren in het lab en gebruik maken van een commerciële (of in-house) NGS faciliteit voor de bereiding van sequencing cDNA bibliotheken en het NGS zelf. Vandaar dat we eerst de stappen van isolatie gedetailleerde, kwantificering en kwaliteitsbeoordeling van C. elegans RNA monsters voor RNA-Seq. Vervolgens geven we stap voor stap instructies voor gebruik van de Galaxy interface voor analyses van de NGS gegevens, te beginnen met testen voor post-sequencing kwaliteitscontroles gevolgd door uitlijning, assemblage en differentiële kwantificering van genexpressie. Daarnaast hebben we opgenomen een routebeschrijving naar het gen lijsten die voortvloeien uit Galaxy voor biologische verrijking studies met behulp van DAVID onderzoeken. Als laatste stap in de workflow, bieden we instructies voor het uploaden RNA-Seq gegevens over de openbare servers, zoals de Sequence Lees Archive (SRA) op NCBI ( http: // www.ncbi.nlm.nih.gov/sra) om deze vrij toegankelijk zijn voor de wetenschappelijke gemeenschap. Over het algemeen verwachten we dat dit artikel uitgebreide en voldoende informatie zal verstrekken aan worm biologen onderneming RNA-Seq-experimenten voor het eerst als frequente gebruikers die een klein aantal monsters.

Protocol

1. RNA Isolation Voorzorgsmaatregelen Wrijf het werkoppervlak, instrumenten en pipetten met een commercieel verkrijgbare RNase spuiten geven RNasen vernietigen;. Draag handschoenen te allen tijde, ze regelmatig te veranderen door nieuwe tijdens de verschillende stappen van het protocol. Gebruik alleen filter tips en houden alle monsters op het ijs zo veel mogelijk om RNA degradatie te voorkomen. LET OP: Met het oog op de beste gegevens van NGS platforms te …

Representative Results

In C. elegans, verwijdering van de kiemlijn stamcellen (GSC) verlengt levensduur verbetert stressbestendigheid en verheft lichaamsvet 24, 28. Verlies van GSC, hetzij veroorzaakt door laser-ablatie of door mutaties zoals glp-1, veroorzaakt levensduurverlenging door activering van een netwerk van transcriptiefactoren 29. Eén zo'n factor, tCER-1, codeert de worm homoloog van het humane …

Discussion

Betekenis van de Galaxy Sequencing Platform in Modern Biology

De Galaxy Project is behulpzaam geweest bij het helpen van biologen zonder bioinformatica training te verwerken en te analyseren high-throughput sequencing data op een snelle en efficiënte manier te worden. Eens beschouwd als een enorme taak, dit openbaar beschikbare platform heeft gemaakt running complex bioinformatica algoritmes om NGS data analyseren van een eenvoudig, betrouwbaar en eenvoudig proces. Afgezien van het hosten van …

Disclosures

The authors have nothing to disclose.

Acknowledgements

De auteurs willen graag hun dank betuigen aan de laboratoria, groepen en individuen die Galaxy en David hebben ontwikkeld, en dus maakte NGS breed toegankelijk voor de wetenschappelijke gemeenschap. De hulp en advies van collega's aan de Universiteit van Pittsburgh tijdens onze bioinformatica training wordt erkend. Dit werk werd ondersteund door een Ellison Geneeskundige Stichting New Scholar in Aging award (AG-NS-0879-12) en een subsidie ​​van de National Institutes of Health (R01AG051659) naar AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).
check_url/55473?article_type=t

Play Video

Cite This Article
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video