Summary

Analyse av Transcriptomic<em> C</em>.<em> elegans</em> RNA sekvenseringsdata Gjennom Tuxedo Suite på Galaxy-prosjektet

Published: April 08, 2017
doi:

Summary

Galaxy og David har dukket opp som populære verktøy som lar etterforskerne uten bioinformatikk trening for å analysere og tolke RNA-Seq data. Vi beskriver en protokoll for C. elegans forskere å utføre RNA-Seq eksperimenter, åpne og behandle datasettet ved hjelp av Galaxy og oppnå meningsfull biologisk informasjon fra gense listene ved hjelp av DAVID.

Abstract

Neste generasjons sekvensering (NGS) teknologi har revolusjonert natur biologiske undersøkelser. Av disse har RNA-sekvensering (RNA-Seq) er et kraftig verktøy for gen-ekspresjon analyse og transcriptome kartlegging. Men håndtering av RNA-Seq datasett krever avansert beregningskompetanse og utgjør iboende utfordringer for biologi forskere. Denne flaskehalsen har blitt dempet av åpen tilgang Galaxy prosjekt som gjør at brukere uten bioinformatikk ferdigheter til å analysere RNA-Seq data, og Database for kommentering, visualisering, og integrert Discovery (David), en Gene ontologi (GO) begrep analyse pakke som hjelper utlede biologisk betydning fra store datasett. Men for førstegangsbrukere og bioinformatikk amatører, selvlærende og kjent med disse plattformene kan være tidkrevende og skremmende. Vi beskriver en enkel arbeidsflyt som vil hjelpe C. elegans forskere å isolere orm RNA, gjennomføre en RNA-Seq eksperimentog analysere data ved hjelp av Galaxy og David plattformer. Denne protokollen gir trinnvise instruksjoner for bruk av de forskjellige Galaxy modulene for å aksessere rå NGS data, kvalitetskontroller, oppstilling og differensial- genekspresjon analyse, veilede brukeren med parametre på hvert trinn for å generere et gen liste som kan bli screenet for anrikning av gen klasser eller biologiske prosesser som bruker DAVID. Samlet sett forventer vi at denne artikkelen vil gi informasjon til C. elegans forskere foretaket RNA-Seq eksperimenter for første gang, samt hyppige brukere som kjører et lite antall prøver.

Introduction

Den første sekvensering av det menneskelige genom, utført ved hjelp av Fred Sanger er dideoksynukleotid-sekvensering metoden, tok 10 år, og kostet anslagsvis US $ 3000000000 1, 2. Men i litt over et tiår siden begynnelsen, Next-Generation Sequencing (NGS) teknologi har gjort det mulig å sekvensere hele det menneskelige genom i løpet av to uker, og for US $ 1000. Nye NGS instrumenter som gir stadig økende hastigheter på sekvensering-datainnsamling med utrolig effektivitet, sammen med skarpe reduksjoner i kostnader, revolusjonerer moderne biologi i utenkelige måter som genomsekvense prosjekter er raskt blitt vanlig. I tillegg har denne utviklingen galvanisert fremskritt på mange andre områder som for eksempel gen-ekspresjon analyse ved RNA-sekvensering (RNA-Seq), undersøkelse av genom epigenetiske modifikasjoner, DNA-protein-interaksjoner, og screening for mikrobiell diversitet i humane verter. NGS-baserte RNA-Seq særlig har gjort det mulig å identifisere og kartlegge transcriptomes grundig med nøyaktighet og følsomhet, og har erstattet mikromatriser som den foretrukne metode for ekspresjonsanalyse. Mens mikromatriser har blitt brukt i stor utstrekning, er det begrenset av dens avhengighet av eksisterende matriser med kjent genomisk informasjon og andre ulemper, så som tverr hybridisering og begrenset utvalg av uttrykk endringer som kan måles pålitelig. RNA-seq, på den annen side, kan brukes til å detektere både kjente og ukjente transkripter mens produserer lav bakgrunnsstøy på grunn av dets entydige DNA kartlegging natur. RNA-Seq, sammen med de mange genetiske verktøy som tilbys av modellorganismer som gjær, flue, mark, fisk og mus, har fungert som grunnlag for mange viktige siste biomedisinske funn. Men fortsatt store utfordringer som gjør NGS utilgjengelige til den større vitenskapelige samfunnet, inkludert begrensninger lagring, behandling, og mest av alt, m eaningful bioinformatikk analyse av store volumer av data sekvensering.

De raske fremskritt innen sekvense teknologier og eksponentiell data akkumulering har skapt et stort behov for beregnings plattformer som vil tillate forskere å få tilgang, analysere og forstå denne informasjonen. Tidlig systemer var sterkt avhengig av programmering kunnskap, mens genomlesere som NCBI som tillot ikke-programmerere for å få tilgang til og visualisere data tillot ikke sofistikerte analyser. Det web-baserte, åpen tilgang plattform, Galaxy ( https://galaxyproject.org/ ), har fylt dette tomrommet og vist seg å være en verdifull rørledning som gjør det mulig for forskere å behandle NGS data og utføre et spektrum av enkel-å-kompleks bioinformatikk analyser. Galaxy ble opprinnelig etablert og opprettholdes ved laboratorier av Anton Nekrutenko (Penn State University) og James Taylor (Johns Hopkins University)f "> 3. Galaxy tilbyr et bredt spekter av beregningsoppgaver slik at det er en 'ett sted' for utallige bioinformatikkdataene behov, inkludert alle trinnene som er involvert i en RNA-sekv studien. Itallows brukere å utføre databehandling, enten på sine servere eller lokalt på sine egne maskiner. Data- og arbeidsflyt kan reproduseres og deles. Online opplæring, hjelp delen, og en wiki-side ( https://wiki.galaxyproject.org/Support ) dedikert til Galaxy Prosjekt gi konsistent støtte. Men for førstegangsbrukere, særlig de uten bioinformatikk trening, rørledningen kan virke skremmende og prosessen med selvlærende og tilvenning kan være tidkrevende. Dessuten, det biologiske system som studeres, og detaljene i eksperimentet og metoder som brukes, innvirkning analytiske beslutninger på flere trinn, og disse kan være vanskelig å navigere uten instruksjon.

Den samlede RN A-Seq Galaxy arbeidsflyt består av data opplasting og kvalitetskontroll, fulgt av analyse ved anvendelse av Tuxedo Suite 4, 5, 6, 7, 8, 9, som er et kollektiv av forskjellige verktøy som er nødvendige for forskjellige stadier av RNA-Seq dataanalyse 10, 11, 12, 13, 14. En typisk RNA-Seq eksperiment består i den eksperimentelle del (prøvepreparering, mRNA isolert og cDNA-bibliotek fremstilling), NGS og bioinformatikkdataene analyse. En oversikt over disse seksjonene, og de trinn som er involvert i den Galaxy rørledningen, er vist i figur 1.

3fig1.jpg"/>
Figur 1: Oversikt over en RNA-Seq arbeidsflyt. Illustrasjon av de eksperimentelle og beregningstrinn som er involvert i en RNA-Seq eksperiment for å sammenligne gen-ekspresjons-profiler av to snekke-stammer (A og B, oransje og grønne linjer og piler, henholdsvis). De forskjellige moduler av Galaxy benyttes er vist i esker med det tilsvarende trinn i vår protokollen angitt i rødt. Utgangene av ulike operasjoner er skrevet i grått med filformater som vises i blått. Klikk her for å se en større versjon av dette tallet.

Det første verktøyet i Tuxedo Suite er en justering program kalt 'Tophat'. Det bryter ned den NGS inngang står i mindre fragmenter, og deretter kart dem til en referanse genom. Denne to-trinns prosessen sikrer at lyder som strekker seg over intron regioner hvis innretting ellers kan være disrupted eller savnet regnskapsføres og kartlagt. Dette øker deknings og letter identifikasjon av nye spleisesteder. Tophat utgang er rapportert som to filer, en seng fil (med informasjon om spleisesteder som omfatter genomisk plassering) og en BAM-fil (med kartlegging detaljer om hver leser). Det neste er at BAM filen justert mot en referanse genom å anslå overflod av enkelte vitnemål innenfor hver prøve med påfølgende verktøy i Tuxedo Suite kalt 'mansjettknapper'. Mansjettknapper funksjoner ved å skanne justerings å rapportere full lengde transkripsjon fragmenter eller 'transfrags' som spenner alle mulige spleisevarianter i inngangsdata for hver gen. Basert på dette, blir det generert en 'transcriptome' (sammenstilling av alle transkripter og generert for hvert gen for hvert gen) for hver prøve som blir sekvensert. Disse Mansjettknapper sammenstillinger er kollapset eller sammensmeltes sammen med gjenientere genom for å produsere en enkelt merknadsfil for nedstrømsdifferensialanalyse ved hjelp av den neste verktøy, 'Cuffmerge'. Til slutt, det 'Cuffdiff' verktøy måler differensial genekspresjon mellom prøvene ved å sammenligne TOPHAT utgangene fra hver av prøvene til den endelige Cuffmerge utgangsfilen (figur 1). Mansjettknapper bruker FPKM / RPKM (Fragmenter / Leser Per kilobaser av karakterutskrift per million kartlagt leser) verdier for å rapportere transkripsjon Forekomsten. Disse verdier gjenspeiler den normaliseringen av de rå NGS data for dybden (gjennomsnittlig antall leser fra en prøve som kan tilpasses til referanse genomet) og genet lengde (gener har forskjellig lengde, så tellinger må være normalisert til lengden av et gen for å sammenligne nivåene mellom gener). FPKM og RPKM er i det vesentlige den samme med RPKM som brukes for enkelt-end RNA-Seq der hver lese svarer til et enkelt fragment, mens blir FPKM benyttes forsammenkoblet ende RNA-Seq, som den gjør rede for det faktum at to leser kan tilsvare det samme fragment. Til syvende og resultatet av disse analysene er en liste av gener differensielt uttrykte mellom de betingelser og / eller stammene som ble prøvd.

Når en vellykket Galaxy løp er fullført og en 'gen listen' genereres, krever det neste logiske skrittet flere bioinformatikk analyser for å utlede menings kunnskap fra datasettene. Mange programvarepakker har kommet for å imøtekomme dette behovet, inkludert offentlig tilgjengelige web-baserte beregnings pakker som DAVID (Database for kommentering, visualisering og integrert funn) 15. DAVID muliggjør tilordning av biologisk betydning for store gen lister fra high-throughput-studier ved å sammenligne den opplastede genet listen til den integrerte biologiske kunnskapsbase og avsløre de biologiske merknader er forbundet med genet listen. Dette etterfølges av Enrichment Analysis, dvs. testene til Identify om noen biologisk prosess eller gen klasse er en overrepresentasjon i genet listen (e) i en statistisk signifikant måte. Det har blitt et populært valg på grunn av en kombinasjon av et bredt, helhetlig kunnskapsbase og sterke analytiske algoritmer som gjør forskerne å påvise biologiske temaer beriket innen genomikk-avledet 'gen lister' 10, 16. Ytterligere fordeler innbefatter dets evne til å behandle gen lister som er opprettet på en hvilken som helst sekvense plattform og en meget brukervennlig grensesnitt.

Nematoden Caenorhabditis elegans er en genetisk modell system, kjent for sine mange fordeler, slik som liten størrelse, transparent legeme, enkel spanteriss, enkel kultur og stor medgjørlighet for genetisk og molekylær disseksjon. Worms har en liten, enkel og godt annotert genomet som inneholder opptil 40% konserverte gener med kjente humane homologer 17. Faktisk, elegans C.var den første metazoan hvis genom ble fullstendig sekvensert 18, og en av de første art hvor RNA-Seq ble brukt til å kartlegge en organismes transcriptome 19, 20. Tidlig snekke Undersøkelsen innbefattet eksperimentering med ulike metoder for high-throughput RNA fangst, bibliotek forberedelse og sekvensering, så vel som bioinformatikkdataene rørledninger som bidro til å fremme teknologien 21, 22. I de senere årene har RNA-Seq-basert eksperimentering ormer blitt vanlig. Men, for tradisjonelle snekke biologer utfordringene ved beregnings analyse av RNA-Seq data forbli et stort hinder for større og bedre utnyttelse av teknikken.

I denne artikkelen beskriver vi en protokoll for bruk av Galaxy plattformen for å analysere high-throughput RNA-Seq data generert fra C. elegans. For mange første-gang og små-SCAle brukere, er det mest kostnadseffektive og grei måte å foreta en RNA-Seq eksperimentet er å isolere RNA i laboratoriet og bruke en kommersiell (eller in-house) NGS anlegg for utarbeidelse av sekvense cDNA bibliotek og NGS selv. Vi har derfor først detaljert trinnene involvert i isolasjon, kvantifisering og kvalitetsvurdering av C. elegans RNA-prøver for RNA-Seq. Deretter gir vi trinnvise instruksjoner for bruk Galaxy grensesnitt for analyser av de NGS data, som begynner med tester for post-sekvensering kvalitetskontroller, etterfulgt av innretting, montering, og differensial kvantifisering av genekspresjon. I tillegg har vi tatt med retninger for å granske genet listene som følge av Galaxy for biologiske berikelse studier med David. Som et siste trinn i arbeidsflyt, gir vi instruksjoner for å laste opp RNA-Seq data videre til offentlige servere, slik som den Sequence Les Archive (SRA) på NCBI ( http: // www.ncbi.nlm.nih.gov/sra) for å gjøre det fritt tilgjengelig for det vitenskapelige samfunn. Samlet sett forventer vi at denne artikkelen vil gi omfattende og tilstrekkelig informasjon til ormen biologer foretaket RNA-Seq eksperimenter for første gang, samt hyppige brukere som kjører et lite antall prøver.

Protocol

1. RNA Isolation Forebyggende tiltak Tørk av hele arbeidsflaten, instrumenter og pipetter ved hjelp av en kommersielt tilgjengelig RNase spray for å eliminere eventuelle RNaser til stede. Bruk hansker til alle tider, regelmessig endre dem med friske barn i løpet av de forskjellige trinnene i protokollen. Bruk kun filter tips og holder alle prøvene på is så mye som mulig for å unngå RNA degradering. MERK: For å oppnå best mulig data fra NGS plattfo…

Representative Results

I C. elegans, eliminering av kimlinje-stamceller (GSCs) strekker levetid, øker spenningsmotstandsdyktighet, og løfter kroppsfett 24, 28. Tap av GSCs, enten forårsaket av laser-ablasjon eller ved mutasjoner, slik som GLP-1, forårsaker levetid forlengelse gjennom aktivering av et nettverk av transkripsjonsfaktorer 29. En slik faktor, TCER-1, koder ormen homolog av human transkripsjon fo…

Discussion

Betydningen av Galaxy Sequencing Platform i moderne biologi

Galaxy-prosjektet har blitt instrumental i å hjelpe biologer uten bioinformatikk trening for å behandle og analysere high-throughput sekvensering av data på en rask og effektiv måte. Betraktet som en Herculean oppgave, denne allment tilgjengelige plattformen har gjort kjøre komplekse bioinformatikkdataene algoritmer for å analysere data NGS en enkel, pålitelig og enkel prosess. Bortsett fra verts et bredt spekter av bioinformati…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Forfatterne ønsker å uttrykke sin takknemlighet til laboratorier, grupper og enkeltpersoner som har utviklet Galaxy og David, og dermed gjort NGS allment tilgjengelig for det vitenskapelige samfunn. Hjelp og råd gitt av kolleger ved University of Pittsburgh under bioinformatikk trening er anerkjent. Dette arbeidet ble støttet av en Ellison Medical Foundation New Scholar i Aging award (AG-NS-0879-12) og en bevilgning fra National Institutes of Health (R01AG051659) til AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).
check_url/55473?article_type=t

Play Video

Cite This Article
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video