Summary

Transcriptomic Analys av<em> C</em>.<em> elegans</em> RNA Sequencing data via Tuxedo Suite på Galaxy Project

Published: April 08, 2017
doi:

Summary

Galaxy och David har dykt upp som populära verktyg som gör att utredarna utan bioinformatik utbildning för att analysera och tolka RNA-Seq data. Vi beskriver ett protokoll för C. elegans forskare att utföra RNA-Seq experiment, tillgång och bearbeta dataset med användning Galaxy och erhålla meningsfull biologisk information från genen listor med DAVID.

Abstract

Nästa generations sekvensering (NGS) teknik har revolutionerat naturen av biologisk undersökning. Av dessa har RNA Sequencing (RNA-Seq) framträtt som ett kraftfullt verktyg för gen-uttrycksanalys och transkriptom kartläggning. Men hantering RNA-Seq dataset kräver sofistikerad beräknings kompetens och innebär inneboende utmaningar för biologiforskare. Denna flaskhals har mild av open access Galaxy projekt som gör det möjligt för användare utan bioinformatik färdigheter för att analysera RNA-Seq data och databasen för Annotation, visualisering och integrerade Discovery (David), en Gene ontologi (GO) term analys svit som hjälper härleda biologiska betydelsen av stora datamängder. För förstagångsanvändare och bioinformatik amatörer, självlärande och förtrogenhet med dessa plattformar kan vara tidskrävande och skrämmande. Vi beskriver en enkel arbetsflöde som hjälper C. elegans forskare att isolera masken RNA, genomföra en RNA-Seq experimentoch analysera data med hjälp av Galaxy och DAVID plattformar. Detta protokoll erbjuder stegvis instruktioner för användning av de olika Galaxy moduler för åtkomst rå NGS data, kontroller kvalitetskontroll, justering och differentiell genexpression analys, styrning av användaren med parametrar vid varje steg för att generera en gen lista som kan screenas för anrikning av gen klasser eller biologiska processer som använder DAVID. Sammantaget räknar vi med att den här artikeln kommer att ge information till C. elegans forskare utför RNA-Seq experiment för första gången samt frekventa användare som kör ett litet antal prover.

Introduction

Den första sekvenseringen av det mänskliga genomet, genomförs med hjälp av Fred Sangers dideoxinukleotid-sekvenseringsmetod, tog 10 år och kosta uppskattningsvis US $ 3 miljarder 1, 2. I drygt ett decennium sedan starten, nästa generations sekvensering (NGS) teknik har gjort det möjligt att sekvensera hela det humana genomet inom två veckor och för US $ 1000. Nya NGS instrument som tillåter ständigt ökande hastigheter för insamling sekvense-data med otrolig effektivitet, tillsammans med kraftiga minskningar i kostnad, håller på att revolutionera modern biologi i ofattbara sätt som genomsekvenseringsprojekt snabbt allt vanligare. Dessutom har dessa utvecklingar galvaniserad framsteg på många andra områden, såsom gen-expressionsanalys genom RNA-sekvensering (RNA-Seq), studiet av genomet hela epigenetiska modifieringar, DNA-proteininteraktioner, och screening för den mikrobiella mångfalden i humana värdar. NGS-baserade RNA-Seq i synnerhet har gjort det möjligt att identifiera och kart transcriptomes omfattande med noggrannhet och känslighet och har ersatt microarray teknik som metoden för uttrycksprofilering. Medan microarray teknik har använts i stor utsträckning, är den begränsad genom sitt beroende av redan existerande arrayer med känd genomisk information och andra nackdelar såsom korshybridisering och begränsat utbud av expressions förändringar som kan mätas på ett tillförlitligt. RNA-seq, å andra sidan, kan användas för att detektera både kända och okända transkript samtidigt som det producerar lågt bakgrundsbrus på grund av dess entydiga DNA-kartläggning natur. RNA-Seq, tillsammans med de många genetiska verktyg som erbjuds av modellorganismer, såsom jäst, flugor, maskar, fiskar och möss har varit grunden för många viktiga nya biomedicinska upptäckter. Men stora utmaningar kvarstår som gör NGS otillgängliga för bredare vetenskapliga samfundet, inklusive begränsningar av lagring, bearbetning och mest av allt, m eaningful bioinformatik analys av stora volymer av sekvenseringsdata.

Den snabba framsteg inom sekvenseringsteknologier och exponentiell uppgifter ansamling har skapat ett stort behov av beräkningsplattformar som gör att forskarna att få tillgång till, analysera och förstå denna information. Tidiga system var kraftigt beroende av datorprogrammering kunskap, medan genom webbläsare som NCBI som tillät icke-programmerare att komma åt och visualisera data inte tillåter avancerade analyser. Den webbaserade öppen åtkomst plattform, Galaxy ( https://galaxyproject.org/ ) har fyllt detta tomrum och visat sig vara en värdefull pipeline som gör det möjligt för forskare att bearbeta NGS data och utföra ett spektrum av lätt komplex bioinformatik analyser. Galaxy ursprungligen etablerades och upprätthålls genom laboratorier Anton Nekrutenko (Penn State University) och James Taylor (Johns Hopkins University)f "> 3. Galaxy erbjuder ett brett utbud av beräkningsuppgifter gör det till en 'one-stop shop' för otaliga bioinformatik behov, inklusive alla de olika stegen i en RNA-Seq studie. Itallows användare att utföra databehandling antingen på sina servrar eller lokalt på sina egna maskiner. Data och arbetsflöden kan reproduceras och delas. Online tutorials, hjälpavsnittet och en wiki-sida ( https://wiki.galaxyproject.org/Support ) ägnas åt Galaxy Project ger konsekvent stöd. dock för förstagångsanvändare, särskilt de utan bioinformatik utbildning, ledningen kan visas skrämmande och processen för självstudier och förtrogenhet kan vara tidskrävande. Dessutom studerade det biologiska systemet, och detaljerna i experimentet och metoder som används, slag de analytiska beslut på flera steg, och dessa kan vara svårt att navigera utan instruktion.

Den övergripande RN A-Seq Galaxy Workflow består av data uppladdning och kvalitetskontrollen, följt av analys med användning av Smoking Suite 4, 5, 6, 7, 8, 9, som är en kollektiv av olika verktyg som krävs för olika steg av RNA-Seq dataanalys 10, 11, 12, 13, 14. En typisk RNA-Seq experiment består av den experimentella delen (provberedning, mRNA-isolering och cDNA-bibliotek beredning), NGS och analysen bioinformatik data. En översikt över dessa sektioner och de steg som ingår i Galaxy pipeline, visas i figur 1.

3fig1.jpg"/>
Figur 1: Översikt av en RNA-Seq Workflow. Illustration av de experimentella och beräkningssteg som är involverade i en RNA-Seq experiment för att jämföra de gen-uttrycksprofiler av två snäck stammar (A och B, orange och grönt linjer och pilar, respektive). De olika modulerna i Galaxy utnyttjas visas i rutor med motsvarande steg i våra protokoll markerade med rött. Utgångarna av olika verksamheter är skrivna i grått med filformat som visas i blått. Klicka här för att se en större version av denna siffra.

Det första verktyget i Tuxedo Suite är en anpassning program som kallas 'Tophat'. Det bryter ner NGS ingången läser i mindre fragment och sedan kartor dem till en referens genom. Denna tvåstegsprocess säkerställer som läser spänner intron regioner vars inriktning kan annars vara disrupted eller missat redovisas och kartläggas. Detta ökar täckning och underlättar identifiering av nya splitsningsförbindelser. Tophat utgång redovisas som två filer, en säng fil (med information om skarv korsningar som innehåller genomisk plats) och en BAM-fil (med kartläggning information om varje läst). Nästa, är BAM fil inriktad mot en referens genomet för att uppskatta överflöd av individuella transkript inom varje prov med användning av efterföljande verktyget i Smoking Suite kallas 'Manschettknapp'. Manschettknappar funktioner genom att skanna uppriktningen att rapportera fullängdstranskriptfragment eller 'transfrags' som sträcker sig över alla möjliga splitsningsvarianter i indata för varje gen. Baserat på detta, alstrar den en 'transkriptom' (sammansättning av alla transkript genereras per gen för varje gen) för varje prov som sekvensbestämts. Dessa Manschettknappar aggregat är sedan kollapsat eller slås ihop tillsammans med reference genomet för att producera en enda annotering fil för nedströms differentialanalys med användning av nästa verktyg, 'Cuffmerge'. Slutligen, den 'Cuffdiff' verktyget åtgärder differentiell genexpression mellan proven genom att jämföra tophat utsignalerna från vart och ett av proven till den slutliga Cuffmerge utmatningsfilen (Figur 1). Manschettknappar använder FPKM / RPKM (Fragment / Läser Per kilo av avskrift per miljon mappade läsningar) värden att rapportera avskrift bestånd. Dessa värden återspeglar en normalisering av rå NGS data för djup (genomsnittligt antal läser från ett prov som ansluter till referens genomet) och gen längd (gener har olika längd, så räknas måste normaliseras med avseende på längden av en gen för att jämföra nivåer mellan gener). FPKM och RPKM är väsentligen desamma med RPKM används för enkel end RNA-Seq där varje läsning motsvarar ett enda fragment, medan, är FPKM används förparade-end-RNA-Seq, eftersom den svarar för det faktum att två läsningar kan motsvara samma fragment. Slutligen, är resultatet av dessa analyser en lista av gener differentiellt uttryckta mellan de villkor och / eller stammar som testats.

När en lyckad Galaxy körning är avslutad och en 'gen lista' genereras kräver nästa logiska steg fler bioinformatik analyser för att härleda meningsfull kunskap från datamängder. Många programvarupaket har uppstått för att tillgodose detta behov, inklusive offentligt tillgängliga webbaserade beräknings paket som David (databasen för Annotation, visualisering och integrerad discovery) 15. DAVID underlättar tilldela biologisk mening till stora gen listor från hög genomströmning studier genom att jämföra gen listan till den integrerade biologiska kunskapsbas upp och avslöjar de biologiska anteckningar i samband med genen listan. Detta följs av anrikningsanalys, dvs tester till identify om någon biologisk process eller gen klass är överrepresenterad i genen listan (er) i en statistiskt signifikant sätt. Det har blivit ett populärt val på grund av en kombination av en bred, integrerad kunskapsbas och kraftfulla analytiska algoritmer som gör det möjligt för forskare att upptäcka biologiska teman berikade inom genomik härrör 'gen listor' 10, 16. Ytterligare fördelar är dess förmåga att bearbeta gen listor som har skapats på sekvense plattform och en mycket användarvänligt gränssnitt.

Nematoden Caenorhabditis elegans är en genetisk modellsystem, känt för sina många fördelar såsom liten storlek, genomskinlig kropp, enkel kropp plan, enkel kultur och stor mottaglighet för genetisk och molekylär dissekering. Maskar har en liten, enkel och väl kommenterad genomet som inkluderar upp till 40% konserverade gener med kända humana homologer 17. Indeed, C. elegansvar den första metazoan vars genom sekvenserades fullständigt 18, och en av de första arter där RNA-Seq användes för att kartlägga en organisms transkriptom 19, 20. Tidig snäck studier involverade experimenterande med olika förfaranden för high-throughput-RNA capture, bibliotek beredning och sekvensering samt bioinformatik rörledningar som bidrog till utvecklingen av tekniken 21, 22. Under de senaste åren har RNA-Seq-baserade experiment i maskar blivit vardagsmat. Men för traditionella snäck biologer de utmaningar som beräknings analys av RNA-Seq uppgifter är fortfarande ett stort hinder för ökad och bättre utnyttjande av teknik.

I denna artikel beskriver vi ett protokoll för att använda Galaxy plattform för att analysera hög kapacitet RNA-Seq data som genereras från C. elegans. För många första gången och små scaLe användarna är mest kostnadseffektivt och enkelt sätt att göra en RNA-Seq experiment för att isolera RNA i labbet och använda en kommersiell (eller in-house) NGS anläggning för framställning av sekvense cDNA bibliotek och NGS själv. Därför har vi första detaljerade de olika stegen i isolering, kvantifiering och kvalitetsbedömning av C. elegans RNA-prover för RNA-Seq. Nästa tillhandahåller vi steg-för-steg-instruktioner för användning av Galaxy gränssnitt för analyser av NGS uppgifter, som börjar med test för post-sekvensekvalitetskontroller följt av justering, montering, och differentiell kvantifiering av genuttryck. Dessutom har vi tagit med riktningar för att granskar genen listor som följer av Galaxy för biologiska anrikningsstudier med användning DAVID. Som ett sista steg i arbetsflödet ger vi instruktioner för att ladda upp RNA-Seq data till publika servrar såsom sekvensen Läs Archive (SRA) på NCBI ( http: // www.ncbi.nlm.nih.gov/sra) för att göra det fritt tillgängliga för forskarsamhället. Sammantaget räknar vi med att denna artikel kommer att ge omfattande och tillräcklig information för att masken biologer som utför RNA-Seq experiment för första gången samt frekventa användare som kör ett litet antal prover.

Protocol

1. RNA-isolering Säkerhetsåtgärder Torka hela arbetsyta, instrument och pipetter med användning av en kommersiellt tillgänglig RNas spray för att eliminera eventuella RNaser närvarande. Använd handskar vid alla tillfällen, regelbundet ändra dem med nya celler under de olika stegen i protokollet. Använd endast filterspetsar och hålla alla prover på is så mycket som möjligt för att undvika RNA nedbrytning. OBS: För att få den bästa data fr?…

Representative Results

I C. elegans, eliminering av de nedärvda stamceller (GSCs) sträcker livslängd, förbättrar spänningsmotståndskraft, och upphöjer kroppsfett 24, 28. Förlust av GSCs, antingen till följd av laser ablations- eller genom mutationer, såsom GLP-1, orsakar livslängd förlängning genom aktivering av ett nätverk av transkriptionsfaktorer 29. En sådan faktor, TcEr-1, kodar snäckhomol…

Discussion

Betydelsen av Galaxy Sequencing Platform i modern biologi

Galaxy Project har blivit avgörande för att hjälpa biologer utan bioinformatik utbildning för att bearbeta och analysera hög genomströmning sekvense data på ett snabbt och effektivt sätt. När anses en svår uppgift, detta offentligt tillgängliga plattform har gjort kör komplexa bioinformatik algoritmer för att analysera NGS uppgifter en enkel, tillförlitlig och enkel process. Bortsett från värd ett brett utbud av bioinform…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Författarna vill uttrycka sin tacksamhet till laboratorier, grupper och individer som har utvecklat Galaxy och David, och därmed gjort NGS lättillgänglig för det vetenskapliga samfundet. Hjälp och råd från kollegor vid University of Pittsburgh under våra bioinformatik utbildning erkänns. Detta arbete stöddes av en Ellison Medical Foundation New Scholar i åldrande award (AG-NS-0879-12) och ett bidrag från National Institutes of Health (R01AG051659) till AG.

Materials

RNase spray  Fisher Scientific 21-402-178
Trizol  Ambion 15596026
Sonicator Sonics Vibra Cell  VCX130
Centrifuge  Eppendorf 5415C
chloroform  Sigma Aldrich 288306
2-propanol  Fisher Scientific A416P-4
Ethanol Decon Labs 2705HC
RNase-free water  Fisher Scientific BP561-1
Bioanalyzer  Agilent G2940CA
Mac/PC

References

  1. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
  4. Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
  5. Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
  6. Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
  7. Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
  8. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  9. Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
  10. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  11. Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
  12. Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
  13. Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
  14. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
  15. Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
  16. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  17. Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
  18. Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
  19. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
  20. Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
  21. Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
  22. Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
  23. Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
  24. Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
  25. Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
  26. Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
  27. Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
  28. Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
  29. Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
  30. Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
  31. Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
  32. Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
  33. McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
  34. Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
  35. Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).
check_url/kr/55473?article_type=t

Play Video

Cite This Article
Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

View Video