Summary

Analyse af multifaktorielle RNA-Seq eksperimenter med DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress er et scriptbaseret værktøj implementeret i R til at udføre en RNA-Seq-analyse fra kvalitetskontrol til co-ekspression. DiCoExpress håndterer komplet og ubalanceret design op til 2 biologiske faktorer. Denne video tutorial guider brugeren gennem de forskellige funktioner i DiCoExpress.

Abstract

Korrekt anvendelse af statistisk modellering i NGS-dataanalyse kræver et avanceret ekspertiseniveau. Der har for nylig været en voksende konsensus om at anvende generaliserede lineære modeller til differentiel analyse af RNA-Seq-data og fordelen ved blandingsmodeller til at udføre co-ekspressionsanalyse. For at tilbyde en administreret indstilling til at bruge disse modelleringsmetoder udviklede vi DiCoExpress, der giver en standardiseret R-pipeline til at udføre en RNA-Seq-analyse. Uden nogen særlig viden inden for statistik eller R-programmering kan begyndere udføre en komplet RNA-Seq-analyse fra kvalitetskontrol til co-ekspression gennem differentiel analyse baseret på kontraster inde i en generaliseret lineær model. En berigelsesanalyse foreslås både på listerne over differentielt udtrykte gener og de co-udtrykte genklynger. Denne video tutorial er udtænkt som en trin-for-trin protokol for at hjælpe brugerne med at drage fuld fordel af DiCoExpress og dets potentiale til at styrke den biologiske fortolkning af et RNA-Seq-eksperiment.

Introduction

Næste generations RNA-sekventeringsteknologi (RNA-Seq) er nu guldstandarden for transkriptomanalyse1. Siden teknologiens tidlige dage har den kombinerede indsats fra bioinformatikere og biostatistikere resulteret i udviklingen af adskillige metoder, der tackler alle de væsentlige trin i transkriptomiske analyser, fra kortlægning til transkriptionskvantificering2. De fleste af de værktøjer, der er tilgængelige i dag for biologen, er udviklet inden for R-softwaremiljøet til statistisk databehandling og grafer3, og mange pakker til biologisk dataanalyse er tilgængelige i Bioconductor repository4. Disse pakker tilbyder total kontrol og tilpasning af analysen, men de kommer på bekostning af omfattende brug af en kommandolinjegrænseflade. Fordi mange biologer er mere komfortable med en “peg og klik” tilgang5, kræver demokratiseringen af RNA-Seq-analyser udvikling af mere brugervenlige grænseflader eller protokoller6. For eksempel er det muligt at opbygge webgrænseflader af R-pakker ved hjælp af Shiny7, og kommandolinjedataanalyse gøres mere intuitiv med R-studio8-grænsefladen . Udviklingen af dedikerede, trinvise tutorials kan også hjælpe den nye bruger. Især supplerer en videotutorial en klassisk tekst, hvilket fører til en dybere forståelse af alle proceduretrinnene.

Vi har for nylig udviklet DiCoExpress9, et værktøj til analyse af multifaktorielle RNA-Seq-eksperimenter i R ved hjælp af metoder, der anses for at være de bedste baseret på neutrale sammenligningsundersøgelser 10,11,12. Med udgangspunkt i en tælletabel foreslår DiCoExpress et datakvalitetskontroltrin efterfulgt af en differentiel genekspressionsanalyse (edgeR-pakke13) ved hjælp af en generaliseret lineær model (GLM) og generering af co-ekspressionsklynger ved hjælp af gaussiske blandingsmodeller (coseq-pakke12). DiCoExpress håndterer komplet og ubalanceret design op til 2 biologiske faktorer (dvs. genotype og behandling) og en teknisk faktor (dvs. replikere). Originaliteten af DiCoExpress ligger i dens katalogarkitektur, der lagrer og organiserer data, scripts og resultater og i automatiseringen af skrivningen af kontrasterne, så brugeren kan undersøge adskillige spørgsmål inden for den samme statistiske model. Der blev også gjort en indsats for at levere grafiske output, der illustrerer de statistiske resultater.

DiCoExpress-arbejdsområdet er tilgængeligt på https://forgemia.inra.fr/GNet/dicoexpress. Den indeholder fire mapper, to pdf og to tekstfiler. Data/ biblioteket indeholder inputdatasættene; til denne protokol bruger vi datasættet “tutorial”. Kildekataloget indeholder syv R-funktioner, der er nødvendige for at udføre analysen, og må ikke ændres af brugeren. Analysen køres ved hjælp af scripts, der er gemt i Template_scripts / -mappen. Den, der bruges i denne protokol, kaldes DiCoExpress_Tutorial_JoVE.R og kan let tilpasses ethvert transkriptomisk projekt. Alle resultaterne skrives i resultatkataloget og gemmes i en undermappe, der er navngivet i henhold til projektet. Den README.md fil indeholder nyttige installationsoplysninger, og eventuelle specifikke detaljer om metoden og dens anvendelse findes i DiCoExpress_Reference_Manual.pdf fil.

Denne videovejledning guider brugeren gennem de forskellige funktioner i DiCoExpress med det formål at overvinde den modvilje, som biologer føler ved hjælp af kommandolinjebaserede værktøjer. Vi præsenterer her analysen af et kunstigt RNA-Seq-datasæt, der beskriver genekspression i tre biologiske replikater af fire genotyper, med eller uden behandling. Vi vil nu gennemgå de forskellige trin i DiCoExpress-arbejdsgangen illustreret i figur 1. Scriptet beskrevet i afsnittet Protokol og inputfiler er tilgængelige på webstedet: https://forgemia.inra.fr/GNet/dicoexpress

Forberede datafiler
De fire csv-filer, der er gemt i data/ biblioteket, skal navngives i henhold til projektnavnet. I vores eksempel begynder alle navnene derfor med “Tutorial”, og vi indstiller Project_Name = “Tutorial” i trin 4 i protokollen. Separatoren, der bruges i csv-filerne, skal angives i variablen Sep i trin 4. I vores “tutorial” datasæt er separatoren en tabulering. For avancerede brugere kan det fulde datasæt reduceres til et undersæt ved at angive en liste over instruktioner og en ny Project_Name via variablen Filter. Denne indstilling undgår overflødige kopier af inputfilerne og verificerer FAIR-principperne14.

Blandt de fire csv-filer er kun COUNTS- og TARGET-filerne obligatoriske. De indeholder råtællingerne for hvert gen (her Tutorial_COUNTS.csv) og den eksperimentelle designbeskrivelse (her Tutorial_TARGET.csv). Target.csv filen beskriver hver prøve (en prøve pr. række) med en modalitet for hver biologisk eller teknisk faktor (i kolonnerne). Vi anbefaler kraftigt, at de navne, der er valgt til modaliteterne, starter med et bogstav, ikke et tal. Navnet på den sidste kolonne (“Repliker”) kan ikke ændres. Endelig skal eksempelnavnene (første kolonne) matche navnene i overskrifterne i COUNTS.csv filen (Genotype1_control_rep1 i vores eksempel). Filen Enrichment.csv, hvor hver linje indeholder ét Gene_ID og ét anmærkningsudtryk, er kun påkrævet, hvis brugeren planlægger at køre forbedringsanalysen. Hvis et gen har flere kommentarer, skal de skrives på forskellige linjer. Annotation.csv filen er valgfri og bruges til at tilføje en kort beskrivelse af hvert gen i outputfilerne. Den bedste måde at få en annotationsfil på er at hente oplysningerne fra dedikerede databaser (f.eks. Thalemine: https://bar.utoronto.ca/thalemine/begin.do for Arabidopsis).

Installation af DiCoExpress
DiCoExpress kræver specifikke R-pakker. Brug kommandolinjekilden(“.. /Sources/Install_Packages.R”) i R-konsollen for at kontrollere den påkrævede installationsstatus for pakken. For brugere på Linux er en anden løsning at installere containeren dedikeret til DiCoExpress og tilgængelig på https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definition indeholder denne container DiCoExpress med alle de nødvendige dele, såsom biblioteker og andre afhængigheder.

Protocol

1. DiCoExpress Åbn en R-studiesession, og indstil mappen til Template_scripts. Åbn DiCoExpress_Tutorial.R-scriptet i R studio. Indlæs DiCoExpress-funktioner i R-sessionen med følgende kommandoer:> kilde(“.. /Kilder/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Data”> Results_Directory = “.. /Resultater/” Indlæs datafiler i R-sessionen med følgende kommandoer:> Project_Name = “Vejledning”> Filter = NULL> Sep =”\t”> Data_Files = Loa…

Representative Results

Alle DiCoExpress-output gemmes i Tutorial / -mappen, selv placeret i Resultaterne / biblioteket. Vi giver her nogle retningslinjer for vurdering af analysens overordnede kvalitet. KvalitetskontrolKvalitetskontroloutputtet, der er placeret i Quality_Control / -biblioteket, er afgørende for at kontrollere, at RNA-Seq-analyseresultaterne er pålidelige. Den Data_Quality_Control.pdf fil indeholder flere plots opnået med rå og normaliserede data, der kan bruges til at identi…

Discussion

Fordi RNA-Seq er blevet en allestedsnærværende metode i biologiske studier, er der et konstant behov for at udvikle alsidige og brugervenlige analytiske værktøjer. Et kritisk skridt i de fleste af de analytiske arbejdsgange er ofte med sikkerhed at identificere de gener, der udtrykkes forskelligt mellem biologiske tilstande og/eller behandlinger15. Produktionen af pålidelige resultater kræver korrekt statistisk modellering, hvilket har været motivationen for udviklingen af DiCoExpress.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev hovedsageligt støttet af ANR PSYCHE (ANR-16-CE20-0009). Forfatterne takker F. Desprez for opførelsen af containeren af DiCoExpress. KB-arbejde understøttes af Investering for fremtiden ANR-10-BTBR-01-01 Amaizing-programmet. GQE- og IPS2-laboratorierne nyder godt af støtte fra Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).
check_url/62566?article_type=t

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video