Summary

Analysere multifaktorielle RNA-Seq-eksperimenter med DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress er et skriptbasert verktøy implementert i R for å utføre en RNA-Seq-analyse fra kvalitetskontroll til samuttrykk. DiCoExpress håndterer komplett og ubalansert design opptil 2 biologiske faktorer. Denne videoopplæringen guider brukeren gjennom de forskjellige funksjonene i DiCoExpress.

Abstract

Riktig bruk av statistisk modellering i NGS dataanalyse krever et avansert kompetansenivå. Det har nylig vært en økende konsensus om bruk av generaliserte lineære modeller for differensialanalyse av RNA-Seq-data og fordelen med blandingsmodeller for å utføre kouttrykksanalyse. For å tilby en administrert innstilling for å bruke disse modelleringsmetodene, utviklet vi DiCoExpress som gir en standardisert R-rørledning for å utføre en RNA-Seq-analyse. Uten noen spesiell kunnskap i statistikk eller R-programmering, kan nybegynnere utføre en komplett RNA-Seq-analyse fra kvalitetskontroller til samuttrykk gjennom differensialanalyse basert på kontraster i en generalisert lineær modell. En anrikningsanalyse foreslås både på listene over differensielt uttrykte gener og de meduttrykte genklyngene. Denne videoopplæringen er oppfattet som en trinnvis protokoll for å hjelpe brukerne til å dra full nytte av DiCoExpress og dens potensial for å styrke den biologiske tolkningen av et RNA-Seq-eksperiment.

Introduction

Neste generasjons RNA-sekvenseringsteknologi (RNA-Seq) er nå gullstandarden for transkriptomanalyse1. Siden teknologiens tidlige dager har den kombinerte innsatsen til bioinformatikere og biostatistikere resultert i utviklingen av en rekke metoder som takler alle de essensielle trinnene i transkriptomiske analyser, fra kartlegging til transkripsjonskvantifisering2. De fleste verktøyene som er tilgjengelige for biologen i dag, er utviklet i R-programvaremiljøet for statistisk databehandling og grafer3, og mange pakker for biologisk dataanalyse er tilgjengelige i Bioconductor-depotet4. Disse pakkene gir total kontroll og tilpasning av analysen, men de kommer på bekostning av omfattende bruk av et kommandolinjegrensesnitt. Fordi mange biologer er mer komfortable med en “pek og klikk” -tilnærming5, krever demokratisering av RNA-Seq-analyser utvikling av mer brukervennlige grensesnitt eller protokoller6. For eksempel er det mulig å bygge webgrensesnitt av R-pakker ved hjelp av Shiny7, og kommandolinjedataanalyse blir gjort mer intuitiv med R-studio8-grensesnittet . Utviklingen av dedikerte, trinnvise opplæringsprogrammer kan også hjelpe den nye brukeren. Spesielt supplerer en videoopplæring en klassisk tekst, noe som fører til en dypere forståelse av alle prosedyretrinnene.

Vi har nylig utviklet DiCoExpress9, et verktøy for å analysere multifaktorielle RNA-Seq-eksperimenter i R ved hjelp av metoder som anses å være de beste basert på nøytrale sammenligningsstudier10,11,12. Med utgangspunkt i en telletabell foreslår DiCoExpress et datakvalitetskontrolltrinn etterfulgt av en differensial genuttrykksanalyse (edgeR-pakke13) ved hjelp av en generalisert lineær modell (GLM) og generering av kouttrykksklynger ved bruk av Gaussiske blandingsmodeller (coseq-pakke12). DiCoExpress håndterer komplett og ubalansert design opptil 2 biologiske faktorer (dvs. genotype og behandling) og en teknisk faktor (dvs. replikere). Originaliteten til DiCoExpress ligger i katalogarkitekturen som lagrer og organiserer data, skript og resultater og i automatiseringen av skrivingen av kontrastene slik at brukeren kan undersøke mange spørsmål innenfor samme statistiske modell. Det ble også gjort en innsats for å gi grafiske utganger som illustrerer de statistiske resultatene.

DiCoExpress-arbeidsområdet er tilgjengelig på https://forgemia.inra.fr/GNet/dicoexpress. Den inneholder fire kataloger, to pdf og to tekstfiler. Data/ katalogen inneholder inngangsdatasettene; For denne protokollen vil vi bruke datasettet “Tutorial”. Kilder/ katalog inneholder syv R-funksjoner som er nødvendige for å utføre analysen, og må ikke endres av brukeren. Analysen kjøres ved hjelp av skript som er lagret i Template_scripts/-mappen. Den som brukes i denne protokollen kalles DiCoExpress_Tutorial_JoVE.R og kan enkelt tilpasses ethvert transkriptomisk prosjekt. Alle resultatene skrives i Resultater / katalogen og lagres i en underkatalog navngitt i henhold til prosjektet. Den README.md filen inneholder nyttig installasjonsinformasjon, og eventuelle spesifikke detaljer om metoden og bruken av den finner du i DiCoExpress_Reference_Manual.pdf-filen.

Denne videoopplæringen guider brukeren gjennom de forskjellige funksjonene i DiCoExpress med sikte på å overvinne motviljen som biologer føler ved hjelp av kommandolinjebaserte verktøy. Vi presenterer her analysen av et kunstig RNA-Seq-datasett som beskriver genuttrykk i tre biologiske replikasjoner av fire genotyper, med eller uten behandling. Vi vil nå gå gjennom de forskjellige trinnene i DiCoExpress-arbeidsflyten illustrert i figur 1. Skriptet beskrevet i protokolldelen og inndatafiler er tilgjengelige på nettstedet: https://forgemia.inra.fr/GNet/dicoexpress

Klargjøre datafiler
De fire csv-filene som er lagret i Data/ katalogen, skal navngis i henhold til prosjektnavnet. I vårt eksempel begynner derfor alle navnene med “Tutorial”, og vi vil sette Project_Name = “Tutorial” i trinn 4 i protokollen. Skilletegnet som brukes i csv-filene, må angis i sep-variabelen i trinn 4. I vårt “tutorial” datasett er separatoren en tabulering. For avanserte brukere kan hele datasettet reduseres til et delsett ved å gi en liste over instruksjoner og en ny Project_Name gjennom filtervariabelen. Dette alternativet unngår overflødige kopier av inndatafilene og verifiserer FAIR-prinsippene14.

Blant de fire csv-filene er bare COUNTS- og TARGET-filene obligatoriske. De inneholder råtallene for hvert gen (her Tutorial_COUNTS.csv) og den eksperimentelle designbeskrivelsen (her Tutorial_TARGET.csv). TARGET.csv filen beskriver hver prøve (en prøve per rad) med en modalitet for hver biologisk eller teknisk faktor (i kolonnene). Vi anbefaler på det sterkeste at navnene som er valgt for modalitetene starter med en bokstav, ikke et tall. Navnet på den siste kolonnen (“Replikere”) kan ikke endres. Til slutt må eksempelnavnene (første kolonne) samsvare med navnene i overskriftene i COUNTS.csv-filen (Genotype1_control_rep1 i vårt eksempel). Filen Enrichment.csv der hver linje inneholder én Gene_ID og én merknadsterm er bare nødvendig hvis brukeren planlegger å kjøre berikelsesanalysen. Hvis ett gen har flere merknader, må de skrives på forskjellige linjer. Merknadsfilen .csv er valgfri og brukes til å legge til en kort beskrivelse av hvert gen i utdatafilene. Den beste måten å få en merknadsfil på er å hente informasjonen fra dedikerte databaser (f.eks. Thalemine: https://bar.utoronto.ca/thalemine/begin.do for Arabidopsis).

Installasjon av DiCoExpress
DiCoExpress krever spesifikke R-pakker. Bruk kommandolinjekilden(“.. /Sources/Install_Packages.R”) i R-konsollen for å kontrollere den nødvendige installasjonsstatusen for pakken. For brukere på Linux er en annen løsning å installere beholderen dedikert til DiCoExpress og tilgjengelig på https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definisjon inneholder denne beholderen DiCoExpress med alle delene som trengs, for eksempel biblioteker og andre avhengigheter.

Protocol

1. DiCoExpress Åpne en R Studio-økt, og angi at katalogen skal Template_scripts. Åpne DiCoExpress_Tutorial.R-skriptet i R studio. Last inn DiCoExpress-funksjoner i R-økten med følgende kommandoer:> kilde(“.. /Kilder/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Data”> Results_Directory = “.. /Resultater/” Last inn datafiler i R-økten med følgende kommandoer:> Project_Name = “Tutorial”> Filter = NULL> Sep=”\t”> Data_Files = Load_D…

Representative Results

Alle DiCoExpress-utgangene lagres i opplæringen / katalogen, selv plassert i Resultater / katalogen. Vi gir her litt veiledning for å vurdere den generelle kvaliteten på analysen. KvalitetskontrollKvalitetskontrollutgangen, som ligger i Quality_Control / katalogen, er avgjørende for å verifisere at RNA-Seq-analyseresultatene er pålitelige. Den Data_Quality_Control.pdf filen inneholder flere tomter oppnådd med rå og normaliserte data som kan brukes til å identifise…

Discussion

Fordi RNA-Seq har blitt en allestedsnærværende metode i biologiske studier, er det et konstant behov for å utvikle allsidige og brukervennlige analyseverktøy. Et kritisk skritt i de fleste analytiske arbeidsflyter er ofte å identifisere med sikkerhet genene som er differensielt uttrykt mellom biologiske tilstander og / eller behandlinger15. Produksjonen av pålitelige resultater krever riktig statistisk modellering, som har vært motivasjonen for utviklingen av DiCoExpress.

<p class="jove…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble hovedsakelig støttet av ANR PSYCHE (ANR-16-CE20-0009). Forfatterne takker F. Desprez for byggingen av beholderen til DiCoExpress. KB-arbeid støttes av Investment for the Future ANR-10-BTBR-01-01 Amaizing-programmet. GQE- og IPS2-laboratoriene drar nytte av støtte fra Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video