Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress

Analyse multifaktorieller RNA-Seq-Experimente mit DiCoExpress

Published: July 29, 2022

doi:

Kevin Baudry^2,3, Christine Paysant-Le Roux², Stefano Colella, Benoît Castandet², Marie-Laure Martin^2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE – Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress ist ein skriptbasiertes Tool, das in R implementiert ist, um eine RNA-Seq-Analyse von der Qualitätskontrolle bis zur Co-Expression durchzuführen. DiCoExpress verarbeitet das komplette und unausgewogene Design mit bis zu 2 biologischen Faktoren. Dieses Video-Tutorial führt den Benutzer durch die verschiedenen Funktionen von DiCoExpress.

Abstract

Der richtige Einsatz statistischer Modellierung in der NGS-Datenanalyse erfordert ein fortgeschrittenes Maß an Fachwissen. In letzter Zeit gibt es einen wachsenden Konsens über die Verwendung verallgemeinerter linearer Modelle für die differentielle Analyse von RNA-Seq-Daten und den Vorteil von Mischungsmodellen zur Durchführung von Co-Expressionsanalysen. Um eine verwaltete Umgebung für die Verwendung dieser Modellierungsansätze zu bieten, haben wir DiCoExpress entwickelt, das eine standardisierte R-Pipeline zur Durchführung einer RNA-Seq-Analyse bereitstellt. Ohne besondere Kenntnisse in Statistik oder R-Programmierung können Anfänger eine vollständige RNA-Seq-Analyse von der Qualitätskontrolle über die Co-Expression bis hin zur Differentialanalyse durchführen, die auf Kontrasten innerhalb eines verallgemeinerten linearen Modells basiert. Eine Anreicherungsanalyse wird sowohl für die Listen der differentiell exprimierten Gene als auch für die co-exprimierten Gencluster vorgeschlagen. Dieses Video-Tutorial ist als Schritt-für-Schritt-Protokoll konzipiert, um Benutzern zu helfen, DiCoExpress und sein Potenzial zur biologischen Interpretation eines RNA-Seq-Experiments voll auszuschöpfen.

Introduction

Die RNA-Sequenzierungstechnologie der nächsten Generation (RNA-Seq) ist heute der Goldstandard der Transkriptomanalyse¹. Seit den Anfängen der Technologie haben die gemeinsamen Anstrengungen von Bioinformatikern und Biostatistikern zur Entwicklung zahlreicher Methoden geführt, die alle wesentlichen Schritte der transkriptomischen Analyse abdecken, von der Kartierung bis zur Transkriptquantifizierung². Die meisten Werkzeuge, die dem Biologen heute zur Verfügung stehen, werden innerhalb der R-Softwareumgebung für statistische Berechnungen und Grafiken³ entwickelt, und viele Pakete für die biologische Datenanalyse sind im Bioconductor-Repositorium⁴ verfügbar. Diese Pakete bieten vollständige Kontrolle und Anpassung der Analyse, gehen jedoch zu Lasten der umfangreichen Verwendung einer Befehlszeilenschnittstelle. Da viele Biologen mit einem “Point-and-Click”^{-Ansatz 5} vertrauter sind, erfordert die Demokratisierung von RNA-Seq-Analysen die Entwicklung benutzerfreundlicherer Schnittstellen oder Protokolle⁶. Zum Beispiel ist es möglich, Webschnittstellen von R-Paketen mit Shiny⁷ zu erstellen, und die Kommandozeilen-Datenanalyse wird mit der R-studio^{8-Schnittstelle} intuitiver gestaltet. Die Entwicklung von dedizierten Schritt-für-Schritt-Tutorials kann auch dem neuen Benutzer helfen. Insbesondere ein Video-Tutorial ergänzt ein klassisches Text-Tutorial und führt zu einem tieferen Verständnis aller Verfahrensschritte.

Wir haben kürzlich DiCoExpress⁹ entwickelt, ein Werkzeug zur Analyse multifaktorieller RNA-Seq-Experimente in R mit Methoden, die als die besten gelten, basierend auf neutralen Vergleichsstudien^10,11,12. Ausgehend von einer Zähltabelle schlägt DiCoExpress einen Schritt zur Datenqualitätskontrolle vor, gefolgt von einer differentiellen Genexpressionsanalyse (edgeR-Paket¹³) unter Verwendung eines generalisierten linearen Modells (GLM) und der Erzeugung von Co-Expressionsclustern unter Verwendung von Gauß-Mischungsmodellen (coseq-Paket¹²). DiCoExpress verarbeitet das vollständige und unausgewogene Design mit bis zu 2 biologischen Faktoren (d. h. Genotyp und Behandlung) und einem technischen Faktor (d. h. Replikation). Die Originalität von DiCoExpress liegt in seiner Verzeichnisarchitektur, die Daten, Skripte und Ergebnisse speichert und organisiert, und in der Automatisierung des Schreibens der Kontraste, die es dem Benutzer ermöglicht, zahlreiche Fragen innerhalb desselben statistischen Modells zu untersuchen. Es wurde auch versucht, grafische Ausgaben zur Veranschaulichung der statistischen Ergebnisse bereitzustellen.

Der DiCoExpress-Arbeitsbereich steht https://forgemia.inra.fr/GNet/dicoexpress zur Verfügung. Es enthält vier Verzeichnisse, zwei PDF- und zwei Textdateien. Das Verzeichnis Data/ enthält die Eingabedatensätze; Für dieses Protokoll verwenden wir den Datensatz “tutorial”. Das Verzeichnis Sources/ enthält sieben R-Funktionen, die für die Durchführung der Analyse erforderlich sind, und darf vom Benutzer nicht geändert werden. Die Analyse wird mit Skripten durchgeführt, die im Verzeichnis Template_scripts/ gespeichert sind. Das in diesem Protokoll verwendete heißt DiCoExpress_Tutorial_JoVE.R und kann leicht an jedes transkriptomische Projekt angepasst werden. Alle Ergebnisse werden in das Verzeichnis Results/ geschrieben und in einem Unterverzeichnis gespeichert, das nach dem Projekt benannt ist. Die README.md Datei enthält nützliche Installationsinformationen, und alle spezifischen Details über die Methode und ihre Verwendung finden Sie in der DiCoExpress_Reference_Manual.pdf Datei.

Dieses Video-Tutorial führt den Benutzer durch die verschiedenen Funktionen von DiCoExpress mit dem Ziel, die Zurückhaltung von Biologen bei der Verwendung von Befehlszeilen-basierten Tools zu überwinden. Wir präsentieren hier die Analyse eines künstlichen RNA-Seq-Datensatzes, der die Genexpression in drei biologischen Replikaten von vier Genotypen mit oder ohne Behandlung beschreibt. Wir werden nun die verschiedenen Schritte des DiCoExpress-Workflows durchgehen, die in Abbildung 1 dargestellt sind. Das im Abschnitt Protokoll beschriebene Skript und die Eingabedateien sind auf der Website verfügbar: https://forgemia.inra.fr/GNet/dicoexpress

Vorbereiten von Datendateien
Die vier CSV-Dateien, die im Verzeichnis Data/ gespeichert sind, sollten nach dem Projektnamen benannt werden. In unserem Beispiel beginnen daher alle Namen mit “Tutorial”, und wir setzen Project_Name = “Tutorial” in Schritt 4 des Protokolls. Das in den CSV-Dateien verwendete Trennzeichen muss in Schritt 4 in der Variablen Sep angegeben werden. In unserem “Tutorial”-Dataset ist das Trennzeichen eine Tabelle. Für fortgeschrittene Benutzer kann der vollständige Datensatz auf eine Teilmenge reduziert werden, indem eine Liste von Anweisungen und eine neue Project_Name über die Filter-Variable bereitgestellt werden. Diese Option vermeidet redundante Kopien der Eingabedateien und verifiziert die FAIR-Prinzipien¹⁴.

Unter den vier CSV-Dateien sind nur die COUNTS- und TARGET-Dateien obligatorisch. Sie enthalten die Rohzahlen für jedes Gen (hier Tutorial_COUNTS.csv) und die experimentelle Designbeschreibung (hier Tutorial_TARGET.csv). Die Datei TARGET.csv beschreibt jede Probe (eine Probe pro Zeile) mit einer Modalität für jeden biologischen oder technischen Faktor (in den Spalten). Wir empfehlen dringend, dass die für die Modalitäten gewählten Namen mit einem Buchstaben und nicht mit einer Zahl beginnen. Der Name der letzten Spalte (“Replizieren”) kann nicht geändert werden. Schließlich müssen die Beispielnamen (erste Spalte) mit den Namen in den Überschriften der Datei COUNTS.csv übereinstimmen (Genotype1_control_rep1 in unserem Beispiel). Die Anreicherungsdatei.csv in der jede Zeile einen Gene_ID und einen Anmerkungsterm enthält, ist nur erforderlich, wenn der Benutzer die Anreicherungsanalyse ausführen möchte. Wenn ein Gen mehrere Annotationen hat, müssen diese auf verschiedene Zeilen geschrieben werden. Die Annotation.csv Datei ist optional und wird verwendet, um eine kurze Beschreibung jedes Gens in den Ausgabedateien hinzuzufügen. Der beste Weg, eine Anmerkungsdatei zu erhalten, besteht darin, die Informationen aus dedizierten Datenbanken abzurufen (z. B. Thalemine: https://bar.utoronto.ca/thalemine/begin.do für Arabidopsis).

Installation von DiCoExpress
DiCoExpress erfordert spezielle R-Pakete. Verwenden Sie die Befehlszeilenquelle(“.. /Sources/Install_Packages.R”) in der R-Konsole, um den erforderlichen Paketinstallationsstatus zu überprüfen. Für Benutzer unter Linux besteht eine weitere Lösung darin, den für DiCoExpress dedizierten Container zu installieren, der bei https://forgemia.inra.fr/GNet/dicoexpress/container_registry verfügbar ist. Per Definition enthält dieser Container DiCoExpress mit allen benötigten Teilen wie Bibliotheken und anderen Abhängigkeiten.

Protocol

1. DiCoExpress Öffnen Sie eine R Studio-Sitzung und legen Sie das Verzeichnis auf Template_scripts fest. Öffnen Sie das DiCoExpress_Tutorial.R-Skript in R Studio. Laden Sie DiCoExpress-Funktionen in der R-Sitzung mit den folgenden Befehlen:> Quelle(“.. /Quellen/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /Daten”> Results_Directory = “.. /Ergebnisse/” Laden Sie Datendateien in der R-Sitzung mit den folgenden Befehlen:> Project_Name = “Tutorial”<b…

Representative Results

Alle DiCoExpress-Ausgaben werden im Verzeichnis Tutorial/ gespeichert, das sich wiederum im Verzeichnis Results/ befindet. Wir bieten hier einige Hinweise zur Beurteilung der Gesamtqualität der Analyse. QualitätskontrolleDie Ausgabe der Qualitätskontrolle, die sich im Verzeichnis Quality_Control/ befindet, ist unerlässlich, um die Zuverlässigkeit der RNA-Seq-Analyseergebnisse zu überprüfen. Die Data_Quality_Control.pdf Datei enthält mehrere Diagramme, die mit rohen…

Discussion

Da RNA-Seq zu einer allgegenwärtigen Methode in biologischen Studien geworden ist, besteht ein ständiger Bedarf, vielseitige und benutzerfreundliche Analysewerkzeuge zu entwickeln. Ein kritischer Schritt innerhalb der meisten analytischen Arbeitsabläufe besteht häufig darin, die Gene, die zwischen biologischen Bedingungen und/oder Behandlungen unterschiedlich exprimiert werden, mit Sicherheit zu identifizieren¹⁵. Die Erstellung zuverlässiger Ergebnisse erfordert eine ordnungsgemäße statisti…

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde hauptsächlich von der ANR PSYCHE (ANR-16-CE20-0009) unterstützt. Die Autoren danken F. Desprez für den Bau des Containers von DiCoExpress. Die KB-Arbeit wird durch das Programm Investment for the Future ANR-10-BTBR-01-01 Amaizing unterstützt. Die Laboratorien GQE und IPS2 profitieren von der Unterstützung von Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Referencias

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
. Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artículo

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Analyse multifaktorieller RNA-Seq-Experimente mit DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgaciones

Acknowledgements

Materials

Referencias

Tags

Play Video

Citar este artículo

View Video

Analyse multifaktorieller RNA-Seq-Experimente mit DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgaciones

Acknowledgements

Materials

Referencias

Tags

Play Video

Citar este artículo

View Video

✖

To prove you're not a robot, please enter the text in the image below