Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Hochdurchsatz-Transkriptomanalyse zur Untersuchung von Wirt-Pathogen-Interaktionen

Published: March 5, 2022 doi: 10.3791/62324

Summary

Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungs-Transkriptomdaten von Rohlesungen bis hin zur Funktionsanalyse, einschließlich Qualitätskontroll- und Vorverarbeitungsschritten bis hin zu fortschrittlichen statistischen Analyseansätzen.

Abstract

Krankheitserreger können eine Vielzahl von Infektionskrankheiten verursachen. Die biologischen Prozesse, die vom Wirt als Reaktion auf eine Infektion induziert werden, bestimmen die Schwere der Erkrankung. Um solche Prozesse zu untersuchen, können Forscher Hochdurchsatz-Sequenzierungstechniken (RNA-seq) verwenden, die die dynamischen Veränderungen des Wirtstranskriptoms in verschiedenen Stadien der Infektion, klinischen Ergebnissen oder Krankheitsschwere messen. Diese Untersuchung kann zu einem besseren Verständnis der Krankheiten sowie zur Aufdeckung potenzieller Wirkstoffziele und Behandlungen führen. Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungsdaten vom Rohlesen bis zur Funktionsanalyse. Die Pipeline ist in fünf Schritte unterteilt: (1) Qualitätskontrolle der Daten; (2) Kartierung und Annotation von Genen; (3) statistische Analyse zur Identifizierung differentiell exprimierter Gene und koexprimierter Gene; (4) Bestimmung des molekularen Grades der Störung von Proben; und (5) Funktionalanalyse. Schritt 1 entfernt technische Artefakte, die sich auf die Qualität nachgelagerter Analysen auswirken können. In Schritt 2 werden Gene nach Standardbibliotheksprotokollen kartiert und annotiert. Die statistische Analyse in Schritt 3 identifiziert Gene, die in infizierten Proben im Vergleich zu nicht infizierten Proben differentiell exprimiert oder koexprimiert werden. Die Probenvariabilität und das Vorhandensein potenzieller biologischer Ausreißer werden mit dem Ansatz des molekularen Störungsgrades in Schritt 4 überprüft. Schließlich zeigt die Funktionelle Analyse in Schritt 5 die mit dem Krankheitsphänotyp assoziierten Signalwege auf. Die vorgestellte Pipeline zielt darauf ab, Forscher durch die RNA-seq-Datenanalyse aus Wirt-Pathogen-Interaktionsstudien zu unterstützen und zukünftige In-vitro- oder In-vivo-Experimente voranzutreiben, die für das Verständnis des molekularen Mechanismus von Infektionen unerlässlich sind.

Introduction

Arboviren wie Dengue, Gelbfieber, Chikungunya und Zika wurden weithin mit mehreren endemischen Ausbrüchen in Verbindung gebracht und haben sich in den letzten Jahrzehnten als einer der Hauptpathogene für die Infektion des Menschen herausgestellt1,2. Personen, die mit dem Chikungunya-Virus (CHIKV) infiziert sind, haben oft Fieber, Kopfschmerzen, Hautausschlag, Polyarthralgie und Arthritis3,4,5. Viren können die Genexpression der Zelle untergraben und verschiedene Wirtssignalwege beeinflussen. Kürzlich verwendeten Bluttranskriptomstudien RNA-seq, um die differentiell exprimierten Gene (DEGs) zu identifizieren, die mit einer akuten CHIKV-Infektion im Vergleich zur Rekonvaleszenz6 oder gesunden Kontrollen assoziiert sind7. CHIKV-infizierte Kinder hatten hochregulierte Gene, die an der angeborenen Immunität beteiligt sind, wie diejenigen, die mit zellulären Sensoren für virale RNA, JAK / STAT-Signalgebung und Toll-like-Rezeptor-Signalwege zusammenhängen6. Erwachsene, die akut mit CHIKV infiziert waren, zeigten auch eine Induktion von Genen, die mit der angeborenen Immunität zusammenhängen, wie z.B. solche, die mit Monozyten und der Aktivierung dendritischer Zellen sowie mit antiviralen Reaktionen zusammenhängen7. Zu den Signalwegen, die mit herunterregulierten Genen angereichert waren, gehörten diejenigen, die sich auf die adaptive Immunität bezogen, wie die Aktivierung und Differenzierung und Anreicherung von T-Zellen in T- und B-Zellen7.

Mehrere Methoden können verwendet werden, um Transkriptomdaten von Wirts- und Pathogengenen zu analysieren. Oft beginnt die Vorbereitung der RNA-seq-Bibliothek mit der Anreicherung reifer Poly-A-Transkripte. Dieser Schritt entfernt den größten Teil der ribosomalen RNA (rRNA) und in einigen Fällen virale/bakterielle RNAs. Wenn die biologische Frage jedoch den Nachweis des Pathogentranskripts beinhaltet und RNA unabhängig von der vorherigen Selektion sequenziert wird, könnten viele andere verschiedene Transkripte durch Sequenzierung nachgewiesen werden. Beispielsweise haben sich subgenomische mRNAs als wichtiger Faktor erwiesen, um die Schwere der Erkrankungen zu überprüfen8. Darüber hinaus erzeugen für bestimmte Viren wie CHIKV und SARS-CoV-2 sogar poly-A-angereicherte Bibliotheken virale Lesevorgänge, die in nachgelagerten Analysen verwendet werden können9,10. Wenn sie sich auf die Analyse des Wirtstranskriptoms konzentrieren, können die Forscher die biologische Störung über Proben hinweg untersuchen, differentiell exprimierte Gene und angereicherte Signalwege identifizieren und Koexpressionsmodule erzeugen7,11,12. Dieses Protokoll hebt Transkriptomanalysen von CHIKV-infizierten Patienten und gesunden Personen unter Verwendung verschiedener bioinformatischer Ansätze hervor (Abbildung 1A). Daten aus einer zuvor veröffentlichten Studie7, bestehend aus 20 gesunden und 39 CHIKV akut infizierten Personen, wurden verwendet, um die repräsentativen Ergebnisse zu generieren.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Die in diesem Protokoll verwendeten Proben wurden von den Ethikkommissionen sowohl der Abteilung für Mikrobiologie des Instituts für Biomedizinische Wissenschaften der Universität von São Paulo als auch der Bundesuniversität von Sergipe genehmigt (Protokolle: 54937216.5.0000.5467 bzw. 54835916.2.0000.5546).

1. Docker Desktop-Installation

HINWEIS: Die Schritte zum Vorbereiten der Docker-Umgebung unterscheiden sich zwischen den Betriebssystemen (Betriebssystemen). Daher müssen Mac-Benutzer die als 1.1 aufgeführten Schritte, Linux-Benutzer die als 1.2 aufgeführten Schritte und Windows-Benutzer die als 1.3 aufgeführten Schritte ausführen.

  1. Installation auf dem MacOS.
    1. Rufen Sie die Get Docker-Website (Tabelle der Materialien) auf, klicken Sie auf Docker Desktop für Mac und dann auf den Link Von Docker Hub herunterladen .
    2. Laden Sie die Installationsdatei herunter, indem Sie auf die Schaltfläche Docker herunterladen klicken.
    3. Führen Sie die Docker.dmg Datei aus, um das Installationsprogramm zu öffnen, und ziehen Sie dann das Symbol in den Ordner Programme . Lokalisieren und führen Sie die Docker.app im Ordner "Programme" aus, um das Programm zu starten.
      HINWEIS: Das softwarespezifische Menü in der oberen Statusleiste zeigt an, dass die Software ausgeführt wird und von einem Terminal aus darauf zugegriffen werden kann.
  2. Installieren Sie das Containerprogramm auf dem Linux-Betriebssystem.
    1. Greifen Sie auf die Get Docker Linux-Website (Tabelle der Materialien) zu und folgen Sie den Anweisungen zur Installation über den Repository-Abschnitt, der unter dem Link Docker Linux Repository verfügbar ist.
    2. Aktualisieren Sie alle Linux-Pakete über die Befehlszeile:
      sudo apt-get Aktualisieren
    3. Installieren Sie die erforderlichen Pakete in Docker:
      sudo apt-get installieren apt-transport-https ca-certificates curl gnupg lsb-release
    4. Erstellen Sie eine Software-Archiv-Schlüsselringdatei:
      curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. Fügen Sie Docker deb-Informationen in der Datei source.list hinzu:
      echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Aktualisieren Sie alle Pakete erneut, einschließlich der kürzlich hinzugefügten:
      sudo apt-get Aktualisieren
    7. Installieren Sie die Desktop-Version:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. Wählen Sie das geografische Gebiet und die Zeitzone aus, um den Installationsvorgang abzuschließen.
  3. Installieren Sie das Containerprogramm auf dem Windows-Betriebssystem.
    1. Rufen Sie die Get Docker-Website (Tabelle der Materialien) auf und klicken Sie auf Erste Schritte. Suchen Sie das Installationsprogramm für Docker Desktop für Windows. Laden Sie die Dateien herunter und installieren Sie sie lokal auf dem Computer.
    2. Starten Sie nach dem Download die Installationsdatei (.exe) und behalten Sie die Standardparameter bei. Stellen Sie sicher, dass die beiden Optionen Erforderliche Windows-Komponenten für WSL 2 installieren und Verknüpfung zum Desktop hinzufügen markiert sind.
      HINWEIS: In einigen Fällen, wenn diese Software versucht, den Dienst zu starten, zeigt sie einen Fehler an: Die WSL-Installation ist unvollständig. Um diesen Fehler herauszufinden, rufen Sie die Website WSL2-Kernel (Table of Materials) auf.
    3. Laden Sie den neuesten WSL2 Linux-Kernel herunter und installieren Sie ihn.
    4. Greifen Sie als Administrator auf das PowerShell-Terminal zu und führen Sie den folgenden Befehl aus:
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Stellen Sie sicher, dass die Software Docker Desktop erfolgreich installiert wurde.
  4. Laden Sie das Image aus dem CSBL-Repository auf den Docker-Hub herunter (Materialtabelle).
    1. Öffnen Sie den Docker-Desktop und überprüfen Sie, ob der Status unten links in der Symbolleiste "ausgeführt" lautet.
    2. Wechseln Sie zur Windows PowerShell-Terminalbefehlszeile. Laden Sie das Linux-Container-Image für dieses Protokoll aus dem CSBL-Repository auf dem Docker-Hub herunter. Führen Sie den folgenden Befehl aus, um das Image herunterzuladen:
      docker pull csblusp/transcriptome
      HINWEIS: Nach dem Herunterladen des Images kann die Datei auf dem Docker Desktop angezeigt werden. Zum Erstellen des Containers müssen Windows-Benutzer Schritt 1.5 und Linux-Benutzer Schritt 1.6 ausführen.
  5. Initialisieren Sie den Servercontainer auf dem Windows-Betriebssystem.
    1. Zeigen Sie die Docker-Image-Datei im Desktop-App-Manager über die Symbolleiste an und greifen Sie auf die Seite Images zu.
      HINWEIS: Wenn das Pipeline-Image erfolgreich heruntergeladen wurde, steht ein csblusp/transcriptome-Image zur Verfügung.
    2. Initiieren Sie den Container aus dem csblusp/transcriptome-Bild, indem Sie auf die Schaltfläche Ausführen klicken. Erweitern Sie die optionalen Einstellungen , um den Container zu konfigurieren.
    3. Definieren Sie den Containernamen (z. B. Server).
    4. Ordnen Sie einen Ordner auf dem lokalen Computer dem Ordner im Docker zu. Bestimmen Sie dazu den Hostpfad. Legen Sie einen Ordner auf dem lokalen Computer fest, in dem die verarbeiteten Daten gespeichert werden, die am Ende heruntergeladen werden. Legen Sie den Containerpfad fest. Definieren und verknüpfen Sie den Containerordner csblusp/transcriptome mit dem lokalen Computerpfad (verwenden Sie den Namen "/opt/transferdata" für den Containerpfad).
    5. Klicken Sie anschließend auf Ausführen , um den csblusp / transcriptome-Container zu erstellen.
    6. Um über den csblusp/transcriptome-Container auf das Linux-Terminal zuzugreifen, klicken Sie auf die Schaltfläche CLI.
    7. Geben Sie das Bash-Terminal ein, um eine bessere Erfahrung zu haben. Führen Sie dazu den folgenden Befehl aus:
      schlagen
    8. Stellen Sie nach dem Ausführen des Bash-Befehls sicher, dass das Terminal (root@:/#) anzeigt:
      root@ac12c583b731:/ #
  6. Initialisieren Sie den Servercontainer für Linux OS.
    1. Führen Sie diesen Befehl aus, um den Docker-Container basierend auf dem Image zu erstellen:
      docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
      HINWEIS: : Definieren Sie einen Pfad des lokalen Ordnercomputers.
    2. Führen Sie diesen Befehl aus, um auf das Befehlsterminal des Docker-Containers zuzugreifen:
      docker exec -it server bash
    3. Stellen Sie die Verfügbarkeit eines Linux-Terminals sicher, um Programme / Skripte über die Befehlszeile auszuführen.
    4. Stellen Sie nach dem Ausführen des Bash-Befehls sicher, dass das Terminal (root@:/#) anzeigt:
      root@ac12c583b731:/ #
      HINWEIS: Das Root-Passwort ist standardmäßig "transcriptome". Auf Wunsch kann das Root-Passwort durch Ausführen des folgenden Befehls geändert werden:
      passwd
    5. Führen Sie zunächst den Quellbefehl aus, um addpath.sh, um sicherzustellen, dass alle Tools verfügbar sind. Führen Sie den folgenden Befehl aus:
      Quelle /opt/addpath.sh
  7. Überprüfen Sie die Struktur des RNA-Sequenzierungsordners.
    1. Greifen Sie auf den Ordner transkriptome pipeline scripts zu und stellen Sie sicher, dass alle Daten aus der RNA-Sequenzierung im Ordner /home/transcriptome-pipeline/data gespeichert sind.
    2. Stellen Sie sicher, dass alle Ergebnisse der Analyse im Ordner des Pfads /home/transcriptome-pipeline/results gespeichert sind.
    3. Stellen Sie sicher, dass Genom- und Anmerkungsreferenzdateien im Ordner des Pfads /home/transcriptome-pipeline/datasets gespeichert sind. Diese Dateien helfen, alle Analysen zu unterstützen.
    4. Stellen Sie sicher, dass alle Skripte im Ordner des Pfades /home/transcriptome-pipeline/scripts gespeichert und durch jeden Schritt wie unten beschrieben getrennt sind.
  8. Laden Sie die Anmerkung und das menschliche Genom herunter.
    1. Greifen Sie auf den Ordner scripts zu:
      cd /home/transcriptome-pipeline/scripts
    2. Führen Sie diesen Befehl aus, um das menschliche Referenzgenom herunterzuladen:
      Bash-downloadGenome.sh
    3. Um die Anmerkung herunterzuladen, führen Sie den folgenden Befehl aus:
      Bash-downloadAnnotation.sh
  9. Ändern Sie die Anmerkung oder die Version des Referenzgenoms.
    1. Öffnen Sie downloadAnnotation.sh und downloadGenome.sh, um die URL der einzelnen Dateien zu ändern.
    2. Kopieren Sie die downloadAnnotation.sh und downloadGenome.sh Dateien in den Übertragungsbereich und bearbeiten Sie sie im lokalen Betriebssystem.
      cd /home/transcriptome-pipeline/scripts
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Öffnen Sie den Ordner Hostpfad , der in Schritt 1.5.4 für die Verknüpfung zwischen Host und Docker-Container ausgewählt wurde.
    4. Bearbeiten Sie die Dateien mit der bevorzugten Editor-Software und speichern Sie sie. Legen Sie abschließend die geänderten Dateien in den Skriptordner ab. Führen Sie den folgenden Befehl aus:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      HINWEIS: Diese Dateien können direkt mit dem vim oder nano Linux Editor bearbeitet werden.
  10. Konfigurieren Sie als Nächstes das fastq-dump-Tool mit der Befehlszeile:
    vdb-config --interaktiv
    HINWEIS: Dadurch können Sequenzierungsdateien aus den Beispieldaten heruntergeladen werden.
    1. Navigieren Sie mit der Tabulatortaste auf der Seite Extras und wählen Sie die Option aktueller Ordner aus. Navigieren Sie zur Option Speichern und klicken Sie auf OK. Beenden Sie dann das fastq-dump-Tool.
  11. Initiieren Sie den Download der Lesevorgänge aus dem zuvor veröffentlichten Paper7. Die SRA-Zugangsnummer jeder Stichprobe ist erforderlich. Beziehen Sie die SRA-Nummern von der SRA NCBI-Website (Table of Materials).
    HINWEIS: Um RNA-Seq-Daten zu analysieren, die in öffentlichen Datenbanken verfügbar sind, folgen Sie Schritt 1.12. Um private RNA-seq-Daten zu analysieren, folgen Sie Schritt 1.13.
  12. Analysieren Sie bestimmte öffentliche Daten.
    1. Greifen Sie auf die Website des National Center for Biotechnology Information (NCBI) zu und suchen Sie nach Schlüsselwörtern für ein bestimmtes Thema.
    2. Klicken Sie auf den Link Ergebnis für BioProject im Abschnitt Genomes .
    3. Wählen und klicken Sie auf eine bestimmte Studie. Klicken Sie auf die SRA-Experimente. Es öffnet sich eine neue Seite, auf der alle für diese Studie verfügbaren Beispiele angezeigt werden.
    4. Klicken Sie oben auf die Zugangsnummer "Senden an:" . Wählen Sie in der Option "Ziel auswählen" die Option Datei und Format aus, wählen Sie RunInfo. Klicken Sie auf "Datei erstellen" , um alle Bibliotheksinformationen zu exportieren.
    5. Speichern Sie die Datei SraRunInfo.csv im Host-Pfad, der im Schritt 1.5.4 definiert wurde, und führen Sie das Download-Skript aus:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-pipeline/scripts
      Bash downloadAllLibraries.sh
  13. Analysieren Sie private und unveröffentlichte Sequenzierungsdaten.
    1. Organisieren Sie die Sequenzierungsdaten in einem Ordner mit dem Namen Reads.
      HINWEIS: Erstellen Sie im Ordner Reads einen Ordner für jedes Beispiel. Diese Ordner müssen für jedes Beispiel denselben Namen haben. Fügen Sie Daten jedes Beispiels in seinem Verzeichnis hinzu. Falls es sich um eine paired-end RNA-Seq handelt, sollte jedes Stichprobenverzeichnis zwei FASTQ-Dateien enthalten, die Namen enthalten müssen, die nach den Mustern {sample}_1.fastq.gz und {sample}_2.fastq.gz, Vorwärts- bzw. Rückwärtssequenzen enden. Beispielsweise muss ein Beispiel mit dem Namen "Healthy_control" über ein Verzeichnis mit demselben Namen und FASTQ-Dateien mit den Namen Healthy_control_1.fastq.gz und Healthy_control_2.fastq.gz verfügen. Wenn es sich bei der Bibliothekssequenzierung jedoch um eine Single-End-Strategie handelt, sollte nur eine Lesedatei für die nachgelagerte Analyse gespeichert werden. Beispielsweise muss dasselbe Beispiel, "Fehlerfreies Steuerelement", über eine eindeutige FASTQ-Datei mit dem Namen Healthy_control.fastq.gz verfügen.
    2. Erstellen Sie eine phänotypische Datei, die alle Beispielnamen enthält: Benennen Sie die erste Spalte als 'Sample' und die zweite Spalte als 'Class'. Füllen Sie die Spalte Sample mit Sample-Namen, die für die Sample-Verzeichnisse derselbe Name sein müssen, und füllen Sie die Class-Spalte mit der phänotypischen Gruppe jeder Stichprobe (z. B. Kontrolle oder infiziert). Speichern Sie abschließend eine Datei mit dem Namen "metadata.tsv" und senden Sie sie an das Verzeichnis /home/transcriptome-pipeline/data/. Überprüfen Sie die vorhandene metadata.tsv, um das Format der phänotypischen Datei zu verstehen.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. Greifen Sie auf das in Schritt 1.5.4 definierte Verzeichnis Hostpfad zu, und kopieren Sie die neuen Beispiele für strukturierte Verzeichnisse. Verschieben Sie schließlich die Beispiele aus /opt/transferdata in das Pipeline-Datenverzeichnis.
      cp -rf /opt/transferdata/reads/*
      /home/transkriptome-pipeline/data/reads/
  14. Beachten Sie, dass alle Lesevorgänge im Ordner /home/transcriptome-pipeline/data/reads gespeichert sind.

2. Qualitätskontrolle der Daten

HINWEIS: Bewerten Sie grafisch die Wahrscheinlichkeit von Fehlern in den Sequenzierungslesevorgängen. Entfernen Sie alle technischen Sequenzen, z. B. Adapter.

  1. Greifen Sie mit dem FastQC-Tool auf die Sequenzierungsqualität von Bibliotheken zu.
    1. Um die Qualitätsdiagramme zu generieren, führen Sie das Programm fastqc aus. Führen Sie den folgenden Befehl aus:
      Bash-FastQC.sh
      HINWEIS: Die Ergebnisse werden im Ordner /home/transcriptome-pipeline/results/FastQC gespeichert. Da Sequenzadapter für die Bibliotheksvorbereitung und -sequenzierung verwendet werden, können in einigen Fällen die Fragmente der Adaptersequenz den Mapping-Prozess stören.
  2. Entfernen Sie die Adaptersequenz und die Lesevorgänge von geringer Qualität. Greifen Sie auf den Ordner Scripts zu und führen Sie den Befehl für das Trimmomatic-Werkzeug aus:
    cd /home/transcriptome-pipeline/scripts
    Bash trimmomatic.sh

    HINWEIS: Die für den Sequenzierungsfilter verwendeten Parameter sind: Entfernen Sie führende niedrige Qualität oder 3 Basen (unter Qualität 3) (LEADING:3); Entfernen Sie nachgestellte niedrige Qualität oder 3 Basen (unter Qualität 3) (TRAILING:3); Scannen Sie den Lesevorgang mit einem 4-Basis breiten Schiebefenster und schneiden Sie, wenn die durchschnittliche Qualität pro Basis unter 20 fällt (SLIDINGWINDOW:4:20); und Drop liest unter den 36 Basen lang (MINLEN:36). Diese Parameter können durch Bearbeiten der Trimmomatic-Skriptdatei geändert werden.
    1. Stellen Sie sicher, dass die Ergebnisse im folgenden Ordner gespeichert sind: /home/transcriptome-pipeline/results/trimreads. Führen Sie den folgenden Befehl aus:
      ls /home/transcriptome-pipeline/results/trimreads

3. Mapping und Annotation von Proben

HINWEIS: Nachdem sie die guten Leseergebnisse erhalten haben, müssen diese dem Referenzgenom zugeordnet werden. Für diesen Schritt wurde der STAR-Mapper verwendet, um die Beispielproben abzubilden. Das STAR-Mapper-Tool benötigt 32 GB RAM-Speicher, um die Lesevorgänge und das Genom-Mapping zu laden und auszuführen. Für Benutzer, die nicht über 32 GB RAM-Speicher verfügen, können bereits zugeordnete Lesevorgänge verwendet werden. Springen Sie in solchen Fällen zu Schritt 3.3 oder verwenden Sie den Bowtie2-Mapper. Dieser Abschnitt enthält Skripte für STAR (Ergebnisse in allen Abbildungen dargestellt) und Bowtie2 (Mapper mit geringem Speicherbedarf).

  1. Indexieren Sie zunächst das Referenzgenom für den Mapping-Prozess:
    1. Greifen Sie über die Befehlszeile auf den Ordner Scripts zu:
      cd /home/transcriptome-pipeline/scripts
    2. Führen Sie für STAR mapper Folgendes aus:
      Bash indexGenome.sh
    3. Führen Sie für Bowtie Mapper Folgendes aus:
      Bash-indexGenomeBowtie2.sh
  2. Führen Sie den folgenden Befehl aus, um gefilterte Lesevorgänge (abgerufen aus Schritt 2) dem Referenzgenom (GRCh38-Version) zuzuordnen. Sowohl STAR- als auch Bowtie2-Mapper werden mit Standardparametern ausgeführt.
    1. Führen Sie für STAR mapper Folgendes aus:
      Bash mapSTAR.sh
    2. Führen Sie für Bowtie2 mapper Folgendes aus:
      Bash mapBowtie2.sh
      HINWEIS: Die endgültigen Ergebnisse sind BAM-Dateien (Binary Alignment Map) für jede Stichprobe, die in /home/transcriptome-pipeline/results/mapreads gespeichert ist.
  3. Kommentieren Sie zugeordnete Lesevorgänge mit dem FeatureCounts-Tool , um Rohzählungen für jedes Gen zu erhalten. Führen Sie die Skripts aus, die die Lesevorgänge mit Anmerkungen versehen.
    HINWEIS: Das FeatureCounts-Tool ist dafür verantwortlich, den genomischen Features zugeordnete Sequenzierungslesevorgänge zuzuweisen. Zu den wichtigsten Aspekten der Genomannotation, die nach der biologischen Frage geändert werden können, gehören der Nachweis von Isoformen, mehrere kartierte Lesevorgänge und Exon-Exon-Verbindungen, die den Parametern GTF.attrType="gene_name" für Gen entsprechen oder nicht die Parameter für die Meta-Feature-Ebene angeben, allowMultiOverlap=TRUE bzw. juncCounts=TRUE.
    1. Greifen Sie über die Befehlszeile auf den Ordner scripts zu:
      cd /home/transcriptome-pipeline/scripts
    2. Führen Sie die Befehlszeile aus, um die zugeordneten Lesevorgänge mit Anmerkungen zu versehen, um Rohzählungen pro Gen zu erhalten:
      Rscript-Anmerkung. R
      HINWEIS: Die für den Annotationsprozess verwendeten Parameter waren: Kurzname des Rückgabegens (GTF.attrType="gene_name"); mehrere Überlappungen zulassen (allowMultiOverlap = TRUE); und geben Sie an, dass die Bibliothek paired-end ist (isPairedEnd=TRUE). Verwenden Sie für die Single-End-Strategie den Parameter isPairedEnd=FALSE. Die Ergebnisse werden im Ordner /home/transcriptome-pipeline/countreads gespeichert.
  4. Normalisieren Sie die Genexpression.
    HINWEIS: Die Normalisierung der Genexpression ist unerlässlich, um die Ergebnisse zwischen den Ergebnissen (z. B. gesunde und infizierte Proben) zu vergleichen. Eine Normalisierung ist auch erforderlich, um die Co-Expression und den molekularen Grad der Störungsanalyse durchzuführen.
    1. Greifen Sie über die Befehlszeile auf den Ordner Scripts zu:
      cd /home/transcriptome-pipeline/scripts
    2. Normalisieren Sie die Genexpression. Führen Sie dazu die Befehlszeile aus:
      Rscript normalisiertBeispiele. R
      HINWEIS: Die Rohzählungsausdrücke in diesem Experiment wurden mit den Methoden Trimmed Mean of M-values (TMM) und Count Per Million (CPM) normalisiert. Dieser Schritt zielt darauf ab, Unterschiede in der Genexpression aufgrund des technischen Einflusses zu beseitigen, indem eine Normalisierung der Bibliotheksgröße durchgeführt wird. Die Ergebnisse werden im Ordner /home/transcriptome-pipeline/countreads gespeichert.

4. Differentiell exprimierte Gene und koexprimierte Gene

  1. Identifizieren Sie differentiell exprimierte Gene mit dem Open-Source-EdgeR-Paket. Dabei geht es darum, Gene zu finden, deren Expression im Vergleich zur Kontrolle höher oder niedriger ist.
    1. Greifen Sie über die Befehlszeile auf den Ordner Scripts zu:
      cd /home/transcriptome-pipeline/scripts
    2. Um das differentiell exprimierte Gen zu identifizieren, führen Sie das DEG_edgeR R-Skript über die Befehlszeile aus:
      Rscript DEG_edgeR.R
      HINWEIS: Die Ergebnisse, die die differentiell exprimierten Gene enthalten, werden im Ordner /home/transcriptome-pipeline/results/degs gespeichert. Daten können auf einen PC übertragen werden.
  2. Laden Sie Daten aus dem csblusp/transcriptome-Container herunter.
    1. Übertragen Sie verarbeitete Daten aus der /home/transcriptome-pipeline in den Ordner /opt/transferdata (lokaler Computer).
    2. Kopieren Sie alle Dateien auf den lokalen Computer, indem Sie die Befehlszeile ausführen:
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      HINWEIS: Wechseln Sie nun zum lokalen Computer, um sicherzustellen, dass alle Ergebnisse, Datasets und Daten im Hostpfad heruntergeladen werden können.
  3. Identifizieren Sie Co-Expression-Module.
    1. Greifen Sie auf die CEMiTool-Website (Co-Expression Modules Identification Tool) zu (Tabelle von
      Materialien
      ). Dieses Tool identifiziert Koexpressionsmodule aus Ausdrucksdatasets, die von den Benutzern bereitgestellt werden. Klicken Sie auf der Hauptseite oben rechts auf Ausführen . Dadurch wird eine neue Seite zum Hochladen der Ausdrucksdatei geöffnet.
    2. Klicken Sie unter dem Abschnitt Expressionsdatei auf Datei auswählen und laden Sie die normalisierte Genexpressionsmatrix "tmm_expression.tsv" aus dem Hostpfad hoch.
      HINWEIS: Schritt 4.4. ist nicht obligatorisch.
  4. Erforschen Sie die biologische Bedeutung von Co-Expression-Modulen.
    1. Klicken Sie im Abschnitt Beispielphänotypen auf Datei auswählen und laden Sie die Datei mit den Beispielphänotypen metadata_cemitool.tsv aus dem Schritt Daten herunterladen 4.2.2 hoch. zur Durchführung einer Gen-Set-Anreicherungsanalyse (GSEA).
    2. Klicken Sie im Abschnitt Geninteraktionen auf Datei auswählen, um eine Datei mit Geninteraktionen (cemitool-interactions.tsv) hochzuladen. Es ist möglich, die Datei der Geninteraktionen zu verwenden, die von webCEMiTool als Beispiel zur Verfügung gestellt wird. Die Interaktionen können Protein-Protein-Interaktionen, Transkriptionsfaktoren und ihre transkribierten Gene oder Stoffwechselwege sein. Dieser Schritt erzeugt ein Interaktionsnetzwerk für jedes Koexpressionsmodul.
    3. Klicken Sie im Abschnitt Gene Sets auf Datei auswählen, um eine Liste von Genen hochzuladen, die funktionell verwandt sind, in einer Datei im Format Gene Matrix Transposed (GMT). Die Gene Set-Datei ermöglicht es dem Tool, eine Anreicherungsanalyse für jedes Koexpressionsmodul durchzuführen, d.h. eine Überrepräsentationsanalyse (ORA).
      HINWEIS: Diese Liste von Genen kann Signalwege, GO-Begriffe oder miRNA-Zielgene umfassen. Der Forscher kann die Blood Transcription Modules (BTM) als Gensätze für diese Analyse verwenden. Die BTM-Datei (BTM_for_GSEA.gmt).
  5. Legen Sie Parameter für die Durchführung von Co-Expression-Analysen fest und erhalten Sie deren Ergebnisse.
    1. Erweitern Sie anschließend den Abschnitt Parameter , indem Sie auf das Pluszeichen klicken, um die Standardparameter anzuzeigen. Ändern Sie sie bei Bedarf. Aktivieren Sie das Kontrollkästchen VST anwenden .
    2. Schreiben Sie die E-Mail im Abschnitt E-Mail , um die Ergebnisse als E-Mail zu erhalten. Dieser Schritt ist optional.
    3. Klicken Sie auf die Schaltfläche CEMiTool ausführen .
    4. Laden Sie den vollständigen Analysebericht herunter, indem Sie oben rechts auf Den vollständigen Bericht herunterladen klicken. Es wird eine komprimierte Datei cemitool_results.zip heruntergeladen.
    5. Extrahieren Sie den Inhalt der cemitool_results.zip mit WinRAR.
      HINWEIS: Der Ordner mit dem extrahierten Inhalt umfasst mehrere Dateien mit allen Ergebnissen der Analyse und deren festgelegten Parametern.

5. Bestimmung des molekularen Störungsgrades von Proben

  1. Molecular Degree of Perturbation (MDP) Webversion.
    1. Um MDP auszuführen, greifen Sie auf die MDP-Website (Tabelle der Materialien) zu. MDP berechnet den molekularen Abstand jeder Probe von der Referenz. Klicken Sie auf die Schaltfläche Ausführen .
    2. Laden Sie auf dem Link Datei auswählen die Ausdrucksdatei tmm_expression.tsv hoch. Laden Sie dann die phänotypische Datendatei metadata.tsv aus dem Schritt Daten herunterladen 4.2.2 hoch. Es ist auch möglich, eine Signalwegsanmerkungsdatei im GMT-Format einzureichen, um den Störungswert der mit der Krankheit assoziierten Signalwege zu berechnen.
    3. Nachdem die Daten hochgeladen wurden, definieren Sie die Spalte Klasse, die die vom MDP verwendeten phänotypischen Informationen enthält. Definieren Sie dann die Steuerelementklasse, indem Sie die Bezeichnung auswählen, die der Steuerelementklasse entspricht.
      HINWEIS: Es gibt einige optionale Parameter, die sich darauf auswirken, wie die Stichprobenwerte berechnet werden. Bei Bedarf kann der Benutzer die Statistikdurchschnittsmethode, die Standardabweichung und den obersten Prozentsatz der gestörten Gene ändern.
    4. Danach drücken Sie die Schaltfläche MDP ausführen und die MDP-Ergebnisse werden angezeigt. Der Benutzer kann die Zahlen herunterladen, indem er auf den Download-Plot in jedem Plot klickt, sowie auf den MDP-Score auf der Schaltfläche Download MDP Score File .
      HINWEIS: Bei Fragen zum Einreichen der Dateien oder zur Funktionsweise von MDP gehen Sie einfach die Webseiten Tutorial und About durch.

6. Analyse der funktionellen Anreicherung

  1. Erstellen Sie eine Liste der herunterregulierten DEGs und eine weitere Liste der herunterregulierten DEGs. Gennamen müssen den Entrez-Gensymbolen entsprechen. Jedes Gen der Liste muss in einer Zeile platziert werden.
  2. Speichern Sie die Genlisten im txt- oder tsv-Format.
  3. Greifen Sie auf die Enrichr-Website (Tabelle der Materialien) zu, um die Funktionsanalyse durchzuführen.
  4. Wählen Sie die Liste der Gene aus, indem Sie auf Datei auswählen klicken. Wählen Sie eines der DEGs aus, und klicken Sie auf die Schaltfläche Senden.
  5. Klicken Sie oben auf der Webseite auf Pathways , um eine funktionelle Anreicherungsanalyse mit dem ORA-Ansatz durchzuführen.
  6. Wählen Sie eine Pfaddatenbank aus. Die Signalwegdatenbank "Reactome 2016" wird häufig verwendet, um die biologische Bedeutung menschlicher Daten zu ermitteln.
  7. Klicken Sie erneut auf den Namen der Pfaddatenbank. Wählen Sie Balkendiagramm und prüfen Sie, ob es nach p-Wert-Rang sortiert ist. Wenn nicht, klicken Sie auf das Balkendiagramm, bis es nach p-Wert sortiert ist. Dieses Balkendiagramm enthält die Top-10-Pfade nach p-Werten.
  8. Drücken Sie die Konfigurationstaste und wählen Sie die rote Farbe für die hochregulierte Genanalyse oder die blaue Farbe für die herunterregulierte Genanalyse. Speichern Sie das Balkendiagramm in verschiedenen Formaten, indem Sie auf svg, png und jpg klicken.
  9. Wählen Sie Tabelle und klicken Sie auf Einträge in die Tabelle exportieren unten links im Balkendiagramm, um die Ergebnisse der funktionalen Anreicherungsanalyse in einer txt-Datei zu erhalten.
    HINWEIS: Diese Ergebnisdatei zur funktionellen Anreicherung umfasst in jeder Zeile den Namen eines Signalwegs, die Anzahl der überlappenden Gene zwischen der eingereichten DEG-Liste und dem Signalweg, den p-Wert, den angepassten p-Wert, das Odds Ratio, den kombinierten Score und das Gensymbol der in der DEG-Liste vorhandenen Gene, die an dem Signalweg teilnehmen.
  10. Wiederholen Sie die gleichen Schritte mit der Liste der anderen DEGs.
    HINWEIS: Die Analyse mit herunterregulierten DEGs liefert Signalwege, die für herunterregulierte Gene angereichert sind, und die Analyse mit herunterregulierten Genen liefert Signalwege, die für hochregulierte Gene angereichert sind.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die Rechenumgebung für Transkriptomanalysen wurde auf der Docker-Plattform erstellt und konfiguriert. Dieser Ansatz ermöglicht es Linux-Anfängern, Linux-Terminalsysteme ohne a priori Managementkenntnisse zu verwenden. Die Docker-Plattform verwendet die Ressourcen des Hostbetriebssystems, um einen Dienstcontainer zu erstellen, der die Tools bestimmter Benutzer enthält (Abbildung 1B). Ein Container basierend auf der Linux OS Ubuntu 20.04 Distribution wurde erstellt und vollständig für transkriptomische Analysen konfiguriert, die über ein Kommandozeilenterminal zugänglich sind. In diesem Container befindet sich eine vordefinierte Ordnerstruktur für Datensätze und Skripte, die für alle Pipeline-Analysen notwendig ist (Abbildung 1C). Eine von unserer Forschungsgruppe7 veröffentlichte Studie wurde für Analysen verwendet und umfasste 20 Proben von gesunden Personen und 39 Proben von CHIKV akut infizierten Personen (Abbildung 1D).

Der Prozess der Gesamt-RNA-Sequenzierung kann Lesefehler erzeugen, die durch einen Cluster mit zwei oder mehr Transkripten oder die Erschöpfung von Reagenzien verursacht werden können. Die Sequenzierungsplattformen geben einen Satz von "FASTQ"-Dateien zurück, die die Sequenz (gelesen) und die zugehörige Qualität für jede Nukleotidbase enthalten (Abbildung 2A). Die Phred-Qualitätsskala gibt die Wahrscheinlichkeit eines falschen Messwerts jeder Basis an (Abbildung 2B). Lesevorgänge von geringer Qualität können eine Verzerrung oder eine falsche Genexpression erzeugen, was zu sukzessiven Fehlern bei nachgelagerten Analysen führt. Tools wie Trimmomatic wurden entwickelt, um Lesevorgänge von geringer Qualität aus Stichproben zu identifizieren und zu entfernen und die Wahrscheinlichkeit von Mapping-Lesevorgängen zu erhöhen (Abbildung 2C,D).

Das Mapping-Modul wurde mit dem STAR-Aligner und dem menschlichen Wirt GRCh38 als Referenzgenom vorkonfiguriert. In diesem Schritt werden die aus dem vorherigen Schritt gewonnenen hochwertigen Messwerte als Eingabe verwendet, um sich am menschlichen Referenzgenom auszurichten (Abbildung 3A). STAR Aligner gibt eine Ausrichtung der zugeordneten Lesevorgänge auf ein Referenzgenom in der BAM-Formatdatei aus. Basierend auf dieser Ausrichtung führt das FeatureCounts-Werkzeug die Annotation von Features (Genen) dieser ausgerichteten Lesevorgänge unter Verwendung der Referenzanmerkung des menschlichen Hosts im GTF-Dateiformat durch (Abbildung 3B). Schließlich wird die Expressionsmatrix mit jedem Gennamen als eine Zeile und jeder Probe als eine Spalte erzeugt (Abbildung 3C). Eine zusätzliche Metadatendatei mit den Probennamen und den entsprechenden Stichprobengruppen muss ebenfalls für die weitere nachgelagerte Analyse bereitgestellt werden. Die Genexpressionsmatrix stellt die Anzahl der Zählungen dar, die jedem Gen in den Proben zugeordnet sind und als EdgeR-Eingabe zur Identifizierung von DEGs verwendet werden können. Darüber hinaus wurde diese Genexpressionsmatrix mit TMM und CPM normalisiert, um die technische Variabilität zu beseitigen und die RNA-seq-Messung zu korrigieren, indem der Anteil der exprimierten Gene an der gesamten Bibliotheksgröße zwischen den Proben berücksichtigt wurde. Diese Matrix wurde weiterhin als Input für Co-Expressions- und MDP-Analysen verwendet.

CEMiTool identifiziert und analysiert die Co-Expression-Module12. Gene, die sich im selben Modul befinden, werden koexprimiert, was bedeutet, dass sie ähnliche Expressionsmuster in den Proben des Datensatzes aufweisen. Dieses Tool ermöglicht auch die Untersuchung der biologischen Bedeutung jedes identifizierten Moduls. Hierfür bietet es drei optionale Analysen - die funktionale Anreicherungsanalyse durch GSEA, die funktionale Anreicherungsanalyse durch die Überrepräsentationsanalyse (ORA) und die Netzwerkanalyse. Die funktionelle Anreicherungsanalyse durch GSEA liefert Informationen über die Genexpression jedes Moduls an jedem Phänotyp (Abbildung 4A). Demnach ermöglicht es die Identifizierung der Module, die bei jedem Phänotyp unterdrückt oder induziert werden. Die ORA-Analyse zeigt die Top 10 der signifikant angereicherten biologischen Funktionen jedes Moduls sortiert nach angepassten p-Werten. Es ist möglich, die GSEA- und ORA-Ergebnisse zu kombinieren, um beeinträchtigte biologische Prozesse zu identifizieren und festzustellen, ob sie durch den interessierenden Phänotyp unterdrückt oder induziert werden. Netzwerkanalysen liefern ein Interaktom jedes Moduls (Abbildung 4A). Es ermöglicht die Visualisierung, wie Gene jedes Moduls interagieren. Darüber hinaus liefert die Netzwerkanalyse Informationen über die am stärksten vernetzten Gene, die Hubs, die durch ihre Namen im Netzwerk identifiziert werden. Die Größe der Knoten stellt den Grad der Konnektivität dar.

Um DEGs zu identifizieren, wurde ein internes Skript entwickelt, um eine End-to-End-Differentialanalyse in einer einseitigen und prägnanten Befehlszeile auszuführen. Das Skript führt alle Schritte aus, die zur Durchführung einer DEG-Analyse erforderlich sind, und vergleicht verschiedene vom Benutzer bereitgestellte Stichprobengruppen in einer Metadatendatei. Darüber hinaus werden die DEG-Ergebnisse in separaten Listen herunterregulierter und hochregulierter Gene gespeichert und dann in einer publikationsreifen Abbildung (Abbildung 4B) mit dem EnhancedVolcano R-Paket von Bioconductor zusammengestellt.

Die Analyse des molekularen Störungsgrades, die mit dem MDP-Tool durchgeführt wird, ermöglicht es uns, gestörte Proben von gesunden und infizierten Personen zu identifizieren11. Der Störungswert wird unter Berücksichtigung aller exprimierten Gene für jede CHIKV-infizierte Probe und unter Berücksichtigung der gesunden Proben als Referenzgruppe berechnet (Abbildung 5A). MDP führt die Analyse auch nur mit den besten 25% der am stärksten gestörten Gene aus diesen Proben durch (Abbildung 5B). Proben können angesichts des genetischen Hintergrunds, des Alters, des Geschlechts oder anderer früherer Krankheiten eine große Variabilität aufweisen. Diese Faktoren können das Transkriptomprofil verändern. Auf dieser Grundlage schlägt MDP vor, welche Proben potenzielle biologische Ausreißer sind, um sie zu entfernen und die nachgelagerten Ergebnisse zu verbessern (Abbildung 5A,B).

Eine funktionelle Anreicherungsanalyse durch ORA kann mit Enrichr durchgeführt werden, um die biologische Bedeutung von DEGs zu identifizieren. Die Ergebnisse, die auf der Grundlage der Liste der herunterregulierten Gene bereitgestellt werden, zeigen die unterdrückten biologischen Prozesse im untersuchten Phänotyp an, während die Ergebnisse, die auf der Liste der hochregulierten Gene basieren, die biologischen Prozesse darstellen, die im interessierenden Phänotyp induziert werden. Die biologischen Prozesse, die im von Enrichr erzeugten Balkendiagramm dargestellt sind, sind die Top 10 angereicherten Gensätze basierend auf dem p-Wert-Ranking (Abbildung 6).

Figure 1
Abbildung 1: Umgebungs-Docker und Beispielstudie. (A) Die Docker-Plattform verwendet die OS-Host-Ressourcen, um "Container" für das Linux-System zu erstellen, die Werkzeuge für Transkriptomanalysen enthalten. (B) Der Docker Container simuliert ein Linux-System zur Ausführung von Pipeline-Skripten. (C) Die Transkriptom-Pipeline-Ordnerstruktur wurde erstellt und organisiert, um Datensätze und Skripte für die Analyse zu speichern. (D) Die Studie aus unserer Gruppe wurde als Beispiel für Transkriptomanalysen verwendet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 2
Abbildung 2: Qualitätskontrolle der Sequenzierung. (A) Die FastQ-Formatdatei wird verwendet, um die Sequenz- und Nukleotidbasisqualität darzustellen. (B) Phred-Score-Gleichung, bei der jede 10 eine logarithmische Wahrscheinlichkeit einer fehlgelesenen Basis erhöht. (C) und (D) Der Boxplot stellt eine Qualitätsverteilung jeder Nukleotidbasis vor bzw. nach der Trimmomatic-Ausführung dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 3
Abbildung 3: Mapping- und Annotationsprozess von der Sequenz bis zur Genzählungsexpression. (A) Das Mapping besteht darin, die Sequenz aus dem Transkript und die Sequenz aus dem Genom auszurichten, um die genomische Lokalisierung zu identifizieren. (B) Kartierte Lesevorgänge auf das Referenzgenom werden basierend auf ihrer genomischen Lokalisierung von Überlappungen annotiert. (C) Basierend auf den Mapping-Datei-Tools wie featureCounts wird die Genexpression zusammengefasst. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 4
Abbildung 4: Co-exprimiertes Gennetzwerk und statistische Analyse von DEGs. (A) Module der Co-Expression basierend auf Genexpression und dem Protein-Protein-Interaktionsnetzwerk aus Modulgenen. (B) Statistische Analyse von CHIKV akut infizierten und gesunden Personen und differentielle Genexpression in Rot (p-Wert und log2FC-Kriterien), Lila (nur p-Wert), Grün (nur log2FC) und Grau (keine Signifikanz). Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 5
Abbildung 5: Molekularer Grad der Störung (MDP) von CHIKV akut infizierten und gesunden Personen. (A) MDP-Score für jede Probe unter Verwendung aller exprimierten Gene aus dem Transkriptom. (B) MDP-Score für jede Probe, wobei nur die obersten 25% der am stärksten gestörten Gene verwendet werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Figure 6
Abbildung 6: Funktionelle Analyse für DEGs. (A) Hochregulierte und (B) herunterregulierte Gene wurden an das Enrichr-Website-Tool übermittelt, um biologische Signalwege oder repräsentative Gensätze zu bewerten. Für jeden Signalweg wurden P-Werte berechnet und nur signifikante Unterschiede in der Grafik dargestellt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Die Aufbereitung der Sequenzierbibliotheken ist ein entscheidender Schritt, um biologische Fragestellungen bestmöglich zu beantworten. Die Art der Transkripte, die für die Studie von Interesse sind, wird bestimmen, welche Art von Sequenzierungsbibliothek ausgewählt wird, und bioinformatische Analysen vorantreiben. Zum Beispiel ist es aus der Sequenzierung einer Pathogen- und Wirtsinteraktion je nach Art der Sequenzierung möglich, Sequenzen aus beiden oder nur aus den Wirtstranskripten zu identifizieren.

Next-Generation-Sequencing-Geräte, z. B. die Illumina-Plattform, messen die Sequenzierungsqualitätswerte, die für die Wahrscheinlichkeit stehen, dass eine Basis falsch aufgerufen wird. Die nachgelagerten Analysen reagieren sehr empfindlich auf Sequenzen von geringer Qualität und führen zu einer unzureichenden oder falsch gelesenen Genexpression. Eine weitere Hürde bei der Durchführung korrekter Analysen und Interpretationen sind Adaptersequenzen. Adaptersequenzen helfen bei der Bibliotheksvorbereitung und -sequenzierung, und in den meisten Fällen werden auch Adapter sequenziert. Jüngste Studien haben ergeben, dass die Auswirkungen des Mapping-Tools auf die Endergebnisse minimal sind13. In Pathogen-Wirt-Studien kann der Mapping-Prozess jedoch etwas bessere Ergebnisse erzielen, wenn verschiedene Schwellenwerte getestet werden, um das Problem der Multi-Mappus-Locus-Sequenzen zu minimieren.

Differentielle Genexpressionsergebnisse sollten mit einer gewissen Vorsicht interpretiert werden, insbesondere wenn die Anzahl der Proben pro Gruppe sehr gering ist und die Proben aus verschiedenen Assays stammen und die DEGs durch Batch-Effekte interferieren. Diese Ergebnisse sind empfindlich gegenüber mehreren Faktoren: (i) der angewandten Datenfilterung, wie z. B. der Entfernung niedrig exprimierter Gene und der Anzahl der zu pflegenden Proben; (ii) Studiendesign, um nur zwischen Stichprobengruppen oder jedem infizierten Patienten mit allen Kontrollpatienten zu vergleichen, wie in der CHIKV-Studie7 dargestellt; und (iii) statistische Methode zur Identifizierung von DEGs. Hier veranschaulichen wir ein einfaches Beispiel mit EdgeR, um DEGs zu identifizieren, die einen Schwellenwert p-Wert von 0,05 annehmen. In der Literatur ist auch bekannt, dass EdgeR im Vergleich zu anderen Benchmark-Methoden eine große Variabilität bei der Identifizierung von DEGs aufweisen kann14. Man könnte den Kompromiss zwischen solchen verschiedenen Methoden in Betracht ziehen und die Anzahl der verfügbaren Replikate und die Komplexität des experimentellen Designs berücksichtigen14.

CEMiTool führt Co-Expression-Modulanalysen durch12. Dieses Tool ist über das R-Paket im Bioconductor-Repository verfügbar und es ist auch in einer benutzerfreundlichen Version über webCEMiTool verfügbar. Letzteres ist die Version, die in diesem aktuellen Protokoll verwendet wird. Dies ist eine alternative Software in Bezug auf WGCNA15 , die im Vergleich zu WGCNA15 mehrere Vorteile bietet16, einschließlich der Tatsache, dass sie benutzerfreundlicher ist17. Darüber hinaus verfügt dieses Tool über eine automatische Methode zum Filtern von Genen, während der Benutzer in WGCNA die Gene vor der Verwendung von WGCNA filtern muss. Darüber hinaus hat dieses Tool Standardparameter festgelegt, während in WGCNA der Benutzer die Parameteranalysen manuell auswählen muss. Manuelle Parameterauswahl beeinträchtigt die Reproduzierbarkeit; Daher garantiert die automatische Parameterauswahl eine verbesserte Reproduzierbarkeit.

In bestimmten Fällen ist CEMiTool nicht in der Lage, einen geeigneten Soft-Threshold, auch β-Wert genannt, zu finden. In diesem Fall sollte der Anwender prüfen, ob die RNA-seq-Daten eine starke Mean-Varianz-Abhängigkeit aufweisen. Wenn der Mittelwert eine starke lineare Beziehung zur Varianz aufweist (unter Berücksichtigung aller Gene), muss der Benutzer die Analysen erneut ausführen, um den Parameter "Apply VST" zu überprüfen, um die Mittelwert-Varianz-Abhängigkeit der transkriptomischen Daten zu entfernen. Es ist immer wichtig zu überprüfen, ob eine starke Mean-Varianz-Abhängigkeit in den Daten besteht und sie zu entfernen, wenn sie vorhanden ist.

CEMiTool wurde häufig verwendet, um die biologische Bedeutung von Co-Expressionsmodulen zu identifizieren und zu erforschen. Eine CHIKV-Studie zur akuten Infektion zeigte ein Modul mit höherer Aktivität bei Patienten nach 2 bis 4 Tagen nach Auftreten der Symptome7. Die funktionelle Anreicherung dieses Moduls durch ORA zeigte eine Zunahme von Monozyten und Neutrophilen7. Eine Influenza-Impfstudie mit Bluttranskriptomen vom Ausgangswert bis zum Tag 7 nach der Impfung präsentierte Koexpressionsmodule, die funktionell angereichert für biologische Prozesse im Zusammenhang mit T, B und natürlichen Killerzellen, Monozyten, Neutrophilen, Interferonreaktionen und Thrombozytenaktivierung18.

In Anbetracht der Variabilität von transkriptomischen Datensätzen kann die Identifizierung und Quantifizierung der Datenheterogenität eine Herausforderung darstellen, da viele Variablen das Genexpressionsprofil beeinflussen können7,11. MDP bietet eine Möglichkeit, gestörte Proben von gesunden und infizierten Probanden zu identifizieren und zu quantifizieren, indem die folgenden Schritte ausgeführt werden: (i) Berechnen sie eine Zentralitätsmethode (Median oder Mittelwert) und eine Standardabweichung der Kontrollproben; (ii) verwenden Sie die erhaltenen Werte, um den Z-Score aller Gene zu berechnen; iii) einen Schwellenwert für den Z-Score absolut größer als 2 festlegen, was auf repräsentative Abweichungen von Kontrollproben hinweist; und (iv) den Durchschnitt der Genwerte unter Verwendung der für jede Probe gefilterten Werte berechnen. Trotz einiger Einschränkungen für die scRNA-seq-Analyse war dieses Tool funktionell bei der Bestimmung des Störungsscores aus Microarray- und RNA-seq-Daten11. Darüber hinaus hat eine frühere Studie dieses Instrument verwendet, um den molekularen Grad der Störung zu demonstrieren, der auf das Bluttranskriptom bei Tuberkulose- und Diabetes-mellitus-Patienten erhöht ist19. In dieser Arbeit wurde die Störung von Kontroll- und CHIKV-akut infizierten Proben mit gesunden Individuen als Referenzgruppe gezeigt.

Die von Enrichr durchgeführte funktionelle Anreicherungsanalyse ist die ORA20,21. ORA ist eine Art der funktionalen Anreicherungsanalyse, bei der der Benutzer dem Tool die Liste der DEGs zur Verfügung stellen muss. Die Liste der DEGs ist in der Regel in einer herunterregulierten DEG-Liste und in einer nachregulierten DEG-Liste getrennt. Es gibt weitere Tools zur Durchführung von ORA, darunter den gProfiler, der in einer benutzerfreundlichen Webversion22 verfügbar ist, und den goseq23, der als R-Paket auf Bioconductor verfügbar ist. Eine andere Art der funktionellen Anreicherungsanalyse ist GSEA. Um GSEA durchzuführen, muss der Benutzer alle Gene in einer Rangliste angeben. Diese Liste wird normalerweise nach der Genexpression im Faltenwechsel geordnet.

Enrichr liefert immer die Top 10 Gensätze, die basierend auf ihren p-Werten im Balkendiagrammergebnis angereichert sind. Daher muss der Benutzer bei der Interpretation der Ergebnisse wachsam sein, wenn es weniger als 10 angereicherte Gensätze gibt, zeigt das Balkendiagramm auch nicht angereicherte biologische Prozesse. Um diesen Fehler zu vermeiden, muss der Benutzer einen Cutoff für den p-Wert festlegen und die p-Werte der Signalwege beobachten, bevor er annimmt, dass alle Gensätze des Balkendiagramms angereichert sind. Darüber hinaus muss sich der Benutzer darüber im Klaren sein, dass die Reihenfolge der 10 im Balkendiagramm angezeigten Gensätze den p-Werten entspricht, nicht den angepassten p-Werten. Falls der Benutzer alle angereicherten Pfade in einem Balkendiagramm anzeigen oder sogar entsprechend der angepassten p-Werte neu anordnen möchte, wird empfohlen, dass der Benutzer sein eigenes Balkendiagramm mit der heruntergeladenen Tabelle erstellt. Der Benutzer kann ein neues Balkendiagramm mit Excel oder sogar R-Software erstellen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts preiszugeben.

Acknowledgments

HN wird von FAPESP (Fördernummern: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 und 2013/08216-2) und CNPq (313662/2017-7) finanziert.

Besonders dankbar sind wir für folgende Stipendien für Fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) und RLTO (CNPq Process 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

Immunologie und Infektion Ausgabe 181 Hochdurchsatzsequenzierung RNA-seq Wirt-Pathogen-Interaktion differentiell exprimierte Gene koexprimierte Gene Funktionsanalyse molekularer Störungsgrad von Proben
Hochdurchsatz-Transkriptomanalyse zur Untersuchung von Wirt-Pathogen-Interaktionen
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter