Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Transcriptoomanalyse met hoge doorvoer voor het onderzoeken van gastheer-pathogeeninteracties

Published: March 5, 2022 doi: 10.3791/62324

Summary

Het hier gepresenteerde protocol beschrijft een complete pijplijn om RNA-sequencing transcriptoomgegevens te analyseren, van ruwe reads tot functionele analyse, inclusief kwaliteitscontrole en voorbewerkingsstappen tot geavanceerde statistische analytische benaderingen.

Abstract

Pathogenen kunnen een breed scala aan infectieziekten veroorzaken. De biologische processen die door de gastheer worden geïnduceerd als reactie op infectie bepalen de ernst van de ziekte. Om dergelijke processen te bestuderen, kunnen onderzoekers high-throughput sequencing-technieken (RNA-seq) gebruiken die de dynamische veranderingen van het gastheertranscriptoom meten in verschillende stadia van infectie, klinische uitkomsten of ernst van de ziekte. Dit onderzoek kan leiden tot een beter begrip van de ziekten, evenals het blootleggen van potentiële medicijndoelen en behandelingen. Het hier gepresenteerde protocol beschrijft een complete pijplijn om RNA-sequencinggegevens van onbewerkte reads tot functionele analyse te analyseren. De pijplijn is verdeeld in vijf stappen: (1) kwaliteitscontrole van de gegevens; (2) in kaart brengen en annoteren van genen; (3) statistische analyse om differentieel tot expressie gebrachte genen en mede-tot expressie gebrachte genen te identificeren; (4) bepaling van de moleculaire mate van verstoring van monsters; en (5) functionele analyse. Stap 1 verwijdert technische artefacten die van invloed kunnen zijn op de kwaliteit van downstream-analyses. In stap 2 worden genen in kaart gebracht en geannoteerd volgens standaard bibliotheekprotocollen. De statistische analyse in stap 3 identificeert genen die differentieel tot expressie komen of co-tot expressie komen in geïnfecteerde monsters, in vergelijking met niet-geïnfecteerde monsters. Monstervariabiliteit en de aanwezigheid van potentiële biologische uitschieters worden geverifieerd met behulp van de moleculaire mate van verstoringsbenadering in stap 4. Ten slotte onthult de functionele analyse in stap 5 de routes die verband houden met het fenotype van de ziekte. De gepresenteerde pijplijn is bedoeld om onderzoekers te ondersteunen door middel van de RNA-seq data-analyse van gastheer-pathogeeninteractiestudies en toekomstige in vitro of in vivo experimenten te stimuleren, die essentieel zijn om het moleculaire mechanisme van infecties te begrijpen.

Introduction

Arbovirussen, zoals dengue, gele koorts, chikungunya en zika, zijn op grote schaal geassocieerd met verschillende endemische uitbraken en zijn naar voren gekomen als een van de belangrijkste pathogenen die verantwoordelijk zijn voor het infecteren van mensen in de afgelopen decennia1,2. Personen die besmet zijn met het chikungunya-virus (CHIKV) hebben vaak koorts, hoofdpijn, huiduitslag, polyartriagie en artritis3,4,5. Virussen kunnen de genexpressie van de cel ondermijnen en verschillende signaalroutes van de gastheer beïnvloeden. Onlangs gebruikten bloedtranscriptoomstudies RNA-seq om de differentieel tot expressie gebrachte genen (DEG's) geassocieerd met acute CHIKV-infectie te identificeren in vergelijking met herstel6 of gezonde controles7. CHIKV-geïnfecteerde kinderen hadden up-gereguleerde genen die betrokken zijn bij aangeboren immuniteit, zoals die met betrekking tot cellulaire sensoren voor viraal RNA, JAK / STAT-signalering en toll-like receptorsignaleringsroutes6. Volwassenen die acuut geïnfecteerd waren met CHIKV vertoonden ook inductie van genen die verband houden met aangeboren immuniteit, zoals die gerelateerd zijn aan monocyten en dendritische celactivatie, en aan antivirale responsen7. De signaalroutes verrijkt met down-gereguleerde genen omvatten die met betrekking tot adaptieve immuniteit, zoals T-celactivatie en differentiatie en verrijking in T- en B-cellen7.

Verschillende methoden kunnen worden gebruikt om transcriptoomgegevens van gastheer- en pathogene genen te analyseren. Vaak begint de voorbereiding van de RNA-seq-bibliotheek met de verrijking van volwassen poly-A-transcripten. Deze stap verwijdert het grootste deel van het ribosomale RNA (rRNA) en in sommige gevallen virale / bacteriële RNA's. Wanneer de biologische vraag echter betrekking heeft op de pathogene transcriptdetectie en RNA onafhankelijk van de vorige selectie wordt gesequenced, kunnen veel andere verschillende transcripten worden gedetecteerd door sequencing. Van subgenomische mRNA's is bijvoorbeeld aangetoond dat ze een belangrijke factor zijn om de ernst van de ziekten te verifiëren8. Bovendien genereren voor bepaalde virussen zoals CHIKV en SARS-CoV-2 zelfs poly-A verrijkte bibliotheken virale reads die kunnen worden gebruikt in downstream-analyses9,10. Wanneer gericht op de analyse van het gastheertranscriptoom, kunnen onderzoekers de biologische verstoring over monsters onderzoeken, differentieel tot expressie gebrachte genen en verrijkte pathways identificeren en co-expressiemodules genereren7,11,12. Dit protocol belicht transcriptoomanalyses van CHIKV-geïnfecteerde patiënten en gezonde personen met behulp van verschillende bioinformatische benaderingen (figuur 1A). Gegevens van een eerder gepubliceerde studie7 bestaande uit 20 gezonde en 39 CHIKV acuut geïnfecteerde personen werden gebruikt om de representatieve resultaten te genereren.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

De monsters die in dit protocol werden gebruikt, werden goedgekeurd door de ethische commissies van zowel de afdeling Microbiologie van het Instituut voor Biomedische Wetenschappen van de Universiteit van São Paulo als de Federale Universiteit van Sergipe (Protocollen: respectievelijk 54937216.5.0000.5467 en 54835916.2.0000.5546).

1. Docker desktop installatie

OPMERKING: De stappen om de Docker-omgeving voor te bereiden verschillen tussen de besturingssystemen (besturingssystemen). Daarom moeten Mac-gebruikers de stappen 1.1 volgen, Linux-gebruikers moeten stappen volgen die worden vermeld als 1.2 en Windows-gebruikers moeten stappen volgen die worden vermeld als 1.3.

  1. Installeer op MacOS.
    1. Ga naar de Get Docker-website (Tabel met materialen), klik op Docker Desktop voor Mac en klik vervolgens op de link Downloaden van Docker Hub .
    2. Download het installatiebestand door op de knop Docker ophalen te klikken.
    3. Voer het bestand Docker.dmg uit om het installatieprogramma te openen en sleep het pictogram naar de map Programma's . Lokaliseer en voer de Docker.app in de map Programma's uit om het programma te starten.
      OPMERKING: Het softwarespecifieke menu in de bovenste statusbalk geeft aan dat de software wordt uitgevoerd en dat deze toegankelijk is vanaf een terminal.
  2. Installeer het containerprogramma op het Linux-besturingssysteem.
    1. Ga naar de Get Docker Linux-website (Tabel met materialen) en volg de instructies voor het installeren met behulp van de repository-sectie die beschikbaar is op de Docker Linux Repository-koppeling .
    2. Werk alle Linux-pakketten bij via de opdrachtregel:
      sudo apt-get update
    3. Installeer de vereiste pakketten op Docker:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. Maak een software archief sleutelhangerbestand:
      krul -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. Voeg Docker deb-informatie toe aan het bestand source.list:
      echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Werk alle pakketten opnieuw bij, inclusief de pakketten die onlangs zijn toegevoegd:
      sudo apt-get update
    7. Installeer de desktopversie:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. Selecteer het geografische gebied en de tijdzone om het installatieproces te voltooien.
  3. Installeer het containerprogramma op het Windows-besturingssysteem.
    1. Ga naar de Get Docker-website (Tabel met materialen) en klik op Aan de slag. Zoek het installatieprogramma voor Docker Desktop voor Windows. Download de bestanden en installeer ze lokaal op de computer.
    2. Start na het downloaden het installatiebestand (.exe) en behoud de standaardparameters. Zorg ervoor dat de twee opties Vereiste Windows-onderdelen installeren voor WSL 2 en Snelkoppeling toevoegen aan bureaublad zijn gemarkeerd.
      OPMERKING: In sommige gevallen, wanneer deze software de service probeert te starten, wordt er een fout weergegeven: de installatie van WSL is onvolledig. Om deze fout te achterhalen, gaat u naar de website WSL2-Kernel (Table of Materials).
    3. Download en installeer de nieuwste WSL2 Linux kernel.
    4. Open de PowerShell-terminal als beheerder en voer de opdracht uit:
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Zorg ervoor dat de software Docker Desktop met succes is geïnstalleerd.
  4. Download de afbeelding van de CSBL-repository op de Docker-hub (Table of Materials).
    1. Open het Docker-bureaublad en controleer of de status 'actief' is linksonder op de werkbalk.
    2. Ga naar de opdrachtregel van de Windows PowerShell-terminal. Download de Linux Container-installatiekopie voor dit protocol uit de CSBL-opslagplaats op de Docker-hub. Voer de volgende opdracht uit om de afbeelding te downloaden:
      docker pull csblusp/transcriptoom
      OPMERKING: Na het downloaden van de afbeelding is het bestand te zien in de Docker Desktop. Om de container te maken, moeten Windows-gebruikers stap 1.5 volgen, terwijl Linux-gebruikers stap 1.6 moeten volgen.
  5. Initialiseer de servercontainer op het Windows-besturingssysteem.
    1. Bekijk het Docker-afbeeldingsbestand in de Desktop App-manager via de Toolbar en open de pagina Afbeeldingen.
      OPMERKING: Als de pijplijnimage met succes is gedownload, is er een csblusp/transcriptoomafbeelding beschikbaar.
    2. Start de container vanaf de csblusp/transcriptoomafbeelding door op de knop Uitvoeren te klikken. Vouw de optionele instellingen uit om de container te configureren.
    3. Definieer de containernaam (bijvoorbeeld server).
    4. Koppel een map op de lokale computer aan de map in het docker. Hiertoe bepaalt u het hostpad. Stel een map in op de lokale computer om de verwerkte gegevens op te slaan die aan het einde worden gedownload. Stel het containerpad in. Definieer en koppel de containermap csblusp/transcriptome aan het lokale machinepad (gebruik de naam "/opt/transferdata" voor het containerpad).
    5. Klik hierna op Uitvoeren om de csblusp / transcriptoomcontainer te maken.
    6. Om toegang te krijgen tot de Linux-terminal vanaf de csblusp/transcriptome-container, klikt u op de CLI-knop.
    7. Typ de bash-terminal in voor een betere ervaring. Voer hiervoor de opdracht uit:
      Bash
    8. Nadat u de opdracht bash hebt uitgevoerd, moet u ervoor zorgen dat de terminal wordt weergegeven (root@:/#):
      root@ac12c583b731:/ #
  6. Initialiseer de servercontainer voor Linux OS.
    1. Voer deze opdracht uit om de Docker-container te maken op basis van de installatiekopie:
      docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
      OPMERKING: : definieer een pad van de lokale mapmachine.
    2. Voer deze opdracht uit om toegang te krijgen tot de opdrachtterminal van de Docker-container:
      docker exec -it server bash
    3. Zorg voor de beschikbaarheid van een Linux-terminal om programma's/scripts uit te voeren via de opdrachtregel.
    4. Nadat u de opdracht bash hebt uitgevoerd, moet u ervoor zorgen dat de terminal wordt weergegeven (root@:/#):
      root@ac12c583b731:/ #
      OPMERKING: Het root wachtwoord is standaard "transcriptome". Indien gewenst kan het root-wachtwoord worden gewijzigd door de opdracht uit te voeren:
      Passwd
    5. Voer eerst de bronopdracht uit om addpath.sh om ervoor te zorgen dat alle tools beschikbaar zijn. Voer de opdracht uit:
      bron /opt/addpath.sh
  7. Controleer de structuur van de map RNA-sequencing.
    1. Open de map transcriptome pipeline scripts en zorg ervoor dat alle gegevens van RNA-sequencing worden opgeslagen in de map: /home/transcriptome-pipeline/data.
    2. Zorg ervoor dat alle resultaten van de analyse zijn opgeslagen in de map van het pad /home/transcriptome-pipeline/results.
    3. Zorg ervoor dat genoom- en annotatiereferentiebestanden worden opgeslagen in de map van het pad /home/transcriptome-pipeline/datasets. Deze bestanden zullen helpen om alle analyses te ondersteunen.
    4. Zorg ervoor dat alle scripts zijn opgeslagen in de map van het pad /home/transcriptome-pipeline/scripts en gescheiden door elke stap zoals hieronder beschreven.
  8. Download de annotatie en het menselijk genoom.
    1. Open de map scripts:
      cd /home/transcriptome-pipeline/scripts
    2. Voer deze opdracht uit om het referentie menselijk genoom te downloaden:
      bash downloadGenome.sh
    3. Als u de annotatie wilt downloaden, voert u de opdracht uit:
      bash downloadAnnotation.sh
  9. Wijzig de annotatie of de versie van het referentiegenoom.
    1. Open downloadAnnotation.sh en downloadGenome.sh om de URL van elk bestand te wijzigen.
    2. Kopieer de downloadAnnotation.sh- en downloadGenome.sh bestanden naar het overdrachtsgebied en bewerk ze in het lokale besturingssysteem.
      cd /home/transcriptome-pipeline/scripts
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Open de map Hostpad , die in stap 1.5.4 is geselecteerd om een koppeling te maken tussen host en Docker-container.
    4. Bewerk de bestanden met de gewenste editorsoftware en sla deze op. Plaats ten slotte de gewijzigde bestanden in de scriptmap. Voer de opdracht uit:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      OPMERKING: Deze bestanden kunnen rechtstreeks worden bewerkt met behulp van vim of nano Linux editor.
  10. Configureer vervolgens de fastq-dump tool met de opdrachtregel:
    vdb-config --interactief
    OPMERKING: Hiermee kunt u sequencingbestanden downloaden van de voorbeeldgegevens.
    1. Navigeer op de pagina Extra met de tabtoets en selecteer de huidige mapoptie. Navigeer naar de optie Opslaan en klik op OK. Sluit vervolgens de fastq-dump tool af.
  11. Start het downloaden van de lezingen uit het eerder gepubliceerde artikel7. Het SRA-toetredingsnummer van elk monster is vereist. Verkrijg de SRA-nummers van de SRA NCBI-website (Tabel met materialen).
    OPMERKING: Volg stap 1.12 om RNA-seq-gegevens te analyseren die beschikbaar zijn in openbare databases. Volg stap 1.13 om privé RNA-seq-gegevens te analyseren.
  12. Analyseer specifieke openbare gegevens.
    1. Ga naar de website van het National Center for Biotechnology Information (NCBI) en zoek trefwoorden voor een specifiek onderwerp.
    2. Klik op de resultaatlink voor BioProject in de sectie Genomes .
    3. Kies en klik op een specifieke studie. Klik op de SRA Experimenten. Er wordt een nieuwe pagina geopend met alle voorbeelden die beschikbaar zijn voor dit onderzoek.
    4. Klik op het "Verzenden naar:" boven het toetredingsnummer. Selecteer in de optie "Kies bestemming" de optie Bestand en indeling , selecteer RunInfo. Klik op "Bestand maken" om alle bibliotheekinformatie te exporteren.
    5. Sla het bestand SraRunInfo.csv op in het hostpad dat is gedefinieerd in stap 1.5.4 en voer het downloadscript uit:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-pipeline/scripts
      bash downloadAllLibraries.sh
  13. Analyseer privé- en ongepubliceerde sequencinggegevens.
    1. Organiseer de sequencinggegevens in een map met de naam Reads.
      OPMERKING: Maak in de map Reads één map voor elk voorbeeld. Deze mappen moeten voor elk voorbeeld dezelfde naam hebben. Voeg gegevens van elk voorbeeld toe in de map. In het geval dat het een gepaarde RNA-Seq is, moet elke sample directory twee FASTQ-bestanden bevatten, die namen moeten bevatten die eindigen volgens de patronen {sample}_1.fastq.gz en {sample}_2.fastq.gz, forward en reverse sequences, respectievelijk. Een voorbeeld met de naam 'Healthy_control' moet bijvoorbeeld een map met dezelfde naam en FASTQ-bestanden met de naam Healthy_control_1.fastq.gz en Healthy_control_2.fastq.gz hebben. Als de bibliotheekvolgorde echter een single-end strategie is, mag slechts één leesbestand worden opgeslagen voor downstream-analyse. Hetzelfde voorbeeld, "Gezond besturingselement", moet bijvoorbeeld een uniek FASTQ-bestand hebben met de naam Healthy_control.fastq.gz.
    2. Maak een fenotypisch bestand met alle voorbeeldnamen: geef de eerste kolom de naam 'Voorbeeld' en de tweede kolom 'Klasse'. Vul de kolom Voorbeeld met monsternamen, die dezelfde naam moeten hebben voor de voorbeeldmappen en vul de kolom Klasse met de fenotypische groep van elk monster (bijvoorbeeld controle of geïnfecteerd). Sla ten slotte een bestand op met de naam "metadata.tsv" en stuur het naar de map /home/transcriptome-pipeline/data/. Bekijk de bestaande metadata.tsv om de indeling van het fenotypische bestand te begrijpen.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptoom-pipeline/data/metadata.tsv
    3. Open de map HostPad die is gedefinieerd in stap 1.5.4 en kopieer de voorbeelden van de nieuwe gestructureerde mappen. Verplaats ten slotte de monsters van /opt/transferdata naar de pipeline data directory.
      cp -rf /opt/transferdata/reads/*
      /home/transcriptoom-pipeline/data/reads/
  14. Merk op dat alle reads worden opgeslagen in de map /home/transcriptome-pipeline/data/reads.

2. Kwaliteitscontrole van de gegevens

OPMERKING: Evalueer grafisch de kans op fouten in de sequencing reads. Verwijder alle technische sequenties, bijvoorbeeld adapters.

  1. Krijg toegang tot de sequencingkwaliteit van bibliotheken met de FastQC-tool.
    1. Als u de kwaliteitsgrafieken wilt genereren, voert u het fastqc-programma uit. Voer de opdracht uit:
      bash FastQC.sh
      OPMERKING: De resultaten worden opgeslagen in de map /home/transcriptome-pipeline/results/FastQC. Aangezien sequentieadapters worden gebruikt voor bibliotheekvoorbereiding en sequencing, kunnen in sommige gevallen de fragmenten van de adaptersvolgorde het toewijzingsproces verstoren.
  2. Verwijder de reeks van de adapter en de leesbewerkingen van lage kwaliteit. Open de map Scripts en voer de opdracht voor het gereedschap Trimmomatic uit:
    cd /home/transcriptome-pipeline/scripts
    bash trimmomatic.sh

    OPMERKING: De parameters die worden gebruikt voor het sequentiëren van het filter zijn: Verwijder de leidende lage kwaliteit of 3 bases (onder kwaliteit 3) (LEADING:3); Verwijder trailing lage kwaliteit of 3 bases (onder kwaliteit 3) (TRAILING:3); Scan het lezen met een schuifraam met 4 basissen breed en snijd wanneer de gemiddelde kwaliteit per basis onder de 20 daalt (SLIDINGWINDOW:4:20); en Drop leest onder de 36 bases lang (MINLEN:36). Deze parameters kunnen worden gewijzigd door het Trimmomatic-scriptbestand te bewerken.
    1. Zorg ervoor dat de resultaten worden opgeslagen in de volgende map: /home/transcriptome-pipeline/results/trimreads. Voer de opdracht uit:
      ls /home/transcriptoom-pipeline/results/trimreads

3. In kaart brengen en annoteren van monsters

OPMERKING: Na het verkrijgen van de goede kwaliteit reads, moeten deze worden toegewezen aan het referentiegenoom. Voor deze stap werd de STAR mapper gebruikt om de voorbeeldmonsters in kaart te brengen. De STAR mapper tool vereist 32 GB RAM-geheugen om de reads en genome mapping te laden en uit te voeren. Voor gebruikers die geen 32 GB RAM-geheugen hebben, kunnen reeds toegewezen leesbewerkingen worden gebruikt. Spring in dergelijke gevallen naar stap 3.3 of gebruik de Bowtie2 mapper. Deze sectie bevat scripts voor STAR (resultaten weergegeven in alle figuren) en Bowtie2 (low-memory required mapper).

  1. Indexeer eerst het referentiegenoom voor het karteringsproces:
    1. Open de map Scripts via de opdrachtregel:
      cd /home/transcriptome-pipeline/scripts
    2. Voor STAR mapper, voer het volgende uit:
      bash indexGenome.sh
    3. Voor Bowtie mapper, voer uit:
      bash indexGenomeBowtie2.sh
  2. Voer de volgende opdracht uit om gefilterde leesbewerkingen (verkregen uit stap 2) toe te wijzen aan het referentiegenoom (GRCh38-versie). Zowel STAR- als Bowtie2-mappers worden uitgevoerd met behulp van standaardparameters.
    1. Voor STAR mapper, voer het volgende uit:
      bash mapSTAR.sh
    2. Voor Bowtie2 mapper, voer uit:
      bash mapBowtie2.sh
      OPMERKING: De uiteindelijke resultaten zijn BAM-bestanden (Binary Alignment Map) voor elk monster dat is opgeslagen in /home/transcriptome-pipeline/results/mapreads.
  3. Annoteer toegewezen leesbewerkingen met behulp van het gereedschap FeatureCounts om onbewerkte tellingen voor elk gen te verkrijgen. Voer de scripts uit die aantekeningen maken bij de reads.
    OPMERKING: De tool FeatureCounts is verantwoordelijk voor het toewijzen van toegewezen sequencing-lezingen aan de genomische functies. De belangrijkste aspecten van genoomannotatie die kunnen worden gewijzigd na de biologische vraag zijn onder meer, detectie van isovormen, meerdere in kaart gebrachte reads en exon-exon juncties, overeenkomend met de parameters GTF.attrType = "gene_name" voor gen of niet specificeren van de parameters voor meta-functieniveau, allowMultiOverlap = TRUE en juncCounts = TRUE, respectievelijk.
    1. Open de map scripts via de opdrachtregel:
      cd /home/transcriptome-pipeline/scripts
    2. Als u de toegewezen reads wilt annoteren om ruwe tellingen per gen te verkrijgen, voert u de opdrachtregel uit:
      Rscript-annotatie. R
      OPMERKING: De parameters die werden gebruikt voor het annotatieproces waren: retour gen korte naam (GTF.attrType ="gene_name"); meerdere overlappingen toestaan (allowMultiOverlap = TRUE); en geef aan dat de bibliotheek paired-end is (isPairedEnd=TRUE). Gebruik voor een single-end strategie de parameter isPairedEnd=FALSE. De resultaten worden opgeslagen in de map /home/transcriptome-pipeline/countreads.
  4. Normaliseer genexpressie.
    OPMERKING: Het normaliseren van genexpressie is essentieel om de resultaten tussen uitkomsten (bijv. Gezonde en geïnfecteerde monsters) te vergelijken. Normalisatie is ook vereist om de co-expressie en moleculaire mate van perturbatieanalyses uit te voeren.
    1. Open de map Scripts via de opdrachtregel:
      cd /home/transcriptome-pipeline/scripts
    2. Normaliseer de genexpressie. Voer hiervoor de opdrachtregel uit:
      Rscript normaliseertamples. R
      OPMERKING: De expressie van de onbewerkte tellingen in dit experiment werd genormaliseerd met behulp van de methoden Trimmed Mean of M-values (TMM) en Count Per Million (CPM). Deze stap is bedoeld om verschillen in genexpressie als gevolg van de technische invloed weg te nemen door de grootte van de bibliotheek te normaliseren. De resultaten worden opgeslagen in de map /home/transcriptome-pipeline/countreads.

4. Differentieel tot expressie gebrachte genen en co-tot expressie gebrachte genen

  1. Identificeer differentieel tot expressie gebrachte genen met behulp van het open-source EdgeR-pakket. Dit omvat het vinden van genen waarvan de expressie hoger of lager is in vergelijking met de controle.
    1. Open de map Scripts via de opdrachtregel:
      cd /home/transcriptome-pipeline/scripts
    2. Om het differentieel tot expressie gebrachte gen te identificeren, voert u het DEG_edgeR R-script uit met behulp van de opdrachtregel:
      Rscript DEG_edgeR.R
      OPMERKING: De resultaten die de differentieel tot expressie gebrachte genen bevatten, worden opgeslagen in de map /home/transcriptome-pipeline/results/degs. Gegevens kunnen worden overgebracht naar een personal computer.
  2. Download gegevens van de csblusp/transcriptoomcontainer.
    1. Breng verwerkte gegevens over van de /home/transcriptome-pipeline naar de map /opt/transferdata (lokale computer).
    2. Kopieer alle bestanden naar de lokale computer door de opdrachtregel uit te voeren:
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      OPMERKING: Ga nu naar de lokale computer om ervoor te zorgen dat alle resultaten, gegevenssets en gegevens beschikbaar zijn om te downloaden in het hostpad.
  3. Co-expressiemodules identificeren.
    1. Ga naar de website van de Co-Expression Modules Identification Tool (CEMiTool) (Tabel van
      Materialen
      ). Dit hulpprogramma identificeert co-expressiemodules uit expressiegegevenssets die door de gebruikers worden geleverd. Klik op de hoofdpagina rechtsboven op Uitvoeren . Hiermee wordt een nieuwe pagina geopend om het expressiebestand te uploaden.
    2. Klik op Bestand kiezen onder het gedeelte Expressiebestand en upload de genormaliseerde genexpressiematrix 'tmm_expression.tsv' vanuit het hostpad.
      OPMERKING: Stap 4.4. is niet verplicht.
  4. Verken de biologische betekenis van co-expressiemodules.
    1. Klik op Bestand kiezen in de sectie Voorbeeldfenotypen en upload het bestand met voorbeeldfenotypen metadata_cemitool.tsv uit de stap 4.2.2 gegevens downloaden. om een genensetverrijkingsanalyse (GSEA) uit te voeren.
    2. Druk op Bestand kiezen in de sectie Geninteracties om een bestand met geninteracties te uploaden (cemitool-interactions.tsv). Het is mogelijk om het bestand van geninteracties als voorbeeld van webCEMiTool te gebruiken. De interacties kunnen eiwit-eiwitinteracties, transcriptiefactoren en hun getranscribeerde genen of metabole routes zijn. Met deze stap wordt een interactienetwerk geproduceerd voor elke co-expressiemodule.
    3. Klik op bestand kiezen in het gedeelte Genensets om een lijst met genen te uploaden die functioneel verwant zijn in een GMT-bestand (Gene Matrix Transposed). Het Gene Set-bestand stelt de tool in staat om verrijkingsanalyses uit te voeren voor elke co-expressiemodule, d.w.z. een overrepresentatieanalyse (ORA).
      OPMERKING: Deze lijst met genen kan pathways, GO-termen of miRNA-doelgenen omvatten. De onderzoeker kan de BloedtranscriptieModules (BTM) gebruiken als genensets voor deze analyse. Het BTM-bestand (BTM_for_GSEA.gmt).
  5. Stel parameters in voor het uitvoeren van co-expressieanalyses en verkrijg de resultaten ervan.
    1. Vouw vervolgens het gedeelte Parameter uit door op het plusteken te klikken om de standaardparameters weer te geven. Verander ze indien nodig. Schakel het selectievakje VST toepassen in.
    2. Schrijf de e-mail in het gedeelte E-mail om resultaten als e-mail te ontvangen. Deze stap is optioneel.
    3. Druk op de knop CEMiTool uitvoeren .
    4. Download het volledige analyserapport door rechtsboven op het download volledige rapport te klikken. Het zal een gecomprimeerd bestand downloaden cemitool_results.zip.
    5. Pak de inhoud van de cemitool_results.zip uit met WinRAR.
      OPMERKING: De map met de uitgepakte inhoud bevat verschillende bestanden met alle resultaten van de analyse en hun vastgestelde parameters.

5. Bepaling van de moleculaire mate van verstoring van monsters

  1. Molecular Degree of Perturbation (MDP) webversie.
    1. Als u MDP wilt uitvoeren, gaat u naar de MDP-website (Tabel met materialen). MDP berekent de moleculaire afstand van elk monster tot de referentie. Klik op de knop Uitvoeren .
    2. Upload op de koppeling Bestand kiezen het expressiebestand tmm_expression.tsv. Upload vervolgens het fenotypische gegevensbestand metadata.tsv vanuit de stap 4.2.2 downloaden van gegevens. Het is ook mogelijk om een pathway-annotatiebestand in GMT-formaat in te dienen om de perturbatiescore van de pathways geassocieerd met de ziekte te berekenen.
    3. Nadat de gegevens zijn geüpload, definieert u de kolom Klasse die de fenotypische informatie bevat die door de MDP wordt gebruikt. Definieer vervolgens de besturingsklasse door het label te selecteren dat overeenkomt met de besturingsklasse.
      OPMERKING: Er zijn enkele optionele parameters die van invloed zijn op de manier waarop de steekproefscores worden berekend. Indien nodig kan de gebruiker de statistische gemiddelde methode, standaarddeviatie en het hoogste percentage van de verstoorde genen wijzigen.
    4. Druk daarna op de knop MDP uitvoeren en de MDP-resultaten worden weergegeven. De gebruiker kan de cijfers downloaden door te klikken op de Download Plot in elke plot, evenals de MDP-score op de knop Download MDP Score File .
      OPMERKING: In het geval van vragen over het indienen van de bestanden of hoe MDP werkt, gaat u gewoon door de webpagina's Tutorial en About.

6. Functionele verrijkingsanalyse

  1. Maak een lijst met down-gereguleerde DEG's en een andere van up-gereguleerde DEG's. Gennamen moeten volgens Entrez-gensymbolen zijn. Elk gen van de lijst moet op één regel worden geplaatst.
  2. Sla de genenlijsten op in de txt- of tsv-indeling.
  3. Ga naar de Enrichr-website (Tabel met materialen) om de functionele analyse uit te voeren.
  4. Selecteer de lijst met genen door op Bestand kiezen te klikken. Selecteer een van de DEG-lijst en druk op de knop Verzenden .
  5. Klik op Pathways bovenaan de webpagina om functionele verrijkingsanalyses uit te voeren met de ORA-aanpak.
  6. Kies een trajectdatabase. "Reactome 2016" pathway database wordt breed gebruikt om de biologische betekenis van menselijke gegevens te krijgen.
  7. Klik nogmaals op de naam van de pathway-database. Selecteer Staafdiagram en controleer of het is gesorteerd op p-waarde rangschikking. Zo niet, klik dan op het staafdiagram totdat het is gesorteerd op p-waarde. Dit staafdiagram bevat de top 10 paden volgens p-waarden.
  8. Druk op de knop Configuratie en selecteer de rode kleur voor de up-gereguleerde genenanalyse of blauwe kleur voor de down-gereguleerde genenanalyse. Sla het staafdiagram in verschillende indelingen op door op svg, png en jpg te klikken.
  9. Selecteer Tabel en klik op Vermeldingen exporteren naar de tabel linksonder in het staafdiagram om de resultaten van de functionele verrijkingsanalyse in een txt-bestand te verkrijgen.
    OPMERKING: Dit bestand met functionele verrijkingsresultaten omvat in elke regel de naam van één pathway, het aantal overlappende genen tussen de ingediende DEG-lijst en de pathway, de p-waarde, de aangepaste p-waarde, odds ratio, gecombineerde score en het gensymbool van genen die aanwezig zijn in de DEG-lijst die deelnemen aan de pathway.
  10. Herhaal dezelfde stappen met de lijst met andere DEG's.
    OPMERKING: De analyse met down-gereguleerde DEG's biedt pathways verrijkt voor down-gereguleerde genen en de analyse met up-gereguleerde genen biedt pathways verrijkt voor up-gereguleerde genen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De computeromgeving voor transcriptoomanalyses is gemaakt en geconfigureerd op het Docker-platform. Deze aanpak stelt beginnende Linux-gebruikers in staat om Linux-terminalsystemen te gebruiken zonder a priori managementkennis. Het Docker-platform gebruikt de bronnen van het hostbesturingssysteem om een servicecontainer te maken die specifieke hulpprogramma's van gebruikers bevat (afbeelding 1B). Een container op basis van de Linux OS Ubuntu 20.04-distributie werd gemaakt en deze was volledig geconfigureerd voor transcriptomische analyses, die toegankelijk is via de opdrachtregelterminal. In deze container is er een vooraf gedefinieerde mappenstructuur voor datasets en scripts die nodig is voor alle pijplijnanalyses (figuur 1C). Een studie gepubliceerd door onze onderzoeksgroep7 werd gebruikt voor analyses en omvatte 20 monsters van gezonde personen en 39 monsters van CHIKV acuut geïnfecteerde personen (figuur 1D).

Het proces van totale RNA-sequencing kan leesfouten genereren, die kunnen worden veroorzaakt door een cluster met twee of meer transcripten of de uitputting van reagentia. De sequencingplatforms retourneren een set "FASTQ"-bestanden met de volgorde (lezen) en de bijbehorende kwaliteit voor elke nucleotidebasis (figuur 2A). De Phred-kwaliteitsschaal geeft de waarschijnlijkheid aan van een onjuiste aflezing van elke base (figuur 2B). Leesbewerkingen van lage kwaliteit kunnen een bias of onjuiste genexpressie genereren, waardoor opeenvolgende fouten in downstream-analyses worden veroorzaakt. Hulpmiddelen zoals Trimmomatic werden ontwikkeld om afgelezen gegevens van lage kwaliteit uit monsters te identificeren en te verwijderen en om de kans op kaartlezingen te vergroten (figuur 2C, D).

De mapping module was vooraf geconfigureerd met de STAR aligner en de GRCh38 human host als referentiegenoom. In deze stap worden de hoogwaardige metingen die zijn hersteld van de vorige stap gebruikt als input om uit te lijnen met het menselijke referentiegenoom (figuur 3A). STAR aligner voert een uitlijning uit van toegewezen reads naar een referentiegenoom in het BAM-formaatbestand. Op basis van deze uitlijning voert het gereedschap FeatureCounts de annotatie van kenmerken (genen) van die uitgelijnde leesbewerkingen uit met behulp van de referentieannotatie van de menselijke gastheer in GTF-bestandsindeling (figuur 3B). Ten slotte wordt de expressiematrix met elke gennaam als één rij en elk monster als één kolom gegenereerd (figuur 3C). Er moet ook een extra metagegevensbestand met de monsternamen en de respectieve monstergroepen worden verstrekt voor verdere downstream-analyse. De genexpressiematrix vertegenwoordigt het aantal tellingen dat aan elk gen is toegewezen onder monsters, die kunnen worden gebruikt als EdgeR-invoer om DEG's te identificeren. Bovendien werd deze genexpressiematrix genormaliseerd met behulp van TMM en CPM om de technische variabiliteit te verwijderen en de RNA-seq-meting te corrigeren door rekening te houden met het aandeel van tot expressie gebrachte genen in de totale bibliotheekgrootte tussen monsters. Deze matrix werd verder gebruikt als input voor co-expressie en MDP-analyses.

CEMiTool identificeert en analyseert de co-expressiemodules12. Genen die zich in dezelfde module bevinden, worden mede tot expressie gebracht, wat betekent dat ze vergelijkbare expressiepatronen vertonen in de monsters van de dataset. Deze tool maakt het ook mogelijk om de biologische betekenis van elke geïdentificeerde module te verkennen. Hiervoor biedt het drie optionele analyses - functionele verrijkingsanalyse door GSEA, functionele verrijkingsanalyse door Over Representation Analysis (ORA) en netwerkanalyse. Functionele verrijkingsanalyse door GSEA geeft informatie over de genexpressie van elke module bij elk fenotype (figuur 4A). Volgens dit maakt het de identificatie mogelijk van de modules die bij elk fenotype worden onderdrukt of geïnduceerd. De ORA-analyse toont de top 10 significant verrijkte biologische functies van elke module gesorteerd op aangepaste p-waarden. Het is mogelijk om de GSEA- en ORA-resultaten te combineren om aangetaste biologische processen te identificeren en of ze worden onderdrukt of geïnduceerd door het fenotype van belang. Netwerkanalyses leveren een interactoom van elke module (figuur 4A). Het maakt de visualisatie mogelijk van hoe genen van elke module op elkaar inwerken. Daarnaast geeft netwerkanalyse informatie over de meest verbonden genen, de hubs, die in het netwerk met hun naam worden geïdentificeerd. De grootte van de knooppunten vertegenwoordigt de mate van connectiviteit.

Om DEG's te identificeren, werd een intern script ontwikkeld om een end-to-end differentiële analyse uit te voeren in een enkele en beknopte opdrachtregel. Het script voert alle stappen uit die nodig zijn om een DEG-analyse uit te voeren, waarbij verschillende voorbeeldgroepen worden vergeleken die door de gebruiker in een metagegevensbestand zijn verstrekt. Bovendien worden de DEG-resultaten opgeslagen in afzonderlijke lijsten van down-gereguleerde en up-gereguleerde genen en vervolgens gecompileerd in een publicatieklare figuur (figuur 4B) met behulp van EnhancedVolcano R-pakket van Bioconductor.

De analyse van de moleculaire mate van verstoring uitgevoerd door de MDP-tool stelt ons in staat om verstoorde monsters van gezonde en geïnfecteerde personen te identificeren11. De perturbatiescore wordt berekend rekening houdend met alle tot expressie gebrachte genen voor elk CHIKV-geïnfecteerd monster en rekening houdend met de gezonde monsters als de referentiegroep (figuur 5A). MDP voert de analyse ook uit met alleen de top 25% van de meest verstoorde genen uit die monsters (figuur 5B). Monsters kunnen een grote variabiliteit vertonen gezien de genetische achtergrond, leeftijd, geslacht of andere eerdere ziekten. Deze factoren kunnen het transcriptoomprofiel veranderen. Op basis hiervan suggereert MDP welke monsters potentiële biologische uitschieters zijn om ze te verwijderen en de stroomafwaartse resultaten te verbeteren (figuur 5A, B).

Een functionele verrijkingsanalyse door ORA kan worden uitgevoerd met behulp van Enrichr om de biologische betekenis van DEG's te identificeren. De resultaten op basis van de lijst van down-gereguleerde genen geven de onderdrukte biologische processen in het bestudeerde fenotype aan, terwijl de resultaten op basis van de lijst van up-gereguleerde genen de biologische processen presenteren die worden geïnduceerd in het fenotype van belang. De biologische processen in het staafdiagram gegenereerd door Enrichr zijn de top 10 verrijkte genensets op basis van de p-waarde ranking (Figuur 6).

Figure 1
Figuur 1: Environment Docker en voorbeeldstudie. (A) Het Docker-platform gebruikt de OS Host-bronnen om "Containers" voor het Linux-systeem te maken met tools voor transcriptoomanalyses. (B) De Docker Container simuleert een Linux-systeem om pijplijnscripts uit te voeren. (C) De mapstructuur van de transcriptoompijplijn is gemaakt en georganiseerd om gegevenssets en scripts op te slaan voor analyse. (D) De studie van onze groep werd gebruikt als voorbeeld van transcriptoomanalyses. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 2
Figuur 2: Kwaliteitscontrole van sequencing. (A) Het FASTQ-formaatbestand wordt gebruikt om de sequentie- en nucleotidebasiskwaliteit weer te geven. (B) Phred score vergelijking, waarbij elke 10 een log waarschijnlijkheid verkeerd lezen basis verhoogt. (C) en (D) De Boxplot vertegenwoordigt een kwaliteitsverdeling van elke nucleotidebasis voor en na trimmomatische uitvoering. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 3
Figuur 3: Mapping en annotatieproces van sequentie tot gentellingexpressie. (A) Mapping bestaat uit het uitlijnen van de sequentie uit het transcript en de sequentie uit het genoom om de genomische lokalisatie te identificeren. (B) In kaart gebrachte reads aan het referentiegenoom worden geannoteerd op basis van hun genomische lokalisatie van overlapping. (C) Op basis van de mapping file tools zoals featureCounts wordt de genexpressie samengevat. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 4
Figuur 4: Co-tot expressie gebracht genennetwerk en statistische analyse van DEG's. (A) Modules van co-expressie op basis van genexpressie en het eiwit-eiwitinteractiesnetwerk van modulegenen. (B) Statistische analyse van CHIKV acuut geïnfecteerde en gezonde individuen, en differentiële genexpressie in rood (p-waarde en log2FC-criteria), paars (alleen p-waarde), groen (alleen log2FC) en grijs (geen significantie). Klik hier om een grotere versie van deze figuur te bekijken.

Figure 5
Figuur 5: Moleculaire mate van verstoring (MDP) van CHIKV acuut geïnfecteerde en gezonde personen. (A) MDP-score voor elk monster met behulp van alle tot expressie gebrachte genen uit het transcriptoom. (B) MDP-score voor elk monster met alleen de top 25% van de meest verstoorde genen. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 6
Figuur 6: Functionele analyse voor DEG's. (A) Up-gereguleerde en (B) Down-gereguleerde genen werden ingediend bij de Enrichr-websitetool om biologische routes of representatieve genensets te beoordelen. P-waarden werden berekend voor elke route en alleen significante verschillen werden weergegeven in de grafiek. Klik hier om een grotere versie van deze figuur te bekijken.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

De voorbereiding van de sequencingbibliotheken is een cruciale stap om biologische vragen op de best mogelijke manier te beantwoorden. Het type transcripties van belang van de studie zal bepalen welk type sequencingbibliotheek zal worden gekozen en bio-informaticaanalyses aansturen. Bijvoorbeeld, van de sequencing van een pathogeen en gastheer interactie, afhankelijk van het type sequencing, is het mogelijk om sequenties van beide of alleen van de gastheer transcripties te identificeren.

Next-generation sequencing-apparatuur, bijvoorbeeld het Illumina-platform, meet de sequencingkwaliteitsscores, wat staat voor de waarschijnlijkheid dat een basis onjuist wordt aangeroepen. De downstream analyses zijn zeer gevoelig voor sequenties van lage kwaliteit en leiden tot ondergelezen of verkeerd gelezen genexpressie. Een andere hindernis bij het uitvoeren van correcte analyses en interpretatie zijn adaptersequenties. Adaptersequenties helpen bij het voorbereiden en sequencen van bibliotheken, en in de meeste gevallen worden adapters ook gesequenced. Recente studies hebben aangetoond dat de impact van de mapping tool op de uiteindelijke resultaten minimaal is13. In pathogeen-gastheerstudies kan het mappingproces echter iets betere resultaten genereren bij het testen van verschillende drempels om het probleem met meerdere in kaart gebrachte locussequenties te minimaliseren.

Differentiële genexpressieresultaten moeten met een zekere voorzichtigheid worden geïnterpreteerd, vooral wanneer het aantal monsters per groep erg klein is en monsters afkomstig zijn van verschillende assays en het deG-resultaat verstoren door batcheffecten. Deze resultaten zijn gevoelig voor verschillende factoren: (i) de toegepaste gegevensfiltering, zoals het verwijderen van laag tot expressie gebrachte genen en het aantal monsters dat moet worden onderhouden; (ii) onderzoeksopzet, om alleen tussen steekproefgroepen of elke geïnfecteerde patiënt te vergelijken met alle controlepatiënten, zoals geïllustreerd in CHIKV-onderzoek7; en iii) de statistische methode die wordt gebruikt om DEG's te identificeren. Hier illustreren we een basisvoorbeeld met EdgeR om DEG's te identificeren die uitgaan van een drempelwaarde p-waarde van 0,05. Het is ook bekend in de literatuur dat EdgeR, in vergelijking met andere benchmarkmethoden, een groot scala aan variabiliteit kan hebben bij het identificeren van DEG's14. Men zou de afweging tussen dergelijke verschillende methoden kunnen overwegen en rekening houden met het aantal beschikbare replicaties en de complexiteit van het experimentele ontwerp14.

CEMiTool voert co-expressie module analyses12 uit. Deze tool is beschikbaar via het R-pakket op de Bioconductor repository en is ook beschikbaar in een gebruiksvriendelijke versie via webCEMiTool; de laatste is de versie die in dit huidige protocol wordt gebruikt. Dit is een alternatieve software ten opzichte van WGCNA15 met verschillende voordelen ten opzichte van de laatste16, waaronder het feit dat het gebruiksvriendelijker is17. Bovendien heeft deze tool een automatische methode om genen te filteren, terwijl in WGCNA de gebruiker de genen moet filteren voorafgaand aan WGCNA-gebruik. Bovendien heeft deze tool standaardparameters ingesteld, terwijl in WGCNA de gebruiker handmatig de parametersanalyses moet selecteren. Handmatige parameterselectie schaadt de reproduceerbaarheid; daarom garandeert de automatische selectie van parameters een betere reproduceerbaarheid.

In bepaalde gevallen is CEMiTool niet in staat om een geschikte zachte drempel te vinden, ook wel β-waarde genoemd. In dit geval moet de gebruiker controleren of de RNA-seq-gegevens een sterke afhankelijkheid van gemiddelde variantie vertonen. Als het gemiddelde een sterke lineaire relatie vertoont met de variantie (rekening houdend met alle genen), moet de gebruiker de analyses opnieuw uitvoeren om de parameter "VST toepassen" te controleren om de gemiddelde variantieafhankelijkheid van de transcriptomische gegevens te verwijderen. Het is altijd van cruciaal belang om te controleren of er een sterke gemiddelde variantieafhankelijkheid in de gegevens is en deze te verwijderen wanneer deze aanwezig is.

CEMiTool is op grote schaal gebruikt om de biologische betekenis van co-expressiemodules te identificeren en te verkennen. Een CHIKV acute infectiestudie toonde een module met hogere activiteit bij patiënten na 2 tot 4 dagen na het begin van de symptomen7. De functionele verrijking van deze module door ORA vertoonde een toename van monocyten en neutrofielen7. Een influenzavaccinatiestudie met bloedtranscriptoom van baseline tot dag 7 na vaccinatie presenteerde co-expressiemodules die functioneel verrijkt zijn voor biologische processen die verband houden met T-, B- en natural killer-cellen, monocyten, neutrofielen, interferonresponsen en bloedplaatjesactivatie18.

Gezien de variabiliteit van transcriptomische datasets, kan het identificeren en kwantificeren van de gegevensheterogeniteit een uitdaging zijn, omdat veel variabelen het genexpressieprofiel kunnen beïnvloeden7,11. MDP biedt een manier om verstoorde monsters van gezonde en geïnfecteerde proefpersonen te identificeren en te kwantificeren door deze stappen te volgen: (i) bereken een centraliteitsmethode (mediaan of gemiddelde) en standaardafwijking van controlemonsters; ii) met behulp van de verkregen waarden de z-score van alle genen berekenen; iii) stel een drempelwaarde voor de z-score vast die absoluut groter is dan 2, wat wijst op representatieve afwijkingen van de controlemonsters; en (iv) het gemiddelde van de genwaarden berekenen met behulp van de scores die voor elk monster zijn gefilterd. Ondanks enkele beperkingen voor scRNA-seq-analyse, was deze tool functioneel bij het bepalen van de perturbatiescore van microarray- en RNA-seq-gegevens11. Bovendien heeft een eerdere studie deze tool gebruikt om de moleculaire mate van verstoring aan te tonen die verhoogd is op bloedtranscriptoom bij tuberculose- en diabetes mellituspatiënten19. In dit werk is de verstoring van controle en CHIKV acuut geïnfecteerde monsters met gezonde individuen als referentiegroep aangetoond.

De functionele verrijkingsanalyse uitgevoerd door Enrichr is de ORA20,21. ORA is een type functionele verrijkingsanalyse waarbij de gebruiker de lijst met DEG's aan de tool moet verstrekken. De lijst van DEG's wordt meestal gescheiden in een down-gereguleerde DEG-lijst en in een up-gereguleerde DEG-lijst. Er zijn andere tools om ORA uit te voeren, waaronder de gProfiler, die beschikbaar is in een gebruiksvriendelijke webversie22 en de goseq23 die beschikbaar is als een R-pakket op Bioconductor. Een ander type functionele verrijkingsanalyse is GSEA. Om GSEA uit te voeren, moet de gebruiker alle genen in een gerangschikte lijst verstrekken. Deze lijst wordt meestal gerangschikt op basis van de genexpressie in vouwverandering.

Enrichr levert altijd de top 10 genensets verrijkt op basis van hun p-waarden in het staafdiagramresultaat. Daarom moet de gebruiker alert zijn bij het interpreteren van de resultaten, als er minder dan 10 verrijkte genensets zijn, toont het staafdiagram ook niet-verrijkte biologische processen. Om deze fout te voorkomen, moet de gebruiker een cutoff voor de p-waarde instellen en de p-waarden van de pathways observeren voordat hij aanneemt dat alle genensets van het staafdiagram zijn verrijkt. Bovendien moet de gebruiker zich ervan bewust zijn dat de volgorde van de 10 genensets die in het staafdiagram worden weergegeven, volgens de p-waarden is, niet de aangepaste p-waarden. In het geval dat de gebruiker alle verrijkte paden in een staafdiagram wil weergeven of zelfs opnieuw wil ordenen volgens de aangepaste p-waarden, is het raadzaam dat de gebruiker zijn / haar eigen staafdiagram maakt met behulp van de gedownloade tabel. De gebruiker kan een nieuw staafdiagram maken met behulp van Excel- of zelfs R-software.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

HN wordt gefinancierd door FAPESP (subsidienummers: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 en 2013/08216-2) en CNPq (313662/2017-7).

We zijn met name dankbaar voor de volgende subsidies voor fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) en RLTO (CNPq Process 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

Immunologie en infectie high-throughput sequencing RNA-seq gastheer-pathogeen interactie differentieel tot expressie gebrachte genen co-tot expressie gebrachte genen functionele analyse moleculaire mate van verstoring van monsters
Transcriptoomanalyse met hoge doorvoer voor het onderzoeken van gastheer-pathogeeninteracties
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter