Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

Analyse du transcriptome à haut débit pour l’étude des interactions hôte-pathogène

Published: March 5, 2022 doi: 10.3791/62324

Summary

Le protocole présenté ici décrit un pipeline complet pour analyser les données de transcriptome de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle, y compris le contrôle de la qualité et les étapes de prétraitement aux approches analytiques statistiques avancées.

Abstract

Les agents pathogènes peuvent causer une grande variété de maladies infectieuses. Les processus biologiques induits par l’hôte en réponse à l’infection déterminent la gravité de la maladie. Pour étudier de tels processus, les chercheurs peuvent utiliser des techniques de séquençage à haut débit (séquençage de l’ARN) qui mesurent les changements dynamiques du transcriptome de l’hôte à différents stades de l’infection, des résultats cliniques ou de la gravité de la maladie. Cette enquête peut mener à une meilleure compréhension des maladies, ainsi qu’à la découverte de cibles médicamenteuses et de traitements potentiels. Le protocole présenté ici décrit un pipeline complet pour analyser les données de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle. Le pipeline est divisé en cinq étapes : (1) contrôle de la qualité des données; 2° la cartographie et l’annotation des gènes; 3° l’analyse statistique pour identifier les gènes exprimés différemment et les gènes co-exprimés; 4° la détermination du degré moléculaire de la perturbation des échantillons; et (5) l’analyse fonctionnelle. L’étape 1 élimine les artefacts techniques qui peuvent avoir une incidence sur la qualité des analyses en aval. À l’étape 2, les gènes sont cartographiés et annotés selon les protocoles standard de la bibliothèque. L’analyse statistique de l’étape 3 identifie les gènes qui sont exprimés différemment ou co-exprimés dans les échantillons infectés, par rapport aux échantillons non infectés. La variabilité de l’échantillon et la présence de valeurs aberrantes biologiques potentielles sont vérifiées à l’aide de l’approche du degré moléculaire de perturbation à l’étape 4. Enfin, l’analyse fonctionnelle de l’étape 5 révèle les voies associées au phénotype de la maladie. Le pipeline présenté vise à soutenir les chercheurs à travers l’analyse des données ARN-seq à partir d’études d’interaction hôte-pathogène et à conduire de futures expériences in vitro ou in vivo , qui sont essentielles pour comprendre le mécanisme moléculaire des infections.

Introduction

Les arbovirus, tels que la dengue, la fièvre jaune, le chikungunya et le zika, ont été largement associés à plusieurs épidémies endémiques et sont devenus l’un des principaux agents pathogènes responsables de l’infection des humains au cours des dernières décennies1,2. Les personnes infectées par le virus chikungunya (CHIKV) ont souvent de la fièvre, des maux de tête, des éruptions cutanées, une polyarthralgie et de l’arthrite3,4,5. Les virus peuvent subvertir l’expression génique de la cellule et influencer diverses voies de signalisation de l’hôte. Récemment, des études sur le transcriptome sanguin ont utilisé l’ARN-seq pour identifier les gènes exprimés différentiellement (DEG) associés à l’infection aiguë par le CHIKV par rapport à la convalescence6 ou aux témoins sains7. Les enfants infectés par le CHIKV avaient des gènes régulés à la hausse qui sont impliqués dans l’immunité innée, tels que ceux liés aux capteurs cellulaires pour l’ARN viral, à la signalisation JAK / STAT et aux voies de signalisation des récepteurs de type toll6. Les adultes gravement infectés par le CHIKV ont également montré l’induction de gènes liés à l’immunité innée, tels que ceux liés aux monocytes et à l’activation des cellules dendritiques, et aux réponses antivirales7. Les voies de signalisation enrichies en gènes régulés à la baisse comprenaient celles liées à l’immunité adaptative, telles que l’activation, la différenciation et l’enrichissement des lymphocytes T et B7.

Plusieurs méthodes peuvent être utilisées pour analyser les données du transcriptome des gènes hôtes et pathogènes. Souvent, la préparation de la bibliothèque RNA-seq commence par l’enrichissement des transcriptions poly-A matures. Cette étape élimine la plupart de l’ARN ribosomique (ARNr) et, dans certains cas, des ARN viraux/bactériens. Cependant, lorsque la question biologique implique la détection du transcrit pathogène et que l’ARN est séquencé indépendamment de la sélection précédente, de nombreux autres transcrits différents pourraient être détectés par séquençage. Par exemple, les ARNm sous-économiques se sont révélés être un facteur important pour vérifier la gravité des maladies8. De plus, pour certains virus tels que le CHIKV et le SARS-CoV-2, même les bibliothèques enrichies en poly-A génèrent des lectures virales qui peuvent être utilisées dans les analyses en aval9,10. Lorsqu’ils se concentrent sur l’analyse du transcriptome de l’hôte, les chercheurs peuvent étudier la perturbation biologique à travers les échantillons, identifier les gènes exprimés différemment et les voies enrichies, et générer des modules de co-expression7,11,12. Ce protocole met en évidence les analyses de transcriptome de patients infectés par le CHIKV et de personnes en bonne santé utilisant différentes approches bioinformatiques (Figure 1A). Les données d’une étude publiée précédemment7 portant sur 20 personnes en bonne santé et 39 personnes gravement infectées par le CHIKV ont été utilisées pour générer les résultats représentatifs.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Les échantillons utilisés dans ce protocole ont été approuvés par les comités d’éthique du Département de microbiologie de l’Institut des sciences biomédicales de l’Université de São Paulo et de l’Université fédérale de Sergipe (Protocoles: 54937216.5.0000.5467 et 54835916.2.0000.5546, respectivement).

1. Installation du bureau Docker

REMARQUE : Les étapes de préparation de l’environnement Docker sont différentes selon les systèmes d’exploitation. Par conséquent, les utilisateurs de Mac doivent suivre les étapes répertoriées comme 1.1, les utilisateurs Linux doivent suivre les étapes répertoriées comme 1.2 et les utilisateurs Windows doivent suivre les étapes répertoriées comme 1.3.

  1. Installer sur MacOS.
    1. Accédez au site Web Get Docker (Table of Materials), cliquez sur Docker Desktop pour Mac , puis cliquez sur le lien Télécharger à partir de Docker Hub .
    2. Téléchargez le fichier d’installation en cliquant sur le bouton Obtenir Docker .
    3. Exécutez le fichier Docker.dmg pour ouvrir le programme d’installation, puis faites glisser l’icône vers le dossier Applications . Localisez et exécutez le Docker.app dans le dossier Applications pour démarrer le programme.
      REMARQUE: Le menu spécifique au logiciel dans la barre d’état supérieure indique que le logiciel est en cours d’exécution et qu’il est accessible à partir d’un terminal.
  2. Installez le programme conteneur sur le système d’exploitation Linux.
    1. Accédez au site Web Get Docker Linux (Table of Materials) et suivez les instructions d’installation à l’aide de la section du référentiel disponible sur le lien Docker Linux Repository .
    2. Mettez à jour tous les packages Linux à l’aide de la ligne de commande :
      sudo apt-get mise à jour
    3. Installez les packages requis dans Docker :
      sudo apt-get installer apt-transport-https ca-certificates curl gnupg lsb-release
    4. Créez un fichier de trousseau de clés d’archive logicielle :
      curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. Ajoutez des informations Docker deb dans le fichier source.list :
      echo « deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable » | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Mettez à jour à nouveau tous les packages, y compris ceux récemment ajoutés :
      sudo apt-get mise à jour
    7. Installez la version de bureau :
      sudo apt-get installer docker-ce docker-ce-cli containerd.io
    8. Sélectionnez la zone géographique et le fuseau horaire pour terminer le processus d’installation.
  3. Installez le programme conteneur sur le système d’exploitation Windows.
    1. Accédez au site Web Get Docker (Table of Materials) et cliquez sur Get Started. Recherchez le programme d’installation de Docker Desktop pour Windows. Téléchargez les fichiers et installez-les localement sur l’ordinateur.
    2. Après le téléchargement, démarrez le fichier d’installation (.exe) et conservez les paramètres par défaut. Assurez-vous que les deux options Installer les composants Windows requis pour WSL 2 et Ajouter un raccourci au Bureau sont marquées.
      REMARQUE: Dans certains cas, lorsque ce logiciel tente de démarrer le service, il affiche une erreur: l’installation de WSL est incomplète. Pour comprendre cette erreur, accédez au site Web WSL2-Kernel (Table of Materials).
    3. Téléchargez et installez le dernier noyau Linux WSL2.
    4. Accédez au terminal PowerShell en tant qu’administrateur et exécutez la commande :
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Assurez-vous que le logiciel Docker Desktop est installé avec succès.
  4. Téléchargez l’image à partir du référentiel CSBL sur le hub Docker (Table of Materials).
    1. Ouvrez le bureau Docker et vérifiez que l’état est « en cours d’exécution » en bas à gauche de la barre d’outils.
    2. Accédez à la ligne de commande du terminal Windows PowerShell. Téléchargez l’image du conteneur Linux pour ce protocole à partir du référentiel CSBL sur le hub Docker. Exécutez la commande suivante pour télécharger l’image :
      docker pull csblusp/transcriptome
      REMARQUE: Après avoir téléchargé l’image, le fichier peut être vu dans le bureau Docker. Pour créer le conteneur, les utilisateurs Windows doivent suivre l’étape 1.5, tandis que les utilisateurs Linux doivent suivre l’étape 1.6.
  5. Initialisez le conteneur de serveur sur le système d’exploitation Windows.
    1. Affichez le fichier image Docker dans le gestionnaire d’applications de bureau à partir de la barre d’outils et accédez à la page Images.
      REMARQUE: Si l’image du pipeline a été téléchargée avec succès, une image csblusp/transcriptome sera disponible.
    2. Lancez le conteneur à partir de l’image csblusp/transcriptome en cliquant sur le bouton Exécuter . Développez les paramètres facultatifs pour configurer le conteneur.
    3. Définissez le nom du conteneur (par exemple, serveur).
    4. Associez un dossier de l’ordinateur local au dossier à l’intérieur du docker. Pour ce faire, déterminez le chemin d’accès de l’hôte. Définissez un dossier sur l’ordinateur local pour stocker les données traitées qui seront téléchargées à la fin. Définissez le chemin du conteneur. Définissez et liez le dossier conteneur csblusp/transcriptome au chemin d’accès de la machine locale (utilisez le nom « /opt/transferdata » pour le chemin du conteneur).
    5. Après cela, cliquez sur Exécuter pour créer le conteneur csblusp/transcriptome.
    6. Pour accéder au terminal Linux depuis le conteneur csblusp/transcriptome, cliquez sur le bouton CLI.
    7. Tapez dans le terminal bash pour avoir une meilleure expérience. Pour cela, exécutez la commande :
      cogner
    8. Après avoir exécuté la commande bash, assurez-vous que le terminal affiche (root@:/#) :
      root@ac12c583b731:/ #
  6. Initialisez le conteneur de serveur pour le système d’exploitation Linux.
    1. Exécutez cette commande pour créer le conteneur Docker basé sur l’image :
      docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
      Remarque : < chemin d’hôte> : définissez un chemin d’accès de l’ordinateur de dossier local.
    2. Exécutez cette commande pour accéder au terminal de commande du conteneur Docker :
      docker exec -it serveur bash
    3. Assurez la disponibilité d’un terminal Linux pour exécuter tous les programmes/scripts à l’aide de la ligne de commande.
    4. Après avoir exécuté la commande bash, assurez-vous que le terminal affiche (root@:/#) :
      root@ac12c583b731:/ #
      REMARQUE : Le mot de passe root est « transcriptome » par défaut. Si vous le souhaitez, le mot de passe root peut être modifié en exécutant la commande :
      passwd
    5. Tout d’abord, exécutez la commande source pour addpath.sh pour vous assurer que tous les outils sont disponibles. Exécutez la commande :
      source /opt/addpath.sh
  7. Vérifiez la structure du dossier de séquençage de l’ARN.
    1. Accédez au dossier des scripts de pipeline de transcriptome et assurez-vous que toutes les données du séquençage de l’ARN sont stockées dans le dossier : /home/transcriptome-pipeline/data.
    2. Assurez-vous que tous les résultats obtenus à partir de l’analyse sont stockés dans le dossier du chemin /home/transcriptome-pipeline/results.
    3. Assurez-vous que les fichiers de référence du génome et des annotations sont stockés dans le dossier du chemin /home/transcriptome-pipeline/datasets. Ces fichiers aideront à prendre en charge toutes les analyses.
    4. Assurez-vous que tous les scripts sont stockés dans le dossier du chemin /home/transcriptome-pipeline/scripts et séparés par chaque étape comme décrit ci-dessous.
  8. Téléchargez l’annotation et le génome humain.
    1. Accédez au dossier scripts :
      cd /home/transcriptome-pipeline/scripts
    2. Exécutez cette commande pour télécharger le génome humain de référence :
      bash downloadGenome.sh
    3. Pour télécharger l’annotation, exécutez la commande :
      bash downloadAnnotation.sh
  9. Modifiez l’annotation ou la version du génome de référence.
    1. Ouvrez downloadAnnotation.sh et downloadGenome.sh pour modifier l’URL de chaque fichier.
    2. Copiez les fichiers downloadAnnotation.sh et downloadGenome.sh dans la zone de transfert et modifiez-les dans le système d’exploitation local.
      cd /home/transcriptome-pipeline/scripts
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Ouvrez le dossier Chemin d’accès à l’hôte , qui est sélectionné pour lier entre l’hôte et le conteneur Docker à l’étape 1.5.4.
    4. Modifiez les fichiers à l’aide du logiciel d’édition préféré et enregistrez-les. Enfin, placez les fichiers modifiés dans le dossier de script. Exécutez la commande :
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      REMARQUE: Ces fichiers peuvent être modifiés directement à l’aide de l’éditeur vim ou nano Linux.
  10. Ensuite, configurez l’outil fastq-dump avec la ligne de commande :
    vdb-config --interactive
    REMARQUE: Cela permet de télécharger des fichiers de séquençage à partir des données d’exemple.
    1. Naviguez dans la page Outils à l’aide de la touche de tabulation et sélectionnez l’option de dossier actif. Accédez à l’option Enregistrer et cliquez sur OK. Ensuite, quittez l’outil fastq-dump.
  11. Lancez le téléchargement des lectures à partir de l’article publié précédemment7. Le numéro d’acquisition SRA de chaque échantillon est requis. Procurez-vous les numéros SRA sur le site Web de SRA NCBI (Table of Materials).
    REMARQUE: Pour analyser les données RNA-Seq disponibles sur les bases de données publiques, suivez l’étape 1.12. Pour analyser les données privées de séquençage d’ARN, suivez l’étape 1.13.
  12. Analyser des données publiques spécifiques.
    1. Accédez au site Web du National Center for Biotechnology Information (NCBI) et recherchez des mots-clés pour un sujet spécifique.
    2. Cliquez sur le lien Résultat pour BioProject dans la section Génomes .
    3. Choisissez et cliquez sur une étude spécifique. Cliquez sur les expériences SRA. Une nouvelle page s’ouvre, qui montre tous les échantillons disponibles pour cette étude.
    4. Cliquez sur le bouton « Envoyer à: » au-dessus du numéro d’acquisition. Dans l’option « Choisir la destination » , sélectionnez l’option Fichier et format , sélectionnez ExécuterInfo. Cliquez sur « Créer un fichier » pour exporter toutes les informations de la bibliothèque.
    5. Enregistrez le fichier SraRunInfo.csv dans le chemin d’accès hôte défini à l’étape 1.5.4 et exécutez le script de téléchargement :
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-pipeline/scripts
      bash downloadAllLibraries.sh
  13. Analysez les données de séquençage privées et non publiées.
    1. Organisez les données de séquençage dans un dossier nommé Reads.
      Remarque : Dans le dossier Lectures , créez un dossier pour chaque exemple. Ces dossiers doivent avoir le même nom pour chaque exemple. Ajoutez les données de chaque exemple dans son répertoire. Dans le cas où il s’agit d’un RNA-Seq à extrémité appariée, chaque répertoire d’échantillon doit contenir deux fichiers FASTQ, qui doivent présenter des noms se terminant selon les modèles {sample}_1.fastq.gz et {sample}_2.fastq.gz, séquences avant et arrière, respectivement. Par exemple, un exemple nommé « Healthy_control » doit avoir un répertoire portant le même nom et des fichiers FASTQ nommés Healthy_control_1.fastq.gz et Healthy_control_2.fastq.gz. Néanmoins, si le séquençage de la bibliothèque est une stratégie à extrémité unique, un seul fichier de lecture doit être enregistré pour une analyse en aval. Par exemple, le même exemple, « Contrôle sain », doit avoir un fichier FASTQ unique nommé Healthy_control.fastq.gz.
    2. Créez un fichier phénotypique contenant tous les noms d’échantillons : nommez la première colonne « Échantillon » et la deuxième colonne « Classe ». Remplissez la colonne Échantillon avec les noms des échantillons, qui doivent porter le même nom pour les répertoires d’échantillons, et remplissez la colonne Classe avec le groupe phénotypique de chaque échantillon (p. ex., témoin ou infecté). Enfin, enregistrez un fichier avec le nom « metadata.tsv » et envoyez-le dans le répertoire /home/transcriptome-pipeline/data/. Consultez le fichier metadata.tsv existant pour comprendre le format du fichier phénotypique.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. Accédez au répertoire Chemin d’accès à l’hôte défini à l’étape 1.5.4 et copiez les nouveaux exemples de répertoires structurés. Enfin, déplacez les exemples de /opt/transferdata vers le répertoire de données du pipeline.
      cp -rf /opt/transferdata/reads/*
      /home/transcriptome-pipeline/data/reads/
  14. Observez que toutes les lectures sont stockées dans le dossier /home/transcriptome-pipeline/data/reads.

2. Contrôle de la qualité des données

REMARQUE : Évaluez, graphiquement, la probabilité d’erreurs dans les lectures de séquençage. Supprimez toutes les séquences techniques, par exemple les adaptateurs.

  1. Accédez à la qualité de séquençage des bibliothèques avec l’outil FastQC.
    1. Pour générer les graphiques de qualité, exécutez le programme fastqc. Exécutez la commande :
      bash FastQC.sh
      REMARQUE : Les résultats seront enregistrés dans le dossier /home/transcriptome-pipeline/results/FastQC. Étant donné que les adaptateurs de séquence sont utilisés pour la préparation et le séquençage de la bibliothèque, dans certains cas, les fragments de séquence d’adaptateurs peuvent interférer avec le processus de mappage.
  2. Retirez la séquence de l’adaptateur et les lectures de mauvaise qualité. Accédez au dossier Scripts et exécutez la commande de l’outil Trimmomatic :
    cd /home/transcriptome-pipeline/scripts
    bash trimmomatic.sh

    REMARQUE: Les paramètres utilisés pour le filtre de séquençage sont les suivants: Supprimer le début de faible qualité ou 3 bases (en dessous de la qualité 3) (EN-TÊTE:3); Enlever la fin de mauvaise qualité ou 3 bases (en dessous de la qualité 3) (TRAILING:3); Scannez la lecture avec une fenêtre coulissante large à 4 bases, en coupant lorsque la qualité moyenne par base tombe en dessous de 20 (SLIDINGWINDOW:4:20); et Drop lit en dessous des 36 bases de long (MINLEN:36). Ces paramètres peuvent être modifiés en modifiant le fichier de script Trimmomatic.
    1. Assurez-vous que les résultats sont enregistrés dans le dossier suivant : /home/transcriptome-pipeline/results/trimreads. Exécutez la commande :
      ls /home/transcriptome-pipeline/results/trimreads

3. Cartographie et annotation des échantillons

REMARQUE: Après avoir obtenu les lectures de bonne qualité, celles-ci doivent être mappées au génome de référence. Pour cette étape, le mappeur STAR a été utilisé pour mapper les exemples d’exemples. L’outil de cartographie STAR nécessite 32 Go de mémoire RAM pour charger et exécuter les lectures et la cartographie du génome. Pour les utilisateurs qui ne disposent pas de 32 Go de mémoire RAM, les lectures déjà mappées peuvent être utilisées. Dans de tels cas, passez à l’étape 3.3 ou utilisez le mappeur Bowtie2. Cette section contient des scripts pour STAR (résultats affichés dans toutes les figures) et Bowtie2 (mappeur à faible mémoire requise).

  1. Indexez d’abord le génome de référence pour le processus de cartographie :
    1. Accédez au dossier Scripts à l’aide de la ligne de commande :
      cd /home/transcriptome-pipeline/scripts
    2. Pour le mappeur STAR, exécutez :
      bash indexGenome.sh
    3. Pour Bowtie mapper, exécutez :
      bash indexGenomeBowtie2.sh
  2. Exécutez la commande suivante pour mapper les lectures filtrées (obtenues à partir de l’étape 2) au génome de référence (version GRCh38). Les mappeurs STAR et Bowtie2 sont tous deux effectués à l’aide de paramètres par défaut.
    1. Pour le mappeur STAR, exécutez :
      bash mapSTAR.sh
    2. Pour bowtie2 mapper, exécutez :
      bash mapBowtie2.sh
      REMARQUE : Les résultats finaux sont des fichiers BAM (Binary Alignment Map) pour chaque échantillon stocké dans /home/transcriptome-pipeline/results/mapreads.
  3. Annotez les lectures mappées à l’aide de l’outil FeatureCounts pour obtenir des comptes bruts pour chaque gène. Exécutez les scripts qui annotent les lectures.
    REMARQUE : L’outil FeatureCounts est chargé d’attribuer des lectures de séquençage mappées aux entités génomiques. Les aspects les plus importants de l’annotation du génome qui peuvent être modifiés à la suite de la question biologique comprennent, la détection d’isoformes, de multiples lectures cartographiées et de jonctions exon-exon, correspondant aux paramètres, GTF.attrType="gene_name » pour le gène ou ne spécifiez pas les paramètres pour le niveau de méta-caractéristique, allowMultiOverlap = TRUE et juncCounts = TRUE, respectivement.
    1. Accédez au dossier scripts à l’aide de la ligne de commande :
      cd /home/transcriptome-pipeline/scripts
    2. Pour annoter les lectures mappées afin d’obtenir des nombres bruts par gène, exécutez la ligne de commande :
      Annotation Rscript. R
      REMARQUE: Les paramètres utilisés pour le processus d’annotation étaient les suivants: nom abrégé du gène de retour (GTF.attrType="gene_name »); autoriser plusieurs chevauchements (allowMultiOverlap = TRUE); et indiquez que la bibliothèque est paired-end (isPairedEnd=TRUE). Pour la stratégie à extrémité unique, utilisez le paramètre isPairedEnd=FALSE. Les résultats seront enregistrés dans le dossier /home/transcriptome-pipeline/countreads.
  4. Normaliser l’expression des gènes.
    REMARQUE : La normalisation de l’expression des gènes est essentielle pour comparer les résultats entre les résultats (p. ex., échantillons sains et échantillons infectés). La normalisation est également nécessaire pour effectuer les analyses de co-expression et de degré moléculaire de perturbation.
    1. Accédez au dossier Scripts à l’aide de la ligne de commande :
      cd /home/transcriptome-pipeline/scripts
    2. Normaliser l’expression des gènes. Pour cela, exécutez la ligne de commande :
      Rscript normalise les échantillons. R
      REMARQUE : L’expression des nombres bruts, dans cette expérience, a été normalisée à l’aide des méthodes Trimmed Average of M-values (TMM) et Count Per Million (CPM). Cette étape vise à éliminer les différences dans l’expression des gènes dues à l’influence technique, en effectuant une normalisation de la taille de la bibliothèque. Les résultats seront enregistrés dans le dossier /home/transcriptome-pipeline/countreads.

4. Gènes exprimés différentiellement et gènes co-exprimés

  1. Identifiez les gènes exprimés différemment à l’aide du package EdgeR open-source. Cela implique de trouver des gènes dont l’expression est supérieure ou inférieure à celle du témoin.
    1. Accédez au dossier Scripts à l’aide de la ligne de commande :
      cd /home/transcriptome-pipeline/scripts
    2. Pour identifier le gène exprimé différentiellement, exécutez le script R DEG_edgeR à l’aide de la ligne de commande :
      Rscript DEG_edgeR.R
      REMARQUE: Les résultats contenant les gènes exprimés différentiellement seront enregistrés dans le dossier /home/transcriptome-pipeline/results/degs. Les données peuvent être transférées vers un ordinateur personnel.
  2. Téléchargez les données à partir du conteneur csblusp/transcriptome.
    1. Transférez les données traitées du pipeline /home/transcriptome vers le dossier /opt/transferdata (ordinateur local).
    2. Copiez tous les fichiers sur l’ordinateur local en exécutant la ligne de commande :
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      Remarque : Maintenant, accédez à l’ordinateur local pour vous assurer que tous les résultats, jeux de données et données sont disponibles au téléchargement dans le chemin d’accès de l’hôte.
  3. Identifier les modules de co-expression.
    1. Accédez au site Web de l’outil d’identification des modules de co-expression (CEMiTool) (Tableau des
      Matériaux
      ). Cet outil identifie les modules de co-expression à partir des jeux de données d’expression fournis par les utilisateurs. Sur la page principale, cliquez sur Exécuter en haut à droite. Cela ouvrira une nouvelle page pour télécharger le fichier d’expression.
    2. Cliquez sur Choisir un fichier sous la section Fichier d’expression et téléchargez la matrice d’expression génique normalisée 'tmm_expression.tsv' à partir du chemin d’accès de l’hôte.
      REMARQUE: Étape 4.4. n’est pas obligatoire.
  4. Explorez la signification biologique des modules de co-expression.
    1. Cliquez sur Choisir un fichier dans la section Exemples de phénotypes et téléchargez le fichier contenant des exemples de phénotypes metadata_cemitool.tsv à partir de l’étape Télécharger les données 4.2.2. pour effectuer une analyse d’enrichissement de l’ensemble de gènes (GSEA).
    2. Appuyez sur Choisir un fichier dans la section Interactions géniques pour télécharger un fichier contenant des interactions géniques (cemitool-interactions.tsv). Il est possible d’utiliser le fichier d’interactions géniques fourni à titre d’exemple par webCEMiTool. Les interactions peuvent être des interactions protéine-protéine, des facteurs de transcription et leurs gènes transcrits, ou des voies métaboliques. Cette étape produit un réseau d’interaction pour chaque module de co-expression.
    3. Cliquez sur choisir un fichier dans la section Ensembles de gènes pour télécharger une liste de gènes fonctionnellement liés dans un fichier au format GMT (Gene Matrix Transposed). Le fichier Gene Set permet à l’outil d’effectuer une analyse d’enrichissement pour chaque module de co-expression, c’est-à-dire une analyse de surreprésentation (ORA).
      REMARQUE: Cette liste de gènes peut englober des voies, des termes GO ou des gènes cibles de miARN. Le chercheur peut utiliser les modules de transcription sanguine (BTM) comme ensembles de gènes pour cette analyse. Le fichier BTM (BTM_for_GSEA.gmt).
  5. Définissez des paramètres pour effectuer des analyses de co-expression et obtenez ses résultats.
    1. Ensuite, développez la section Paramètre , en cliquant sur le signe plus pour afficher les paramètres par défaut. Si nécessaire, changez-les. Cochez la case Appliquer VST .
    2. Écrivez l’e-mail dans la section E-mail pour recevoir les résultats sous forme d’e-mail. Cette étape est facultative.
    3. Appuyez sur le bouton Exécuter CEMiTool .
    4. Téléchargez le rapport d’analyse complet en cliquant sur Télécharger le rapport complet en haut à droite. Il téléchargera un fichier compressé cemitool_results.zip.
    5. Extrayez le contenu du cemitool_results.zip avec WinRAR.
      REMARQUE: Le dossier avec le contenu extrait comprend plusieurs fichiers avec tous les résultats de l’analyse et leurs paramètres établis.

5. Détermination du degré moléculaire de perturbation des échantillons

  1. Degré moléculaire de perturbation (MDP) version web.
    1. Pour exécuter MDP, accédez au site Web MDP (Table of Materials). MDP calcule la distance moléculaire de chaque échantillon à partir de la référence. Cliquez sur le bouton Exécuter .
    2. Sur le lien Choisir un fichier , téléchargez le fichier d’expression tmm_expression.tsv. Ensuite, téléchargez le fichier de données phénotypiques metadata.tsv à partir de l’étape Télécharger les données 4.2.2. Il est également possible de soumettre un fichier d’annotation de voie au format GMT pour calculer le score de perturbation des voies associées à la maladie.
    3. Une fois les données téléchargées, définissez la colonne Classe qui contient les informations phénotypiques utilisées par le MDP. Ensuite, définissez la classe de contrôle en sélectionnant l’étiquette qui correspond à la classe de contrôle.
      REMARQUE: Certains paramètres facultatifs affectent la façon dont les scores de l’échantillon sont calculés. Si nécessaire, l’utilisateur est en mesure de modifier la méthode moyenne des statistiques, l’écart-type et le pourcentage supérieur des gènes perturbés.
    4. Après cela, appuyez sur le bouton Exécuter MDP et les résultats MDP seront affichés. L’utilisateur peut télécharger les chiffres en cliquant sur le graphique de téléchargement dans chaque graphique, ainsi que sur le score MDP sur le bouton Télécharger le fichier de score MDP .
      REMARQUE: En cas de questions sur la façon de soumettre les fichiers ou sur le fonctionnement de MDP, il suffit de parcourir les pages Web Didacticiel et À propos.

6. Analyse de l’enrichissement fonctionnel

  1. Créer une liste de DEG à régulation descendante et une autre de DEG à régulation ascendante. Les noms des gènes doivent être conformes aux symboles des gènes d’Entrez. Chaque gène de la liste doit être placé sur une ligne.
  2. Enregistrez les listes de gènes au format txt ou tsv.
  3. Accédez au site Web d’Enrichr (Table of Materials) pour effectuer l’analyse fonctionnelle.
  4. Sélectionnez la liste des gènes en cliquant sur choisir un fichier. Sélectionnez l’un des DEG et appuyez sur le bouton Soumettre .
  5. Cliquez sur Pathways en haut de la page Web pour effectuer une analyse d’enrichissement fonctionnel avec l’approche ORA.
  6. Choisissez une base de données de chemins. La base de données des voies « Reactome 2016 » est largement utilisée pour obtenir la signification biologique des données humaines.
  7. Cliquez à nouveau sur le nom de la base de données des chemins. Sélectionnez Graphique à barres et vérifiez s’il est trié par classement de valeur p. Sinon, cliquez sur le graphique à barres jusqu’à ce qu’il soit trié par valeur de p. Ce graphique à barres comprend les 10 principales voies en fonction des valeurs de p.
  8. Appuyez sur le bouton Configuration et sélectionnez la couleur rouge pour l’analyse des gènes régulés vers le haut ou la couleur bleue pour l’analyse des gènes régulés vers le bas. Enregistrez le graphique à barres dans plusieurs formats en cliquant sur svg, png et jpg.
  9. Sélectionnez Table et cliquez sur Exporter les entrées vers la table en bas à gauche du graphique à barres pour obtenir les résultats de l’analyse d’enrichissement fonctionnel dans un fichier txt.
    REMARQUE: Ce fichier de résultats d’enrichissement fonctionnel comprend dans chaque ligne le nom d’une voie, le nombre de gènes superposés entre la liste DEG soumise et la voie, la valeur p, la valeur p ajustée, le rapport de cotes, le score combiné et le symbole génétique des gènes présents dans la liste DEG qui participent à la voie.
  10. Répétez les mêmes étapes avec la liste des autres DEG.
    REMARQUE: L’analyse avec des DEG régulés à la baisse fournit des voies enrichies pour les gènes régulés à la baisse et l’analyse avec des gènes régulés à la hausse fournit des voies enrichies pour les gènes régulés à la hausse.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

L’environnement informatique pour les analyses de transcriptome a été créé et configuré sur la plate-forme Docker. Cette approche permet aux utilisateurs Linux débutants d’utiliser des systèmes de terminaux Linux sans connaissances a priori en gestion. La plate-forme Docker utilise les ressources du système d’exploitation hôte pour créer un conteneur de services qui inclut des outils d’utilisateurs spécifiques (Figure 1B). Un conteneur basé sur la distribution Linux OS Ubuntu 20.04 a été créé et il a été entièrement configuré pour les analyses transcriptomiques, qui est accessible via le terminal de ligne de commande. Dans ce conteneur, il existe une structure de dossiers prédéfinie pour les jeux de données et les scripts qui est nécessaire pour toutes les analyses de pipeline (Figure 1C). Une étude publiée par notre groupe de recherche7 a été utilisée pour les analyses, et elle comprenait 20 échantillons d’individus en bonne santé et 39 échantillons de personnes infectées de manière aiguë par le CHIKV (Figure 1D).

Le processus de séquençage de l’ARN total peut générer des erreurs de lecture, qui peuvent être causées par un cluster avec deux transcriptions ou plus ou l’épuisement des réactifs. Les plates-formes de séquençage renvoient un ensemble de fichiers « FASTQ » contenant la séquence (lecture) et la qualité associée pour chaque base nucléotidique (Figure 2A). L’échelle de qualité Phred indique la probabilité d’une lecture incorrecte de chaque base (Figure 2B). Des lectures de mauvaise qualité peuvent générer un biais ou une mauvaise expression des gènes, déclenchant des erreurs successives dans les analyses en aval. Des outils tels que Trimmomatic ont été développés pour identifier et supprimer les lectures de faible qualité des échantillons et pour augmenter la probabilité de cartographier les lectures (Figure 2C, D).

Le module de cartographie a été préconfiguré avec l’aligneur STAR et l’hôte humain GRCh38 comme génome de référence. Dans cette étape, les lectures de haute qualité récupérées de l’étape précédente sont utilisées comme entrée pour s’aligner sur le génome de référence humain (Figure 3A). L’aligneur STAR génère un alignement des lectures mappées sur un génome de référence dans le fichier au format BAM. Sur la base de cet alignement, l’outil FeatureCounts effectue l’annotation des entités (gènes) de ces lectures alignées à l’aide de l’annotation de référence de l’hôte humain au format de fichier GTF (Figure 3B). Enfin, la matrice d’expression avec chaque nom de gène comme une ligne, et chaque échantillon comme une colonne est générée (Figure 3C). Un fichier de métadonnées supplémentaire contenant les noms des échantillons et les groupes d’échantillons respectifs doit également être fourni pour une analyse plus approfondie en aval. La matrice d’expression génique représente le nombre de comptes mappés à chaque gène parmi les échantillons, qui peuvent être utilisés comme entrée EdgeR pour identifier les DEG. De plus, cette matrice d’expression génique a été normalisée à l’aide de TMM et de CPM afin d’éliminer la variabilité technique et de corriger la mesure de l’ARN-seq en tenant compte de la proportion de gènes exprimés dans la taille totale de la bibliothèque parmi les échantillons. Cette matrice a également été utilisée comme entrée pour les analyses de co-expression et de MDP.

CEMiTool identifie et analyse les modules de co-expression12. Les gènes qui se trouvent dans le même module sont co-exprimés, ce qui signifie qu’ils présentent des modèles d’expression similaires dans les échantillons de l’ensemble de données. Cet outil permet également d’explorer la signification biologique de chaque module identifié. Pour cela, il fournit trois analyses optionnelles - l’analyse de l’enrichissement fonctionnel par GSEA, l’analyse de l’enrichissement fonctionnel par l’analyse de surreprésentation (ORA) et l’analyse de réseau. L’analyse de l’enrichissement fonctionnel par GSEA fournit des informations sur l’expression génique de chaque module à chaque phénotype (Figure 4A). Selon cela, il permet d’identifier les modules qui sont réprimés ou induits à chaque phénotype. L’analyse ORA montre les 10 principales fonctions biologiques significativement enrichies de chaque module triées par des valeurs p ajustées. Il est possible de combiner les résultats GSEA et ORA pour identifier les processus biologiques altérés et s’ils sont réprimés ou induits par le phénotype d’intérêt. Les analyses de réseau fournissent un interactome de chaque module (Figure 4A). Il permet de visualiser la façon dont les gènes de chaque module interagissent. En outre, l’analyse du réseau fournit des informations sur les gènes les plus connectés, les hubs, qui sont identifiés par leurs noms dans le réseau. La taille des nœuds représente le degré de connectivité.

Pour identifier les DEG, un script interne a été développé pour exécuter une analyse différentielle de bout en bout dans une ligne de commande simple et concise. Le script effectue toutes les étapes nécessaires pour effectuer une analyse DEG, en comparant différents groupes d’échantillons fournis par l’utilisateur dans un fichier de métadonnées. En outre, les résultats de la DEG sont stockés dans des listes distinctes de gènes régulés à la baisse et à la hausse, puis compilés dans une figure prête à être publiée (Figure 4B) à l’aide de l’emballage EnhancedVolcano R de Bioconductor.

L’analyse du degré moléculaire de perturbation réalisée par l’outil MDP nous permet d’identifier des échantillons perturbés provenant d’individus sains et infectés11. Le score de perturbation est calculé en tenant compte de tous les gènes exprimés pour chaque échantillon infecté par le CHIKV et en considérant les échantillons sains comme groupe de référence (figure 5A). MDP effectue également l’analyse en utilisant uniquement les 25% des gènes les plus perturbés de ces échantillons (Figure 5B). Les échantillons peuvent présenter une grande variabilité compte tenu du bagage génétique, de l’âge, du sexe ou d’autres maladies antérieures. Ces facteurs peuvent modifier le profil du transcriptome. Sur cette base, MDP suggère quels échantillons sont des valeurs aberrantes biologiques potentielles pour les éliminer et améliorer les résultats en aval (Figure 5A, B).

Une analyse d’enrichissement fonctionnel par ORA peut être effectuée à l’aide d’Enrichr afin d’identifier la signification biologique des DEG. Les résultats fournis sur la base de la liste des gènes régulés à la baisse indiquent les processus biologiques réprimés dans le phénotype étudié, tandis que les résultats fournis basés sur la liste des gènes régulés à la hausse présentent les processus biologiques induits dans le phénotype d’intérêt. Les processus biologiques présentés dans le graphique à barres généré par Enrichr sont les 10 premiers ensembles de gènes enrichis basés sur le classement de la valeur p (Figure 6).

Figure 1
Figure 1 : Environnement Docker et exemple d’étude. (A) La plate-forme Docker utilise les ressources de l’hôte du système d’exploitation pour créer des « conteneurs » pour le système Linux contenant des outils d’analyse de transcriptome. (B) Le conteneur Docker simule un système Linux pour exécuter des scripts de pipeline. (C) La structure de dossiers du pipeline de transcriptome a été créée et organisée pour stocker des jeux de données et des scripts à des fins d’analyse. (D) L’étude de notre groupe a été utilisée comme exemple d’analyses de transcriptome. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2
Figure 2 : Contrôle de la qualité du séquençage. (A) Le fichier au format FASTQ est utilisé pour représenter la qualité de la séquence et de la base nucléotidique. (B) Équation de score Phred, où tous les 10 augmente une base de probabilité logarithmique mal lue. (C) et (D) Le Boxplot représente une distribution de qualité de chaque base nucléotidique avant et après l’exécution trimmomatic, respectivement. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3
Figure 3 : Processus de cartographie et d’annotation de la séquence à l’expression du nombre de gènes. (A) La cartographie consiste à aligner la séquence à partir de la transcription et la séquence du génome pour identifier la localisation génomique. (B) Les lectures mappées au génome de référence sont annotées en fonction de leur localisation génomique ou de leur chevauchement. (C) Sur la base des outils de fichiers de cartographie tels que featureCounts, l’expression des gènes est résumée. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4
Figure 4 : Réseau de gènes co-exprimés et analyse statistique des DEG. (A) Modules de co-expression basés sur l’expression des gènes et le réseau d’interactions protéine-protéine des gènes modules. (B) Analyse statistique des individus infectés de manière aiguë et en bonne santé par le CHIKV, et expression différentielle des gènes en rouge (critères p-value et log2FC), violet (valeur p uniquement), vert (seulement log2FC) et gris (aucune signification). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5
Figure 5 : Degré moléculaire de perturbation (MDP) des individus infectés de manière aiguë et en bonne santé par le CHIKV. (A) Score MDP pour chaque échantillon utilisant tous les gènes exprimés du transcriptome. (B) Score MDP pour chaque échantillon en utilisant seulement les 25% supérieurs des gènes les plus perturbés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6
Figure 6 : Analyse fonctionnelle des DEG. (A) Les gènes régulés à la hausse et (B) régulés à la baisse ont été soumis à l’outil Web Enrichr pour évaluer les voies biologiques ou les ensembles de gènes représentatifs. Les valeurs de P ont été calculées pour chaque voie et seules des différences significatives ont été montrées dans le graphique. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La préparation des bibliothèques de séquençage est une étape cruciale pour répondre aux questions biologiques de la meilleure façon possible. Le type de transcriptions d’intérêt de l’étude guidera quel type de bibliothèque de séquençage sera choisi et conduira à des analyses bioinformatiques. Par exemple, à partir du séquençage d’un agent pathogène et de l’interaction hôte, selon le type de séquençage, il est possible d’identifier des séquences à partir des deux ou simplement à partir des transcriptions de l’hôte.

L’équipement de séquençage de nouvelle génération, par exemple la plate-forme Illumina, mesure les scores de qualité de séquençage, ce qui représente la probabilité qu’une base soit appelée de manière incorrecte. Les analyses en aval sont très sensibles aux séquences de faible qualité et conduisent à une expression génique sous-lue ou mal lue. Un autre obstacle à la réalisation d’analyses et d’interprétation correctes sont les séquences d’adaptateurs. Les séquences d’adaptateurs aident à la préparation et au séquençage de la bibliothèque et, dans la majorité des cas, les adaptateurs sont également séquencés. Des études récentes ont révélé que l’impact de l’outil de cartographie sur les résultats finaux est minime13. Cependant, dans les études pathogènes-hôtes, le processus de cartographie peut générer des résultats légèrement meilleurs lors de l’essai de différents seuils afin de minimiser le problème des séquences de locus multi-cartographiées.

Les résultats de l’expression génique différentielle doivent être interprétés avec une certaine prudence, en particulier lorsque le nombre d’échantillons par groupe est très faible et que les échantillons proviennent de différents essais et interfèrent par les effets de lot du résultat des DEG. Ces résultats sont sensibles à plusieurs facteurs : (i) le filtrage des données appliqué, comme la suppression des gènes faiblement exprimés et le nombre d’échantillons à maintenir ; (ii) la conception de l’étude, pour comparer uniquement entre les groupes d’échantillons ou chaque patient infecté par rapport à tous les patients témoins, comme illustré dans l’étude CHIKV7; et iii) la méthode statistique utilisée pour identifier les DEG. Ici, nous illustrons un exemple de base avec EdgeR pour identifier les DEG en supposant une valeur de seuil de p de 0,05. Il est également connu dans la littérature que, par rapport à d’autres méthodes de référence, EdgeR peut avoir un large éventail de variabilité dans l’identification des DEG14. On pourrait envisager le compromis entre ces différentes méthodes et tenir compte du nombre de répétitions disponibles et de la complexité du plan expérimental14.

CEMiTool effectue des analyses de module de co-expression12. Cet outil est disponible via le package R sur le référentiel Bioconductor et il est également disponible dans une version conviviale via webCEMiTool; cette dernière est la version utilisée dans ce protocole actuel. Il s’agit d’un logiciel alternatif par rapport à WGCNA15 présentant plusieurs avantages par rapport à ce dernier16, notamment le fait qu’il est plus convivial17. De plus, cet outil dispose d’une méthode automatique pour filtrer les gènes, alors que dans WGCNA, l’utilisateur doit filtrer les gènes avant l’utilisation de WGCNA. En outre, cet outil a des paramètres par défaut établis, tandis que dans WGCNA, l’utilisateur doit sélectionner manuellement les analyses de paramètres. La sélection manuelle des paramètres nuit à la reproductibilité; par conséquent, la sélection automatique des paramètres garantit une meilleure reproductibilité.

Dans certains cas, CEMiTool n’est pas en mesure de trouver un seuil souple approprié, également appelé valeur β. Dans ce cas, l’utilisateur doit vérifier si les données ARN-seq présentent une forte dépendance moyenne-variance. Si la moyenne présente une forte relation linéaire avec la variance (en tenant compte de tous les gènes), l’utilisateur doit réexécuter les analyses en vérifiant le paramètre « Apply VST » pour supprimer la dépendance moyenne-variance des données transcriptomiques. Il est toujours essentiel de vérifier s’il existe une forte dépendance à la variance moyenne dans les données et de la supprimer lorsqu’elles sont présentes.

CEMiTool a été largement utilisé pour identifier et explorer la signification biologique des modules de co-expression. Une étude sur l’infection aiguë au CHIKV a montré un module avec une activité plus élevée chez les patients après 2 à 4 jours de l’apparition des symptômes7. L’enrichissement fonctionnel de ce module par ORA a montré une augmentation des monocytes et des neutrophiles7. Une étude de vaccination antigrippale utilisant le transcriptome sanguin de l’inclusion au jour 7 après la vaccination a présenté des modules de co-expression fonctionnellement enrichis pour les processus biologiques liés aux cellules T, B et tueuses naturelles, aux monocytes, aux neutrophiles, aux réponses à l’interféron et à l’activation plaquettaire18.

Compte tenu de la variabilité des ensembles de données transcriptomiques, identifier et quantifier l’hétérogénéité des données peut être un défi car de nombreuses variables peuvent influencer le profil d’expression génique7,11. Le MDP permet d’identifier et de quantifier les échantillons perturbés de sujets sains et infectés en suivant les étapes suivantes : (i) calculer une méthode de centralité (médiane ou moyenne) et un écart-type des échantillons témoins; ii) utiliser les valeurs obtenues pour calculer le z-score de tous les gènes; iii) fixer un seuil z-score absolu supérieur à 2, indiquant des écarts représentatifs par rapport aux échantillons témoins; et (iv) calculer la moyenne des valeurs des gènes en utilisant les scores filtrés pour chaque échantillon. Malgré certaines limites pour l’analyse scRNA-seq, cet outil était fonctionnel pour déterminer le score de perturbation à partir des données de microréseau et de séquençage d’ARN11. En outre, une étude antérieure a utilisé cet outil pour démontrer le degré moléculaire de perturbation élevé sur le transcriptome sanguin chez les patients atteints de tuberculose et de diabète sucré19. Dans ce travail, la perturbation des échantillons témoins et infectés de manière aiguë par le CHIKV en utilisant des individus sains comme groupe de référence a été montrée.

L’analyse d’enrichissement fonctionnel effectuée par Enrichr est l’ORA20,21. ORA est un type d’analyse d’enrichissement fonctionnel dans lequel l’utilisateur doit fournir la liste des DEG à l’outil. La liste des DEG est généralement séparée en une liste de DEG réglementée à la baisse et dans une liste de DEG réglementée à la hausse. Il existe d’autres outils pour effectuer ORA, parmi eux, le gProfiler, qui est disponible dans une version Web conviviale22 et le goseq23 qui est disponible en tant que package R sur Bioconductor. Un autre type d’analyse d’enrichissement fonctionnel est GSEA. Pour effectuer GSEA, l’utilisateur doit fournir tous les gènes dans une liste classée. Cette liste est généralement classée en fonction de l’expression du gène dans le changement de pli.

Enrichr fournit toujours les 10 premiers ensembles de gènes enrichis en fonction de leurs valeurs de p dans le résultat du graphique à barres. Par conséquent, l’utilisateur doit être vigilant lors de l’interprétation des résultats, s’il y a moins de 10 ensembles de gènes enrichis, le graphique à barres montrera également les processus biologiques non enrichis. Pour éviter cette erreur, l’utilisateur doit établir une limite pour la valeur p et observer les valeurs p des voies avant de supposer que tous les ensembles de gènes du graphique à barres sont enrichis. De plus, l’utilisateur doit être conscient que l’ordre des 10 ensembles de gènes affichés dans le graphique à barres est en fonction des valeurs p, et non des valeurs p ajustées. Dans le cas où l’utilisateur souhaite afficher tous les chemins enrichis dans un graphique à barres ou même réorganiser en fonction des valeurs p ajustées, il est recommandé à l’utilisateur de créer son propre graphique à barres à l’aide du tableau téléchargé. L’utilisateur peut créer un nouveau graphique à barres à l’aide d’Excel ou même du logiciel R.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

HN est financé par faPESP (numéros de subvention: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 et 2013/08216-2) et CNPq (313662/2017-7).

Nous sommes particulièrement reconnaissants aux subventions suivantes pour les boursiers : ANAG (Processus FAPESP 2019/13880-5), VEM (Processus FAPESP 2019/16418-0), IMSC (Processus FAPESP 2020/05284-0), APV (Processus FAPESP 2019/27146-1) et RLTO (Processus CNPq 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

Immunologie et infection numéro 181 séquençage à haut débit séquençage ARN interaction hôte-pathogène gènes exprimés différentiellement gènes co-exprimés analyse fonctionnelle degré moléculaire de perturbation des échantillons
Analyse du transcriptome à haut débit pour l’étude des interactions hôte-pathogène
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter