Biology

CorrelationCalculator et Filigree : outils pour l’analyse de réseau basée sur les données métabolomiques

Published: November 10, 2023 doi: 10.3791/65512

Gayatri Iyer¹, Marci Brandenburg^1,2, Christopher Patsalis¹, George Michailidis³, Alla Karnovsky¹

¹Department of Computational Medicine and Bioinformatics, University of Michigan, Ann Arbor, ²Taubman Health Sciences Library, University of Michigan, Ann Arbor, ³Department of Statistics, University of Florida

Summary

Nous présentons CorrelationCalculator et Filigree, deux outils pour la construction de réseaux basés sur les données et l’analyse des données métabolomiques. CorrelationCalculator prend en charge la création d’un réseau d’interaction unique de métabolites basé sur des données d’expression, tandis que Filigree permet de construire un réseau différentiel, suivi d’une analyse de clustering et d’enrichissement du réseau.

Abstract

L’un des principaux défis de l’analyse des données omiques est l’extraction de connaissances biologiques exploitables. La métabolomique ne fait pas exception. Le problème général de la relation entre les changements dans les niveaux de métabolites individuels et des processus biologiques spécifiques est aggravé par le grand nombre de métabolites inconnus présents dans les études non ciblées de chromatographie liquide et de spectrométrie de masse (LC-MS). De plus, le métabolisme secondaire et le métabolisme des lipides sont mal représentés dans les bases de données existantes sur les voies. Pour pallier ces limitations, notre groupe a développé plusieurs outils de construction et d’analyse de réseaux basés sur les données. Il s’agit notamment de CorrelationCalculator et de Filigree. Les deux outils permettent aux utilisateurs de construire des réseaux basés sur des corrélations partielles à partir de données métabolomiques expérimentales lorsque le nombre de métabolites dépasse le nombre d’échantillons. CorrelationCalculator prend en charge la construction d’un réseau unique, tandis que Filigree permet de créer un réseau différentiel à l’aide de données provenant de deux groupes d’échantillons, suivi d’une analyse de clustering et d’enrichissement du réseau. Nous décrirons l’utilité et l’application des deux outils pour l’analyse de données métabolomiques réelles.

Introduction

Au cours de la dernière décennie, la métabolomique a émergé en tant que science omique en raison des progrès des technologies analytiques telles que la chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS). Ces techniques permettent de mesurer simultanément des centaines, voire des milliers de métabolites de petites molécules, créant ainsi des ensembles de données multidimensionnels complexes. Les expériences de métabolomique peuvent être réalisées en mode ciblé ou non ciblé. Des expériences de métabolomique ciblées mesurent des classes spécifiques de métabolites. Elles sont généralement fondées sur des hypothèses, tandis que les approches non ciblées tentent de mesurer autant de métabolites que possible et sont de nature à générer des hypothèses. Les tests ciblés incluent généralement des étalons internes et permettent ainsi une quantification absolue des métabolites d’intérêt. En revanche, les essais non ciblés permettent une quantification relative et incluent de nombreux métabolites inconnus¹.

L’analyse des données métabolomiques est un processus en plusieurs étapes qui s’appuie sur de nombreux outils logiciels spécialisés¹. Il peut être divisé en trois grandes étapes : (1) le traitement des données et le contrôle de la qualité, (2) l’analyse statistique et (3) l’interprétation des données biologiques. Les outils décrits ici sont conçus pour permettre la dernière étape de l’analyse.

Une façon intuitive et populaire d’interpréter les données métabolomiques consiste à cartographier les mesures expérimentales sur les voies métaboliques. De nombreux outils ont été conçus pour y parvenir 2,3,4,5, dont Metscape^, développé par notre groupe 6. La cartographie des voies est souvent associée à l’analyse de l’enrichissement, qui permet d’identifier les voies les plus significatives ^7,8. Ces techniques ont d’abord pris de l’importance dans l’analyse des données d’expression génique et ont été appliquées avec succès pour l’analyse des données protéomiques et épigénomiques 9,10,11,12,13. Cependant, l’analyse des données métabolomiques présente un certain nombre de défis pour les approches fondées sur les connaissances. Tout d’abord, en plus des métabolites endogènes, les tests métabolomiques mesurent les composés exogènes, y compris ceux qui proviennent de la nutrition et d’autres sources environnementales. Ces composés, ainsi que les métabolites produits par les bactéries, ne peuvent pas être cartographiés sur les voies humaines ou métaboliques d’autres organismes eucaryotes. De plus, la couverture des voies du métabolisme secondaire et du métabolisme des lipides ne permet pas actuellement une cartographie à haute résolution au niveau qui soutiendrait facilement l’interprétation biologique des données^14,15.

Les techniques d’analyse de réseau basées sur les données peuvent aider à surmonter ces défis. Par exemple, les réseaux basés sur les corrélations peuvent aider à établir des relations entre les métabolites connus et inconnus et faciliter l’annotation des inconnues¹⁶. Bien que le calcul des coefficients de corrélation de Pearson soit l’approche la plus simple pour établir les relations linéaires entre les métabolites, l’inconvénient est qu’il capture à la fois les associations directes et indirectes^17,18,19. Une alternative consiste à calculer des coefficients de corrélation partielle qui permettent de faire la distinction entre les associations directes et indirectes. La modélisation graphique gaussienne (GGM) peut être utilisée pour estimer les réseaux de corrélations partielles. Cependant, GGM exige que la taille de l’échantillon et le nombre d’entités soient comparables. Cette condition est rarement remplie dans les données LC-MS non ciblées qui contiennent des mesures pour des milliers de caractéristiques métaboliques. Des techniques de régularisation peuvent être utilisées pour surmonter cette limitation. Le lasso graphique (Glasso) et la régression noeudière sont des méthodes populaires pour l’estimation régularisée du réseau de corrélation partielle^16,20.

Le premier des outils bioinformatiques présentés ici, CorrelationCalculator¹⁶, est basé sur l’algorithme de corrélation partielle creuse (DSPC). DSPC s’appuie sur une modélisation graphique au lasso dé-sparsifiée. L’hypothèse sous-jacente de l’algorithme est que le nombre de connexions entre les métabolites est considérablement plus petit que le nombre d’échantillons, c’est-à-dire que le réseau de corrélation partielle des métabolites est clairsemé. Cette hypothèse permet à DSPC de découvrir la connectivité entre un grand nombre de métabolites en utilisant moins d’échantillons, en tirant parti de techniques de régression régularisée. De plus, à l’aide d’une étape de dépolarisation pour les estimations de régression régularisées, il obtient des distributions d’échantillonnage pour les paramètres de bord qui peuvent être utilisées pour construire des intervalles de confiance et tester des hypothèses d’intérêt (par exemple, la présence ou l’absence d’un seul ou d’un groupe d’arêtes). La présence ou l’absence d’une arête dans le réseau de corrélation partielle peut ainsi être formellement testée à l’aide des valeurs p calculées.

CorrelationCalculator s’est avéré très utile pour l’analyse d’un seul groupe¹⁶ ; Cependant, l’objectif de nombreuses expériences métabolomiques est l’analyse différentielle de deux ou plusieurs conditions. Bien que CorrelationCalculator puisse être utilisé sur chacun des groupes séparément pour générer des réseaux de corrélation partiels pour chaque condition, cette approche limite le nombre d’échantillons pouvant être utilisés pour la génération de réseau. Étant donné qu’une taille d’échantillon suffisamment grande est l’une des considérations les plus importantes dans l’analyse basée sur les données, les méthodes qui peuvent tirer parti de tous les échantillons disponibles dans les données pour construire des réseaux sont hautement souhaitables. Cette approche est mise en œuvre dans le deuxième outil présenté ici, appelé Filigrane²¹. Filigree s’appuie sur l’algorithme d’analyse d’enrichissement différentiel de réseau (DNEA) précédemment publié²². Le tableau 1 présente les applications et le flux de travail des deux outils.

Nombre de conditions expérimentales (k)	k = 1	k = 2
Outil logiciel	Calculatrice de corrélation	Filigrane
Données d’entrée	• Matrice de données Métabolites x Échantillons	• Matrice de données Métabolites x Échantillons • Groupes expérimentaux
Flux de travail •Prétraitement • Estimation du réseau • Mise en cluster de réseaux • Analyse d’enrichissement	• Transformation des logs ; Mise à l’échelle automatique • DSPC (en anglais seulement) • Via des applications externes •Non	• Transformation des logs ; Mise à l’échelle automatique • Estimation d’un réseau commun • Regroupement de consensus • NetGSA (en anglais seulement)
Visualisation des données	Via une application externe, par exemple Cytoscape	Via une application externe, par exemple Cytoscape
Tester les modules métaboliques pour l’association avec le résultat d’intérêt (facultatif)	Via des applications externes	Via des applications externes

Tableau 1 : Champ d’application et flux de travail de CorrelationCalculator et Filigree.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Calculateur de corrélation

Téléchargez un exemple de fichier d’entrée délimité par des virgules contenant une liste de métabolites avec des mesures expérimentales au http://metscape.med.umich.edu/kora_data_240.csv.
Double-cliquez sur le fichier d’exemple téléchargé pour l’ouvrir.
1. Assurez-vous que le fichier contient des étiquettes pour les échantillons et les métabolites.
2. Étant donné que les échantillons sont en lignes, vérifiez que la première colonne correspond aux noms des échantillons et que la première ligne correspond aux noms des métabolites.
Téléchargez l’application Java CorrelationCalculator (http://metscape.med.umich.edu/calculator.html). Double-cliquez sur le fichier .jar téléchargé pour lancer l’application.
Dans l’onglet Entrée , cliquez sur le bouton Parcourir pour télécharger le fichier d’entrée.
Sous Spécifier le format de fichier, utilisez la flèche de la liste déroulante pour sélectionner le format de fichier d’entrée approprié. Sélectionnez Échantillons dans les lignes (Figure supplémentaire 1).
Accédez à l’onglet Normalisation des données en cliquant sur le bouton Suivant >> en bas à droite de la fenêtre.
Sous Sélectionner une ou plusieurs méthodes, cochez la case en regard de Log2-Transform Data. Cochez la case en regard de Mise à l’échelle automatique des données.
Sous Normaliser les données, cliquez sur le bouton Exécuter .
REMARQUE : Une fois la normalisation terminée, cliquez sur le bouton Afficher les données normalisées , situé sous Normaliser les données, et examinez le jeu de données mis à jour (Figure supplémentaire 2).
Sous Normaliser les données, cliquez sur le bouton Enregistrer et enregistrez le nouveau fichier de données.
Accédez à l’onglet Analyse des données en cliquant sur le bouton Suivant >> en bas à droite de la fenêtre.
Sous Calculer la corrélation de Pearson, cliquez sur Run (Exécuter). Déterminez la meilleure plage de corrélation de Pearson pour les données.
1. Cliquez sur le bouton Afficher l’histogramme . Examinez la fréquence des scores de corrélation de Pearson maximaux par entité.
2. Cliquez sur le bouton Afficher la carte thermique . Examinez la représentation de la matrice de corrélation de Pearson.
Sous Filtrer par corrélations de Pearson, laissez les nombres par défaut filtrer selon une plage de 0,00 à 1,00
REMARQUE : Faites glisser la petite flèche bleue à l’extrémité droite de 1 et la petite flèche bleue à gauche de 0 pour changer le filtre. Il est également possible d’entrer des numéros spécifiques dans les zones de texte.
Sous Sélectionner une méthode de corrélation partielle, sélectionnez la méthode souhaitée, Méthode DSPC.
REMARQUE : Si le nombre de métabolites est inférieur au nombre d’échantillons dans l’ensemble de données, seule la méthode DSPC peut être utilisée.
Sous Calculate Partial Correlations (Calculer les corrélations partielles), cliquez sur le bouton Run (Exécuter ) (Figure supplémentaire 3).
Cliquez sur Afficher le fichier CSV et affichez les résultats. Cliquez sur le bouton Enregistrer et enregistrez les résultats.
Cliquez sur le bouton View in MetScape ( Afficher dans MetScape ) pour lancer un réseau de corrélation interactif.
Voir Karnovsky, A. et ^al.6 pour plus d’informations sur l’utilisation de MetScape.
NOTE : MetScape est une application Cytoscape qui permet la création et l’exploration de réseaux de corrélation.

2. Filigrane

Téléchargez un exemple de fichier d’entrée délimité par des virgules contenant des mesures de métabolites à http://metscape.med.umich.edu/T1D_primaryMetabolites_noIS_log_scaled_sorted.csv.
Double-cliquez sur le fichier d’exemple téléchargé pour l’ouvrir.
1. Assurez-vous que le fichier contient des exemples de noms dans la colonne 1 et des affectations de groupe dans la colonne 2. Vérifiez que les colonnes restantes contiennent des métabolites/lipides.
2. Assurez-vous que chaque ligne représente un échantillon.
  REMARQUE : Les mesures des métabolites doivent être transformées logarithmique et mises à l’échelle automatiquement, sauf si elles effectuent une agrégation de caractéristiques, auquel cas les mesures ne doivent être transformées que par logarithmique.
Téléchargez l’application Java en filigrane (http://metscape.med.umich.edu/filigree.html).
REMARQUE : Un manuel d’utilisation détaillé est disponible à http://metscape.ncibi.org/v0.1.2Filigree_UserManual.pdf.
Double-cliquez sur le fichier .jar téléchargé pour lancer l’application.
Dans l’onglet Données , cliquez sur le bouton Parcourir pour télécharger le fichier d’entrée.
Sous Spécifier les colonnes/lignes, cliquez sur la flèche déroulante en regard de l’ID de l’échantillon pour sélectionner le nom de la colonne/ligne correspondante dans le fichier d’entrée. Sélectionnez Échantillon.
Sous Spécifier les colonnes/lignes, cliquez sur la flèche déroulante à côté de « Groupe » pour sélectionner la colonne/ligne correspondante dans le fichier d’entrée. Sélectionnez Groupe.
Sous Spécifier des groupes d’échantillons, cliquez sur les flèches déroulantes en regard de chaque groupe pour sélectionner la colonne de groupe correspondante dans le fichier d’entrée. Pour le groupe 1, sélectionnez Diabétique. Pour le groupe 2, sélectionnez Non diabétique.
Sous Feature Grouping (Regroupement d’entités), cochez la case en regard de la méthode souhaitée ( Calculate Feature Groups).
Cliquez sur le bouton Afficher les cartes thermiques . Affichez la carte thermique et déterminez le pourcentage de réduction souhaité.
Utilisez le curseur Réduction des caractéristiques pour sélectionner le pourcentage de réduction souhaité des entités. Faites glisser le petit cercle jusqu’à ce que le pourcentage de réduction indique un rapport caractéristique/échantillon de 1,25 (Figure supplémentaire 4).
Accédez à l’onglet Analyse en cliquant sur le bouton >> suivant en bas à droite de la fenêtre.
Sous Sélectionner le répertoire de sortie, cliquez sur le bouton Parcourir et sélectionnez l’emplacement de répertoire souhaité pour stocker les fichiers de sortie générés.
Cliquez sur le bouton Exécuter l’analyse situé en bas à gauche de la fenêtre. Les barres de progression sont mises à jour pour chaque composante de l’analyse (figure supplémentaire 5). Cliquez sur le bouton OK dans la fenêtre contextuelle affichant le message Analyse terminée avec succès.
Dans l’onglet Analysis (Analyse ), cliquez sur le bouton Browse Networks (Parcourir les réseaux ) pour ouvrir les sous-réseaux interactifs Filigrane dans un onglet de navigateur.
Cliquez sur le lien Sous-réseau 1 dans la colonne Nom du sous-réseau .
Explorez le sous-réseau interactif à l’aide des différents boutons. Cliquez sur le bouton + et zoomez sur la partie du réseau. Cliquez sur le bouton - et effectuez un zoom arrière (Figure supplémentaire 6).
Cliquez sur un noeud de groupe et faites-le glisser pour le repositionner dans le sous-réseau.
REMARQUE : La couleur du nœud représente la régulation à la hausse/à la baisse et l’opacité de la couleur représente le changement de pli supérieur/inférieur. La couleur des bords représente l’état différentiel entre les groupes.
Cliquez sur le bouton Développer les entités en haut à droite de la page pour développer tous les nœuds du groupe. Passez en revue les composés spécifiques qui composent les noeuds de groupe.
Cliquez sur le bouton Réduire les entités en haut à droite de la page pour réduire les noeuds de groupe récemment développés.
Cliquez sur le bouton By Sample Group (Par groupe d’échantillons ) en haut à droite de la page pour passer d’un seul sous-réseau à plusieurs sous-réseaux divisés par un groupe. Explorez et comparez les groupes à l’aide de cette vue des sous-réseaux (figure supplémentaire 7).
Cliquez sur le bouton Tous les échantillons pour revenir à la vue du sous-réseau unique.
Affichez le sous-réseau suivant en cliquant sur le bouton Suivant en haut à droite de la page.
Répétez les étapes 2.19 à 2.23 pour chaque sous-réseau.
Cliquez sur le lien Résultats de l’analyse d’enrichissement différentiel du réseau en haut au milieu de la fenêtre pour revenir à la vue du tableau récapitulatif répertoriant tous les sous-réseaux.
REMARQUE : Importez les fichiers de sortie de l’arête et/ou du nœud dans un autre outil logiciel, tel que Cytoscape²³, pour créer des visualisations réseau supplémentaires.

3. Considérations supplémentaires

Pour les ordinateurs Mac exécutant Big Sur (OSX 11.2) ou une version ultérieure, approuvez l’outil dans le menu Apple > Préférences Système > Sécurité et confidentialité > Général , puis sélectionnez Autoriser en bas de l’onglet.
De plus, autorisez l’accès en filigrane aux fichiers dans le menu Apple > les Préférences Système > Sécurité et confidentialité > Confidentialité en sélectionnant Fichiers et dossiers dans le menu de gauche, puis en sélectionnant Filigrane dans le menu de droite.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Pour illustrer l’utilisation de CorrelationCalculator, nous avons construit un réseau de corrélation partielle à l’aide d’un sous-ensemble des données métabolomiques de l’étude de population KORA décrite dans Krumsiek et ^al.24. L’ensemble de données contenait 151 métabolites et 240 échantillons. La figure 1 montre le réseau de corrélation partielle qui en résulte et qui a été visualisé dans Cytoscape. Le réseau contient 148 nœuds et 272 dispositifs Edge. La couleur des nœuds représente les métabolites appartenant à différentes classes chimiques, tandis que les arêtes représentent la valeur p ajustée des coefficients de corrélation partielle (valeur p ajustée < 0,05). Notamment, bien qu’il n’ait pas utilisé d’informations préalables, CorrelationCalculator a été en mesure de regrouper les métabolites chimiquement apparentés. Par exemple, les phosphatidylcholines et les lysophosphatidylcholines sont étroitement liées dans le réseau. La visualisation des changements de métabolites dans le contexte de ce type de réseau peut faciliter la génération d’hypothèses, aider à planifier de futures expériences et permettre la préparation de manuscrits. Pour illustrer un flux de travail potentiel utilisant un réseau de métabolites à corrélation partielle, nous avons effectué un regroupement de réseaux consensuels comme décrit dans Ma et ^al.22, ce qui a permis d’identifier 9 sous-réseaux ou modules métaboliques. Ces modules étaient en bon accord avec les classes chimiques, c’est-à-dire que les métabolites appartenant à la même classe chimique avaient tendance à faire partie du même module métabolique. L’utilisateur peut accéder à l’outil de clustering clusterNet à l’adresse https://github.com/Karnovsky-Lab/clusterNet.

Figure 1 : Exemple représentatif d’un réseau CorrelationCalculator. Le réseau a été construit à partir d’un sous-ensemble des données métabolomiques de l’étude de population KORA²⁴ composé de 151 métabolites chez 240 sujets. Les nœuds représentent les métabolites, et les arêtes qui les relient sont pondérées par la valeur de p ajustée des coefficients de corrélation partielle (valeur de p ajustée < 0,05). La forme des nœuds représente différentes classes métaboliques, et la couleur représente les modules métaboliques obtenus en regroupant le réseau à l’aide de la méthode de clustering par consensus. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Nous illustrons l’application de Filigree en analysant un ensemble de données provenant d’un modèle murin de diabète de type I (DT1)^25,26. Des mesures des métabolites plasmatiques de souris DT1 et non diabétiques (NOD) ont été utilisées pour générer un réseau de corrélation partielle différentielle (Figure 2). Notamment, nous observons un degré plus élevé de connectivité réseau dans le groupe non diabétique. Les étapes suivantes de l’analyse ont permis d’identifier douze modules métaboliques, dont neuf étaient significativement différents entre les souris DT1 et non diabétiques (FDR < 0,05). Nous renvoyons le lecteur à la publication originale pour plus d’informations sur les conclusions biologiques qui peuvent être tirées de cette analyse²¹.

Figure 2 : Exemple représentatif d’un réseau en filigrane. Le réseau différentiel a été construit à l’aide des niveaux de 163 métabolites de 71 souris (30 DT1 et 41 non-DT1)^25,26. Les arêtes différentielles entre les groupes DT1 et non-DT1 sont indiquées en rose et en bleu, respectivement. Les noeuds sont colorés en fonction du changement de pli. Le tableau montre les résultats d’enrichissement produits par Filigree. Neuf des douze sous-réseaux identifiés présentaient des différences significatives entre le DT1 et les non-DT1 (valeur p ajustée < 0,05). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure supplémentaire 1 : CorrCalc_InputTab. Capture d’écran de l’onglet Entrée de la calculatrice de corrélation. Veuillez cliquer ici pour télécharger ce fichier.

Figure supplémentaire 2 : CorrCalc_DataNormTab. Capture d’écran de l’onglet Normalisation des données de la calculatrice de corrélation. Les données de transformation Log-2 et les données de mise à l’échelle automatique sont cochées. Veuillez cliquer ici pour télécharger ce fichier.

Figure supplémentaire 3 : CorrCalc_DataAnalTab. Capture d’écran de l’onglet Analyse des données du calculateur de corrélation montrant le filtrage sur la corrélation de Pearson de 0 à 0,8. De plus, la méthode DSPC a été sélectionnée. Veuillez cliquer ici pour télécharger ce fichier.

Figure supplémentaire 4 : Filigree_DataTab. Capture d’écran de l’onglet Données de Filigree. Des colonnes, des lignes et des groupes ont été spécifiés. La méthode Calculate Feature Groups (Calculer les groupes d’entités ) a été sélectionnée avec une réduction des caractéristiques de 1,25 rapport entité/échantillon. Veuillez cliquer ici pour télécharger ce fichier.

Figure supplémentaire 5 : Filigree_AnalysisTab. Capture d’écran de l’onglet Analyse de Filigree montrant la progression des différents composants d’analyse. Veuillez cliquer ici pour télécharger ce fichier.

Figure supplémentaire 6 : Filigree_Subnetwork1. Sous-réseau généré à partir de Filigrane. La couleur du nœud représente la régulation à la hausse/à la baisse, et l’opacité de la couleur représente le changement de pli supérieur/inférieur. La couleur des bords représente l’état différentiel entre les groupes. Veuillez cliquer ici pour télécharger ce fichier.

Figure supplémentaire 7 : Filigree_Subnetwork_SampleGroup. Sous-réseau séparé par groupe. Le réseau de gauche représente les échantillons de diabétiques et le réseau de droite représente les échantillons de non-diabétiques. La couleur du nœud représente le niveau d’expression proportionnel à la moyenne du groupe. Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Les méthodes d’analyse de réseau basées sur les corrélations partielles mises en œuvre dans CorrelationCalculator et Filigree aident à surmonter certaines des limites des analyses des voies métaboliques basées sur les connaissances, en particulier pour les ensembles de données avec une prévalence élevée de métabolites inconnus et une couverture limitée des voies métaboliques (par exemple, les données lipidomiques). Ces outils ont été largement utilisés par la communauté des chercheurs pour analyser un large éventail de données métabolomiques et lipidomiques 14,22,27,28,29,30. Par exemple, CorrelationCalculator a été utilisé pour analyser les données de nombreux systèmes biologiques allant du microbiome et des plantes aux maladies humaines^31,32,33,34. Nous illustrons ici comment l’analyse de réseau basée sur les données, rendue possible par nos outils, peut être combinée avec l’analyse de clustering et de régression pour identifier les modules métaboliques associés au phénotype d’intérêt.

Les réseaux de corrélation partielle générés à l’aide de CorrelationCalculator et de Filigree peuvent être regroupés à l’aide d’algorithmes de clustering de graphes pour produire des modules métaboliques. Ces modules ont tendance à comprendre des métabolites qui sont chimiquement ou fonctionnellement liés les uns aux autres. De tels modules sont très utiles non seulement du point de vue de la visualisation, mais aussi du point de vue de la pertinence biologique. L’étude des relations entre les modules métaboliques et les résultats phénotypiques d’intérêt (par exemple, le résultat de survie) peut fournir plus de puissance statistique et générer des informations biologiques supplémentaires par rapport à l’analyse de métabolites individuels.

Les modules métaboliques identifiés par des approches de clustering en réseau peuvent également être utilisés dans l’analyse d’enrichissement. Filigree utilise des modules métaboliques identifiés par regroupement consensuel au lieu de voies biologiques prédéfinies. Bien que les modules métaboliques basés sur des corrélations partielles ne soient pas identiques aux voies, ils regroupent systématiquement des métabolites chimiquement et biochimiquement similaires (par exemple, les acides aminés, les acylcarnitines, les lipides de la même classe, etc.). Filigree teste en outre la signification de ces modules à l’aide de l’algorithme NetGSA^22,35. En plus des nœuds différentiels, NetGSA tient compte des différences spécifiques à la maladie dans la structure du réseau.

L’un des problèmes à prendre en compte lors de l’utilisation de CorrelationCalculator et de Filigree pour l’analyse des données métabolomiques et lipidomiques de la vie réelle est la relation entre le nombre de métabolites et le nombre d’échantillons dans une expérience donnée. Alors que les études épidémiologiques à grande échelle portant sur des milliers d’échantillons sont de plus en plus courantes, la taille de l’échantillon dans la majorité des expériences métabolomiques reste modeste. Cela est particulièrement vrai pour les études mécanistiques impliquant des systèmes où l’on s’attend à une faible variation biologique (c’est-à-dire des lignées cellulaires ou des modèles animaux génétiquement homogènes). Les algorithmes statistiques mis en œuvre dans les deux outils peuvent être appliqués dans des situations où le nombre de métabolites dépasse le nombre d’échantillons, mais l’augmentation de ce ratio conduit à des réseaux plus clairsemés.

Une autre considération importante pour l’application des outils décrits ici concerne l’analyse de données métabolomiques non ciblées dont on sait qu’elles contiennent un grand nombre de caractéristiques redondantes ou dégénérées³⁶, qui peuvent inclure des isotopes, des adduits chimiques, des fragments à la source et des contaminants. Étant donné que de nombreuses caractéristiques dégénérées proviennent du même métabolite, elles ont tendance à avoir un degré élevé de corrélation. L’analyse partielle de ces données basée sur des corrélations peut nécessiter une annotation minutieuse et la suppression des caractéristiques dégénérées.

En conclusion, les outils présentés ici offrent une alternative viable aux outils d’analyse des voies basés sur la connaissance pour l’interprétation des données métabolomiques.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont pas d’intérêts financiers concurrents.

Acknowledgments

Ce travail a été soutenu par une subvention NIH 1U01CA235487.

Materials

Name	Company	Catalog Number	Comments
CorrelationCalculator	JAVA	http://metscape.med.umich.edu/calculator.html
clusterNet		https://github.com/Karnovsky-Lab/clusterNet
Cytoscape	Cytoscape	https://cytoscape.org/
Filigree	JAVA	http://metscape.med.umich.edu/filigree.html
MetScape	Cytoscape	https://apps.cytoscape.org/apps/metscape	Cytoscape application that allows for the creation and exploration of correlation networks.

DOWNLOAD MATERIALS LIST

References

Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
Lee, P. H., O'Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
Bühlmann, P., Van De Geer, S. Statistics for High-Dimensional Data: Methods, Theory and Applications. , Springer Berlin, Heidelberg. (2011).
Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).

Biology

CorrelationCalculator et Filigree : outils pour l’analyse de réseau basée sur les données métabolomiques

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.