Nous présentons CorrelationCalculator et Filigree, deux outils pour la construction de réseaux basés sur les données et l’analyse des données métabolomiques. CorrelationCalculator prend en charge la création d’un réseau d’interaction unique de métabolites basé sur des données d’expression, tandis que Filigree permet de construire un réseau différentiel, suivi d’une analyse de clustering et d’enrichissement du réseau.
L’un des principaux défis de l’analyse des données omiques est l’extraction de connaissances biologiques exploitables. La métabolomique ne fait pas exception. Le problème général de la relation entre les changements dans les niveaux de métabolites individuels et des processus biologiques spécifiques est aggravé par le grand nombre de métabolites inconnus présents dans les études non ciblées de chromatographie liquide et de spectrométrie de masse (LC-MS). De plus, le métabolisme secondaire et le métabolisme des lipides sont mal représentés dans les bases de données existantes sur les voies. Pour pallier ces limitations, notre groupe a développé plusieurs outils de construction et d’analyse de réseaux basés sur les données. Il s’agit notamment de CorrelationCalculator et de Filigree. Les deux outils permettent aux utilisateurs de construire des réseaux basés sur des corrélations partielles à partir de données métabolomiques expérimentales lorsque le nombre de métabolites dépasse le nombre d’échantillons. CorrelationCalculator prend en charge la construction d’un réseau unique, tandis que Filigree permet de créer un réseau différentiel à l’aide de données provenant de deux groupes d’échantillons, suivi d’une analyse de clustering et d’enrichissement du réseau. Nous décrirons l’utilité et l’application des deux outils pour l’analyse de données métabolomiques réelles.
Au cours de la dernière décennie, la métabolomique a émergé en tant que science omique en raison des progrès des technologies analytiques telles que la chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS). Ces techniques permettent de mesurer simultanément des centaines, voire des milliers de métabolites de petites molécules, créant ainsi des ensembles de données multidimensionnels complexes. Les expériences de métabolomique peuvent être réalisées en mode ciblé ou non ciblé. Des expériences de métabolomique ciblées mesurent des classes spécifiques de métabolites. Elles sont généralement fondées sur des hypothèses, tandis que les approches non ciblées tentent de mesurer autant de métabolites que possible et sont de nature à générer des hypothèses. Les tests ciblés incluent généralement des étalons internes et permettent ainsi une quantification absolue des métabolites d’intérêt. En revanche, les essais non ciblés permettent une quantification relative et incluent de nombreux métabolites inconnus1.
L’analyse des données métabolomiques est un processus en plusieurs étapes qui s’appuie sur de nombreux outils logiciels spécialisés1. Il peut être divisé en trois grandes étapes : (1) le traitement des données et le contrôle de la qualité, (2) l’analyse statistique et (3) l’interprétation des données biologiques. Les outils décrits ici sont conçus pour permettre la dernière étape de l’analyse.
Une façon intuitive et populaire d’interpréter les données métabolomiques consiste à cartographier les mesures expérimentales sur les voies métaboliques. De nombreux outils ont été conçus pour y parvenir 2,3,4,5, dont Metscape, développé par notre groupe 6. La cartographie des voies est souvent associée à l’analyse de l’enrichissement, qui permet d’identifier les voies les plus significatives 7,8. Ces techniques ont d’abord pris de l’importance dans l’analyse des données d’expression génique et ont été appliquées avec succès pour l’analyse des données protéomiques et épigénomiques 9,10,11,12,13. Cependant, l’analyse des données métabolomiques présente un certain nombre de défis pour les approches fondées sur les connaissances. Tout d’abord, en plus des métabolites endogènes, les tests métabolomiques mesurent les composés exogènes, y compris ceux qui proviennent de la nutrition et d’autres sources environnementales. Ces composés, ainsi que les métabolites produits par les bactéries, ne peuvent pas être cartographiés sur les voies humaines ou métaboliques d’autres organismes eucaryotes. De plus, la couverture des voies du métabolisme secondaire et du métabolisme des lipides ne permet pas actuellement une cartographie à haute résolution au niveau qui soutiendrait facilement l’interprétation biologique des données14,15.
Les techniques d’analyse de réseau basées sur les données peuvent aider à surmonter ces défis. Par exemple, les réseaux basés sur les corrélations peuvent aider à établir des relations entre les métabolites connus et inconnus et faciliter l’annotation des inconnues16. Bien que le calcul des coefficients de corrélation de Pearson soit l’approche la plus simple pour établir les relations linéaires entre les métabolites, l’inconvénient est qu’il capture à la fois les associations directes et indirectes17,18,19. Une alternative consiste à calculer des coefficients de corrélation partielle qui permettent de faire la distinction entre les associations directes et indirectes. La modélisation graphique gaussienne (GGM) peut être utilisée pour estimer les réseaux de corrélations partielles. Cependant, GGM exige que la taille de l’échantillon et le nombre d’entités soient comparables. Cette condition est rarement remplie dans les données LC-MS non ciblées qui contiennent des mesures pour des milliers de caractéristiques métaboliques. Des techniques de régularisation peuvent être utilisées pour surmonter cette limitation. Le lasso graphique (Glasso) et la régression noeudière sont des méthodes populaires pour l’estimation régularisée du réseau de corrélation partielle16,20.
Le premier des outils bioinformatiques présentés ici, CorrelationCalculator16, est basé sur l’algorithme de corrélation partielle creuse (DSPC). DSPC s’appuie sur une modélisation graphique au lasso dé-sparsifiée. L’hypothèse sous-jacente de l’algorithme est que le nombre de connexions entre les métabolites est considérablement plus petit que le nombre d’échantillons, c’est-à-dire que le réseau de corrélation partielle des métabolites est clairsemé. Cette hypothèse permet à DSPC de découvrir la connectivité entre un grand nombre de métabolites en utilisant moins d’échantillons, en tirant parti de techniques de régression régularisée. De plus, à l’aide d’une étape de dépolarisation pour les estimations de régression régularisées, il obtient des distributions d’échantillonnage pour les paramètres de bord qui peuvent être utilisées pour construire des intervalles de confiance et tester des hypothèses d’intérêt (par exemple, la présence ou l’absence d’un seul ou d’un groupe d’arêtes). La présence ou l’absence d’une arête dans le réseau de corrélation partielle peut ainsi être formellement testée à l’aide des valeurs p calculées.
CorrelationCalculator s’est avéré très utile pour l’analyse d’un seul groupe16 ; Cependant, l’objectif de nombreuses expériences métabolomiques est l’analyse différentielle de deux ou plusieurs conditions. Bien que CorrelationCalculator puisse être utilisé sur chacun des groupes séparément pour générer des réseaux de corrélation partiels pour chaque condition, cette approche limite le nombre d’échantillons pouvant être utilisés pour la génération de réseau. Étant donné qu’une taille d’échantillon suffisamment grande est l’une des considérations les plus importantes dans l’analyse basée sur les données, les méthodes qui peuvent tirer parti de tous les échantillons disponibles dans les données pour construire des réseaux sont hautement souhaitables. Cette approche est mise en œuvre dans le deuxième outil présenté ici, appelé Filigrane21. Filigree s’appuie sur l’algorithme d’analyse d’enrichissement différentiel de réseau (DNEA) précédemment publié22. Le tableau 1 présente les applications et le flux de travail des deux outils.
Nombre de conditions expérimentales (k) | k = 1 | k = 2 |
Outil logiciel | Calculatrice de corrélation | Filigrane |
Données d’entrée | • Matrice de données Métabolites x Échantillons | • Matrice de données Métabolites x Échantillons • Groupes expérimentaux |
Flux de travail •Prétraitement • Estimation du réseau • Mise en cluster de réseaux • Analyse d’enrichissement |
• Transformation des logs ; Mise à l’échelle automatique • DSPC (en anglais seulement) • Via des applications externes •Non |
• Transformation des logs ; Mise à l’échelle automatique • Estimation d’un réseau commun • Regroupement de consensus • NetGSA (en anglais seulement) |
Visualisation des données | Via une application externe, par exemple Cytoscape | Via une application externe, par exemple Cytoscape |
Tester les modules métaboliques pour l’association avec le résultat d’intérêt (facultatif) | Via des applications externes | Via des applications externes |
Tableau 1 : Champ d’application et flux de travail de CorrelationCalculator et Filigree.
Les méthodes d’analyse de réseau basées sur les corrélations partielles mises en œuvre dans CorrelationCalculator et Filigree aident à surmonter certaines des limites des analyses des voies métaboliques basées sur les connaissances, en particulier pour les ensembles de données avec une prévalence élevée de métabolites inconnus et une couverture limitée des voies métaboliques (par exemple, les données lipidomiques). Ces outils ont été largement utilisés par la communauté des chercheurs pour analyser …
The authors have nothing to disclose.
Ce travail a été soutenu par une subvention NIH 1U01CA235487.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |