Summary

CorrelationCalculator と Filigree: メタボロミクスデータのデータ駆動型ネットワーク解析ツール

Published: November 10, 2023
doi:

Summary

本稿では、メタボロミクスデータのデータ駆動型ネットワーク構築と解析のための2つのツールであるCorrelationCalculatorとFiligreeを紹介します。 CorrelationCalculator は、発現データに基づく代謝物の単一の相互作用ネットワークの構築をサポートし、Filigree は差動ネットワークの構築と、それに続くネットワークのクラスタリングと濃縮分析を可能にします。

Abstract

オミクスデータの解析における重要な課題は、実用的な生物学的知識を抽出することです。メタボロミクスも例外ではありません。個々の代謝産物のレベルの変化を特定の生物学的プロセスに関連付けるという一般的な問題は、ノンターゲット液体クロマトグラフィー質量分析(LC-MS)研究に存在する多数の未知の代謝物によって悪化します。さらに、二次代謝と脂質代謝は、既存のパスウェイデータベースでは十分に表現されていません。これらの限界を克服するために、私たちのグループでは、データ駆動型ネットワークの構築と解析のためのいくつかのツールを開発しました。これらには、CorrelationCalculator と Filigree が含まれます。どちらのツールも、代謝物の数がサンプル数を超えた場合に、実験メタボロミクスデータから部分相関ベースのネットワークを構築できます。CorrelationCalculator は 1 つのネットワークの構築をサポートしますが、Filigree では 2 つのサンプル グループからのデータを利用して差分ネットワークを構築し、その後にネットワーク クラスタリングとエンリッチメント分析を行うことができます。本稿では、実際のメタボロミクスデータを解析するための両ツールの有用性と応用について述べる。

Introduction

過去10年間で、メタボロミクスは、ガスクロマトグラフ質量分析(GC-MS)や液体クロマトグラフィー質量分析(LC-MS)などの分析技術の進歩により、オミクス科学として登場しました。これらの技術により、数百から数千の低分子代謝物を同時に測定し、複雑な多次元データセットを作成できます。メタボロミクス実験は、ターゲットモードまたはノンターゲットモードで実行できます。ターゲットメタボロミクス実験では、特定のクラスの代謝物を測定します。それらは通常仮説主導型ですが、ノンターゲットアプローチはできるだけ多くの代謝物を測定しようとし、本質的に仮説を生成します。ターゲットアッセイには通常、内部標準が含まれているため、目的の代謝物の絶対定量が可能です。対照的に、ノンターゲットアッセイでは相対定量が可能で、多くの未知の代謝物が含まれています1。

メタボロミクスデータの解析は、多くの専用ソフトウェアツールを活用する多段階のプロセスです1。大きく分けて、(1)データ処理と品質管理、(2)統計解析、(3)生物学的データの解釈の3つに分けられます。ここで説明するツールは、解析の後半のステップを可能にするように設計されています。

メタボロミクスデータを解釈する直感的で一般的な方法は、実験測定値を代謝経路にマッピングすることです。この2,3,4,5を実現するために、私たちのグループ6によって開発されたMetscapeを含む多くのツールが設計されました。パスウェイマッピングは、多くの場合、最も重要なパスウェイを特定するのに役立つエンリッチメント分析と組み合わされます7,8。これらの手法は、遺伝子発現データの解析において最初に注目され、プロテオミクスおよびエピゲノミクスデータの解析に応用されてきました9,10,11,12,13。しかし、メタボロミクスデータの解析には、知識ベースのアプローチには多くの課題があります。まず、メタボロミクスアッセイでは、内因性代謝物に加えて、栄養やその他の環境源に由来するものを含む外因性化合物を測定します。これらの化合物は、細菌によって産生される代謝産物と同様に、他の真核生物のヒトまたは代謝経路にマッピングすることはできません。さらに、二次代謝および脂質代謝の経路カバレッジは、現在、データの生物学的解釈を容易に支持するレベルでの高解像度マッピングを可能にしていない14,15

データ駆動型のネットワーク解析手法は、これらの課題の克服に役立ちます。例えば、相関ベースのネットワークは、既知および未知の両方の代謝物間の関係を導出し、未知物質のアノテーションを容易にする16。ピアソンの相関係数を計算することは、代謝物間の線形関係を確立するための最も簡単なアプローチですが、欠点は、直接的および間接的な関連性17,18,19の両方を捉えることです。別の方法として、直接的な関連性と間接的な関連性を区別できる偏相関係数を計算する方法があります。ガウス グラフィカル モデリング (GGM) を使用して、偏相関ネットワークを推定できます。ただし、GGMでは、サンプルサイズと特徴の数が同等である必要があります。この条件は、何千もの代謝特性の測定値を含むノンターゲット LC-MS データではめったに満たされません。正則化手法は、この制限を克服するために利用できます。グラフィカルななげなわ(Glasso)とノードワイズ回帰は、偏相関ネットワーク16,20の正則化推定のための一般的な方法です。

ここで紹介するバイオインフォマティクスツールの最初の CorrelationCalculator16 は、偏りのない疎部分相関 (DSPC) アルゴリズムに基づいています。DSPC は、疎分散化されたグラフィカルななげなわモデリングに依存しています。アルゴリズムの根底にある仮定は、代謝産物間の結合の数がサンプル数よりもかなり少ない、つまり代謝産物の偏相関ネットワークが疎であるということです。この仮定により、DSPCは、正則化された回帰手法を活用して、より少ないサンプルで多数の代謝物間の接続性を発見できます。さらに、正則化された回帰推定値にバイアス除去ステップを使用して、信頼区間を構築し、関心のある仮説(たとえば、単一またはエッジのグループの有無)をテストするために使用できるエッジパラメータのサンプリング分布を取得します。したがって、偏相関ネットワークにおけるエッジの有無は、計算されたp値を使用して正式にテストできます。

CorrelationCalculator は、単一グループ分析に非常に役立つことが証明されました16。しかし、多くのメタボロミクス実験の目的は、2つ以上の条件の差動分析です。CorrelationCalculator を各グループで個別に使用して、各条件の偏相関ネットワークを生成できますが、この方法では、ネットワーク生成に使用できるサンプルの数が制限されます。データドリブン解析では、サンプルサイズが十分に大きいことが最大の考慮事項の1つであるため、データ内の利用可能なすべてのサンプルを活用してネットワークを構築できる手法が強く望まれます。このアプローチは、ここで紹介する 2 番目のツールである Filigree21 に実装されています。Filigreeは、以前に公開された差分ネットワークエンリッチメント分析(DNEA)アルゴリズム22に依存しています。 表 1 は、両方のツールのアプリケーションとワークフローを示しています。

実験条件数(k) k = 1 k = 2
ソフトウェアツール 相関電卓 細工
入力データ • 代謝物 x サンプルデータマトリックス • 代謝物 x サンプルデータマトリックス
• 実験グループ
ワークフロー
•前処理
• ネットワーク推定
• ネットワーク クラスタリング
• エンリッチメント分析

•ログ変換。自動スケーリング
• DSPC (英語)
•外部アプリ経由
•いいえ

•ログ変換。自動スケーリング
• 共同ネットワーク推定
• コンセンサスクラスタリング
• NetGSAの
データの可視化 外部アプリ(例:Cytoscape)経由 外部アプリ(例:Cytoscape)経由
関心のある結果との関連について代謝モジュールをテストする(オプション) 外部アプリ経由 外部アプリ経由

表1:CorrelationCalculatorとFiligreeの適用範囲とワークフロー。

Protocol

1.相関電卓 http://metscape.med.umich.edu/kora_data_240.csv での実験的測定値を含む代謝物のリストを含むサンプルのコンマ区切り入力ファイルをダウンロードします。 ダウンロードしたサンプルファイルをダブルクリックして開きます。ファイルにサンプルと代謝物の両方のラベルが含まれていることを確認します。 サンプルは行単位であるため、最初の列が…

Representative Results

CorrelationCalculatorの使用を説明するために、 Krumsiek et al.24に記載されているKORA集団研究のメタボロミクスデータのサブセットを使用して偏相関ネットワークを構築しました。データセットには、151 の代謝物と 240 のサンプルが含まれていました。 図1 は、Cytoscapeで可視化した偏相関ネットワークを示しています。ネットワークには 148 個のノード?…

Discussion

CorrelationCalculator と Filigree に実装された部分相関ベースのネットワーク解析手法は、特に未知の代謝物の有病率が高く、代謝経路のカバレッジが限られているデータセット(リピドミクスデータなど)において、知識ベースの代謝経路解析の限界を克服するのに役立ちます。これらのツールは、幅広いメタボロミクスおよびリピドミクスデータを分析するために研究コミュニティで広く使用され…

Divulgations

The authors have nothing to disclose.

Acknowledgements

この研究は、NIH 1U01CA235487助成金の支援を受けました。

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/fr/65512?article_type=t

Play Video

Citer Cet Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video