An Integrated Workflow of Identification and Quantification on FDR Control-Based Untargeted Metabolome

Un flux de travail intégré d’identification et de quantification sur le métabolome non ciblé basé sur le contrôle FDR

Published: September 20, 2022

doi:

Dehua Li*¹, Junze Liang*¹, Yongjian Zhang, Gong Zhang²

¹Key Laboratory of Functional Protein Research of Guangdong Higher Education Institutes and MOE Key Laboratory of Tumor Molecular Biology, Institute of Life and Health Engineering, College of Life Science and Technology,Jinan University, ²Chi-Biotech Co. Ltd.

Summary

Nous avons construit un flux de travail métabolomique non ciblé qui intégrait XY-Meta et metaX ensemble. Dans ce protocole, nous avons montré comment utiliser XY-Meta pour générer une bibliothèque spectrale de leurre à partir de références de spectres en libre accès, puis effectué un contrôle FDR et utilisé le metaX pour quantifier les métabolites après avoir identifié les spectres métabolomiques.

Abstract

Les techniques métabolomiques non ciblées sont largement utilisées ces dernières années. Cependant, l’augmentation rapide du débit et du nombre d’échantillons crée une énorme quantité de spectres, ce qui pose des défis pour le contrôle de la qualité des spectres de spectrométrie de masse. Pour réduire les faux positifs, un contrôle de la qualité du taux de fausse découverte (FDR) est nécessaire. Récemment, nous avons développé un logiciel pour le contrôle FDR de l’identification du métabolome non ciblé qui est basé sur une stratégie Target-Decoy nommée XY-Meta. Ici, nous avons démontré un pipeline d’analyse complet qui intègre XY-Meta et metaX ensemble. Ce protocole montre comment utiliser XY-meta pour générer une base de données de leurres à partir d’une base de données de référence existante et effectuer un contrôle FDR à l’aide de la stratégie Target-Decoy pour l’identification du métabolome à grande échelle sur un ensemble de données en libre accès. L’analyse différentielle et l’annotation des métabolites ont été effectuées après l’exécution de metaX pour la détection et la quantification des pics de métabolites. Afin d’aider davantage de chercheurs, nous avons également développé une plate-forme d’analyse conviviale basée sur le cloud pour ces analyses, sans avoir besoin de compétences en bioinformatique ou de langage informatique.

Introduction

Les métabolites jouent un rôle important dans les processus biologiques. Les métabolites sont souvent des régulateurs de divers processus tels que le transfert d’énergie, les régulations hormonales, la régulation des neurotransmetteurs, les communications cellulaires et les modifications post-traductionnelles des protéines, etc. ^1,2,3,4. La métabolomique non ciblée fournit une vue globale de nombreux métabolites ^5,6. Avec les progrès de la spectrométrie de masse et des technologies de chromatographie, le débit des spectres MS/MS du métabolome augmente rapidement ces dernières années 7,8,9,10,11. Pour identifier les métabolites de ces énormes ensembles de données, divers logiciels d’annotation ont été développés¹¹, tels que MZmine¹², MS-FINDER¹³, CFM-ID¹⁴, MetFrag¹⁵ et SLAW¹⁶. Cependant, ces identifications contiennent souvent de nombreux faux positifs. Les raisons incluent: (1) Les spectres MS / MS contiennent un bruit aléatoire, ce qui peut induire en erreur l’appariement des pics. (2) Les isomères et les différences d’énergies de fragmentation provoquent de multiples empreintes spectrales et augmentent ainsi le volume de la bibliothèque de référence. (3) La qualité des bibliothèques de référence varie. Une norme appropriée pour construire une bonne bibliothèque spectrale de référence est nécessaire. Par conséquent, un contrôle systématique du taux de fausse découverte (FDR) pour la métabolomique non ciblée est essentiel pour la recherche sur le métabolome fonctionnel 7,8,9,17.

L’approche empirique de Bayes et la stratégie Target-Decoy se sont toutes deux attaquées au problème du contrôle FDR en général. Kerstin Scheubert et al. ont montré que la stratégie Target-Decoy sur la base de données de leurres générée à partir de la méthode basée sur l’arbre de fragmentation est la meilleure méthode pour le contrôle FDR⁹. Xusheng Wang et al. ont conçu une méthode de génération de leurres basée sur la règle de l’octet en chimie et ont amélioré la précision de l’estimation FDR¹⁷. La bibliothèque spectrale pour la génération d’une base de données de leurres a été démontrée pour de meilleures performances¹⁸. Ici, nous avons amélioré la méthode basée sur la bibliothèque spectrale et développé un logiciel appelé XY-Meta¹⁹ qui peut encore améliorer la précision de l’estimation FDR. Il utilise la bibliothèque spectrale de référence existante pour générer une bibliothèque de leurres pour le contrôle FDR dans le cadre du schéma Target-Decoy. XY-Meta prend en charge ses propres algorithmes de correspondance spectrale et de similitude de cosinus. Il permet des modes de recherche conventionnels et de recherche itérative. Dans l’étape de l’évaluation FDR, il prend en charge le mode concaténé cible-leurre et le mode séparé. Pour une meilleure flexibilité, XY-Meta accepte les bibliothèques de leurres externes.

La détection et la quantification des pics de métabolites constituent également une étape importante de l’analyse du métabolome non ciblé. La détection des pics est la principale méthode d’identification du métabolome. En général, la précision de la détection des pics de métabolites a été affectée par de multiples facteurs, tels que les signaux sonores de spectrométrie de masse, la faible abondance de métabolites, les contaminants et les produits de dégradation des métabolites²⁰. Lorsque le nombre d’échantillons de est trop grand ou que la colonne de chromatographie liquide a été remplacée dans des expériences de métabolome non ciblé, des effets de lot remarquables peuvent apparaître, ce qui constitue un défi majeur pour la quantification du métabolome 21,22,23. Actuellement, des logiciels comme XCMS²⁴, Workflow4Metabolomic²⁵, iMet-Q²⁶ et metaX¹⁹ peuvent effectuer la détection de pointe et la quantification du métabolome non ciblé, mais nous suggérons que le pipeline de metaX est plus complet et plus facile à utiliser. Ici, nous démontrons le processus d’identification et de contrôle FDR pour un ensemble de données accessible au public msv000084112 à l’aide de XY-Meta, ainsi que la détection et la quantification des pics de métabolites à l’aide de metaX. Ce flux de travail ne nécessite que deux groupes et chaque groupe a besoin d’au moins deux exemples. Les données spectrales MS/MS sont nécessaires, indépendamment de la plate-forme du spectromètre de masse, du mode d’ionisation, du mode de charge et du type d’échantillon, et peuvent prendre en charge la normalisation basée sur l’échantillon et la normalisation basée sur les pics. En suivant cet exemple, les chercheurs peuvent effectuer l’identification et la quantification métabolomiques d’une manière facile à manipuler. L’utilisation de ce pipeline nécessite une capacité de programmation R. Pour aider le chercheur sans aucune connaissance en programmation, nous avons également développé une plate-forme d’analyse cloud pour l’analyse métabolomique. Nous avons fait la démonstration de cette plate-forme d’analyse cloud dans le document supplémentaire 5.

Protocol

1. Préparer des ensembles de données métabolomiques pour l’analyse REMARQUE: Dans cette démonstration, nous utilisons des ensembles de données métabolomiques sans échantillon QC. Des données pour les cas et les groupes témoins sont nécessaires. À des fins de démonstration, nous utilisons un ensemble de données publiques dans la base de données GNPS27. Accédez à la page Web https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.j…

Representative Results

Les données brutes de msv000084112 ont été converties par msconvert.exe et généré des fichiers mgf (Supplementary Material S6). XY-Meta a généré le fichier GNPS-NIST14-MATCHES_Decoy.mgf sous le dossier /database. Il s’agit de la bibliothèque de leurres générée à partir de la bibliothèque spectrale de référence d’origine GNPS-NIST14-MATCHES.mgf. Cette bibliothèque de leurres peut être réutilisée. Lors de la réutilisation de cette bibliothèque de leurr…

Discussion

Le contrôle FDR des métabolites non ciblés a été un grand défi. Ici, nous avons démontré un pipeline complet d’analyse métabolomique non ciblée à grande échelle (qualitative et quantitative) avec contrôle FDR. Cela réduit efficacement les faux positifs, qui sont très fréquents dans l’analyse de la SEP.

La préparation d’une bibliothèque spectrale de référence appropriée pour votre étude est un point clé. Une identification MS/MS réussie et sensible nécessite non s…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail est soutenu par le National Key Research and Development Program (2018YFC0910200/2017YFA0505001) et le Guangdong Key R&D Program (2019B020226001).

Materials

GNPS	open source	n/a	https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp
XY-Meta	open source	n/a	https://github.com/DLI-ShenZhen/XY-Meta
metaX	open source	n/a	https://github.com/wenbostar/metaX
ProteoWizard	Free Download	3.0.22116.18c918b-x86_64	https://proteowizard.sourceforge.io/download.html
CHI.Client	Free Download	ndp48-x86-x64-allos-enu	http://www.chi-biotech.com/technology.html?ty=ypt

Riferimenti

Misra, B. B., Fahrmann, J. F., Grapov, D. Review of emerging metabolomic tools and resources: 2015-2016. Electrophoresis. 38 (18), 2257-2274 (2017).
Idle, J. R., Gonzalez, F. J. Metabolomics. Cell Metabolism. 6 (5), 348-351 (2007).
Fiehn, O., Town, C. Metabolomics — the link between genotypes and phenotypes. Functional Genomics. , 155-171 (2002).
Town, C. . Functional Genomics. , (2002).
Dettmer, K., Aronov, P. A., Hammock, B. D. Mass spectrometry-based metabolomics. Mass Spectrometry Reviews. 26 (1), 51-78 (2007).
Vinayavekhin, N., Saghatelian, A. Untargeted metabolomics. Current Protocols in Molecular Biology. , 1-24 (2010).
Chaleckis, R., Meister, I., Zhang, P., Wheelock, C. E. Challenges, progress and promises of metabolite annotation for LC-MS-based metabolomics. Current Opinion in Biotechnology. 55, 44-50 (2019).
Palmer, A., et al. FDR-controlled metabolite annotation for high-resolution imaging mass spectrometry. Nature Methods. 14 (1), 57-60 (2017).
Scheubert, K., et al. Significance estimation for large scale metabolomics annotations by spectral matching. Nature Communications. 8 (1), 1494 (2017).
Schrimpe-Rutledge, A. C., Codreanu, S. G., Sherrod, S. D., McLean, J. A. Untargeted metabolomics strategies-challenges and emerging directions. Journal of the American Society for Mass Spectrometry. 27 (12), 1897-1905 (2016).
Blaženović, I., Kind, T., Ji, J., Fiehn, O. Software tools and approaches for compound identification of LC-MS/MS data in metabolomics. Metabolites. 8 (2), (2018).
Katajamaa, M., Miettinen, J., Oresic, M. MZmine: toolbox for processing and visualization of mass spectrometry based molecular profile data. Bioinformatics. 22 (5), 634-636 (2006).
Tsugawa, H., et al. Hydrogen rearrangement rules: computational MS/MS fragmentation and structure elucidation using MS-FINDER software. Analytical chemistry. 88 (16), 7946-7958 (2016).
Wang, F., et al. CFM-ID 4.0: More accurate ESI-MS/MS spectral prediction and compound identification. Analytical Chemistry. 93 (34), 11692-11700 (2021).
Ruttkies, C., Schymanski, E. L., Wolf, S., Hollender, J., Neumann, S. MetFrag relaunched: incorporating strategies beyond in silico fragmentation. Journal of Cheminformatics. 8, 3 (2016).
Delabriere, A., Warmer, P., Brennsteiner, V., Zamboni, N. SLAW: A scalable and self-optimizing processing workflow for untargeted LC-MS. Analytical chemistry. 93 (45), 15024-15032 (2021).
Wang, X., et al. Target-decoy-based false discovery rate estimation for large-scale metabolite identification. Journal of Proteome Research. 17 (7), 2328-2334 (2018).
Li, D., et al. XY-Meta: a high-efficiency search engine for large-scale metabolome annotation with accurate FDR estimation. Analytical Chemistry. 92 (8), 5701-5707 (2020).
Wen, B., Mei, Z., Zeng, C., Liu, S. metaX: a flexible and comprehensive software for processing metabolomics data. BMC Bioinformatics. 18 (1), 183 (2017).
Aberg, K. M., Torgrip, R. J. O., Kolmert, J., Schuppe-Koistinen, I., Lindberg, J. Feature detection and alignment of hyphenated chromatographic-mass spectrometric data. Extraction of pure ion chromatograms using Kalman tracking. Journal of Chromatography. A. 1192 (1), 139-146 (2008).
Liu, Q., et al. Addressing the batch effect issue for LC/MS metabolomics data in data preprocessing. Scientific Reports. 10 (1), 13856 (2020).
Han, W., Li, L. Evaluating and minimizing batch effects in metabolomics. Mass Spectrometry Reviews. 41 (3), 421-442 (2022).
Fei, F., Bowdish, D. M. E., McCarry, B. E. Comprehensive and simultaneous coverage of lipid and polar metabolites for endogenous cellular metabolomics using HILIC-TOF-MS. Analytical and Bioanalytical Chemistry. 406 (15), 3723-3733 (2014).
Smith, C. A., Want, E. J., O’Maille, G., Abagyan, R., Siuzdak, G. XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification. Analytical Chemistry. 78 (3), 779-787 (2006).
Giacomoni, F., et al. Workflow4Metabolomics: a collaborative research infrastructure for computational metabolomics. Bioinformatics. 31 (9), 1493-1495 (2015).
Chang, H. -. Y., et al. iMet-Q: A user-friendly tool for label-free metabolomics quantitation using dynamic peak-width determination. PloS One. 11 (1), 0146112 (2016).
Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
Schmid, R., et al. Ion identity molecular networking for mass spectrometry-based metabolomics in the GNPS environment. Nature Communications. 12 (1), 3832 (2021).
Kessner, D., Chambers, M., Burke, R., Agus, D., Mallick, P. ProteoWizard: open source software for rapid proteomics tools development. Bioinformatics. 24 (21), 2534-2536 (2008).
Johnson, S. R., Lange, B. M. Open-access metabolomics databases for natural product research: present capabilities and future potential. Frontiers in Bioengineering and Biotechnology. 3, 22 (2015).
Horai, H., et al. MassBank: a public repository for sharing mass spectral data for life sciences. Journal of Mass Spectrometry: JMS. 45 (7), 703-714 (2010).
Rawlinson, C., et al. Hierarchical clustering of MS/MS spectra from the firefly metabolome identifies new lucibufagin compounds. Scientific Reports. 10 (1), 6043 (2020).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Li, D., Liang, J., Zhang, Y., Zhang, G. An Integrated Workflow of Identification and Quantification on FDR Control-Based Untargeted Metabolome. J. Vis. Exp. (187), e63625, doi:10.3791/63625 (2022).

Un flux de travail intégré d’identification et de quantification sur le métabolome non ciblé basé sur le contrôle FDR

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

Un flux de travail intégré d’identification et de quantification sur le métabolome non ciblé basé sur le contrôle FDR

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below