Summary

En integreret arbejdsgang med identifikation og kvantificering på FDR-kontrolbaseret ikke-målrettet metabolom

Published: September 20, 2022
doi:

Summary

Vi konstruerede en ikke-målrettet metabolomisk arbejdsgang, der integrerede XY-Meta og metaX sammen. I denne protokol viste vi, hvordan man bruger XY-Meta til at generere et lokkespektralbibliotek fra open access-spektrereference, og udførte derefter FDR-kontrol og brugte metaX til at kvantificere metabolitterne efter at have identificeret metabolomics-spektrene.

Abstract

Ikke-målrettede metabolomics teknikker er blevet udbredt i de senere år. Den hurtigt stigende gennemstrømning og antallet af prøver skaber imidlertid en enorm mængde spektre, hvilket giver udfordringer for kvalitetskontrol af massespektrometrispektrene. For at reducere de falske positiver er falsk opdagelsesrate (FDR) kvalitetskontrol nødvendig. For nylig udviklede vi en software til FDR-kontrol af ikke-målrettet metabolomidentifikation, der er baseret på en Target-Decoy-strategi ved navn XY-Meta. Her demonstrerede vi en komplet analysepipeline, der integrerer XY-Meta og metaX sammen. Denne protokol viser, hvordan man bruger XY-meta til at generere en lokkedatabase fra en eksisterende referencedatabase og udføre FDR-kontrol ved hjælp af Target-Decoy-strategien til storstilet metabolomidentifikation på et open-access datasæt. Differentialanalysen og metabolitannoteringen blev udført efter at have kørt metaX for påvisning og kvantificering af metabolitter. For at hjælpe flere forskere udviklede vi også en brugervenlig cloud-baseret analyseplatform til disse analyser uden behov for bioinformatikfærdigheder eller computersprog.

Introduction

Metabolitter spiller vigtige roller i biologiske processer. Metabolitter er ofte regulatorer af forskellige processer som energioverførsel, hormonreguleringer, regulering af neurotransmittere, cellulær kommunikation og protein posttranslationelle modifikationer osv. 1,2,3,4. Ikke-målrettet metabolomics giver et globalt overblik over talrige metabolitter 5,6. Med fremskridt inden for massespektrometri og kromatografiteknologier er gennemstrømningen af metabolom MS / MS-spektre hurtigt stigende i de senere år 7,8,9,10,11. For at identificere metabolitter fra disse enorme datasæt blev der udviklet forskellige annotationssoftware11, såsom MZmine12, MS-FINDER13, CFM-ID14, MetFrag15 og SLAW16. Disse identifikationer indeholder dog ofte mange falske positiver. Årsagerne omfatter: (1) MS/MS-spektrene indeholder tilfældig støj, som kan vildlede peak matching. (2) Isomerer og forskelle i fragmenteringsenergier forårsager flere spektre fingeraftryk og øger dermed volumenet af referencebiblioteket. (3) Referencebibliotekernes kvalitet varierer. En ordentlig standard til at opbygge et godt referencespektralbibliotek er nødvendig. Derfor er en systematisk falsk opdagelseshastighed (FDR) kontrol for ikke-målrettet metabolomics afgørende for funktionel metabolomforskning 7,8,9,17.

Både Empirical Bayes-tilgangen og Target-Decoy-strategien tacklede FDR-kontrolproblemet generelt. Kerstin Scheubert et al. viste, at Target-Decoy-strategien på lokkedatabase genereret fra fragmenteringstræbaseret metode er den bedste metode til FDR-kontrol9. Xusheng Wang et al. designede en metode til lokkemadsgenerering baseret på oktetreglen i kemi og forbedrede præcisionen af FDR-estimering17. Spektralbiblioteket til generering af lokkedatabase blev demonstreret for bedre ydeevne18. Her forbedrede vi den spektrale biblioteksbaserede metode og udviklede en software kaldet XY-Meta19 , der yderligere kan forbedre FDR-estimeringens præcision. Det bruger det eksisterende referencespektralbibliotek til at generere et lokkebibliotek til FDR-kontrollen under Target-Decoy-ordningen. XY-Meta understøtter sine egne spektrematchnings- og cosinuslighedsalgoritmer. Det tillader konventionelle søge- og iterative søgetilstande. I trinnet med FDR-vurdering understøtter den Target-Decoy-sammenkædet tilstand og adskilt tilstand. For bedre fleksibilitet accepterer XY-Meta eksterne lokkebiblioteker.

Peak-detektion og kvantificering af metabolitter er også et vigtigt trin i ikke-målrettet metabolomanalyse. Peak detektion er den vigtigste metode til metabolomidentifikation. Generelt blev nøjagtigheden af maksimal påvisning af metabolitter påvirket af flere faktorer, såsom støjsignaler fra massespektrometri, lav forekomst af metabolitter, forurenende stoffer og nedbrydningsprodukter af metabolitter20. Når antallet af prøver af er for stort, eller væskekromatografikolonnen blev erstattet i forsøg med ikke-målrettet metabolom, kan der forekomme bemærkelsesværdige batcheffekter, hvilket er en stor udfordring for metabolomkvantificering 21,22,23. I øjeblikket kan software som XCMS24, Workflow4Metabolomic25, iMet-Q26 og metaX19 udføre peak detection og kvantificering af ikke-målrettet metabolom, men vi foreslår, at pipelinen af metaX er mere komplet og lettere at bruge. Her demonstrerer vi processen med identifikation og FDR-kontrol for et offentligt tilgængeligt datasæt msv000084112 ved hjælp af XY-Meta og peak-detektion og kvantificering af metabolitter ved hjælp af metaX. Denne arbejdsproces kræver kun to grupper, og hver gruppe skal bruge mindst to eksempler. MS/MS-spektredata er nødvendige, uanset massespektrometerplatform, ioniseringstilstand, opladningstilstand og prøvetype, og kan understøtte prøvebaseret normalisering og peak-baseret normalisering. Efter dette eksempel kan forskere udføre metabolomics identifikation og kvantificering på en let at håndtere måde. Brug af denne pipeline kræver R-programmeringskapacitet. For at hjælpe forskeren uden nogen programmeringskendskab udviklede vi også en cloud-analyseplatform til metabolomics-analyse. Vi demonstrerede denne cloud-analyseplatform i Supplementary Material 5.

Protocol

1. Forbered metabolomics datasæt til analyse BEMÆRK: I denne demonstration bruger vi metabolomics datasæt uden QC-prøve. Der er behov for data for sags- og kontrolgrupper. Til demonstration bruger vi et offentligt datasæt i GNPS-database27. Gå til websiden https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp. Klik på Gennemse datasæt. Søg på nøgleordet “msv000084112” i kolonnen Titel . …

Representative Results

De rå data for msv000084112 blev konverteret af msconvert.exe og genererede mgf-filer (Supplementary Material S6). XY-Meta genereret GNPS-NIST14-MATCHES_Decoy.mgf fil under /database mappe. Dette er lokkebiblioteket genereret fra det originale referencespektralbibliotek GNPS-NIST14-MATCHES.mgf. Dette lokkebibliotek kan genbruges. Når du genbruger dette lokkebibliotek, skal brugeren indstille decoy_pattern som 1 i parameter.default-filen og indstille decoyinput som den absolu…

Discussion

FDR-kontrollen af ikke-målrettede metabolitter har været en stor udfordring. Her demonstrerede vi en komplet pipeline af storstilet ikke-målrettet metabolomics-analyse (kvalitativ og kvantitativ) med FDR-kontrol. Dette reducerer effektivt de falske positiver, som er meget almindelige i MS-analyse.

Forberedelse af et passende referencespektralbibliotek til din undersøgelse er et centralt punkt. En vellykket og følsom MS/MS-identifikation kræver ikke kun korrekte matchningsalgoritmer, men …

Declarações

The authors have nothing to disclose.

Acknowledgements

Dette arbejde understøttes af National Key Research and Development Program (2018YFC0910200/2017YFA0505001) og Guangdong Key R&D Program (2019B020226001).

Materials

GNPS open source n/a https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp
XY-Meta open source n/a https://github.com/DLI-ShenZhen/XY-Meta
metaX open source n/a https://github.com/wenbostar/metaX
ProteoWizard Free Download 3.0.22116.18c918b-x86_64 https://proteowizard.sourceforge.io/download.html
CHI.Client Free Download ndp48-x86-x64-allos-enu http://www.chi-biotech.com/technology.html?ty=ypt

Referências

  1. Misra, B. B., Fahrmann, J. F., Grapov, D. Review of emerging metabolomic tools and resources: 2015-2016. Electrophoresis. 38 (18), 2257-2274 (2017).
  2. Idle, J. R., Gonzalez, F. J. Metabolomics. Cell Metabolism. 6 (5), 348-351 (2007).
  3. Fiehn, O., Town, C. Metabolomics — the link between genotypes and phenotypes. Functional Genomics. , 155-171 (2002).
  4. Town, C. . Functional Genomics. , (2002).
  5. Dettmer, K., Aronov, P. A., Hammock, B. D. Mass spectrometry-based metabolomics. Mass Spectrometry Reviews. 26 (1), 51-78 (2007).
  6. Vinayavekhin, N., Saghatelian, A. Untargeted metabolomics. Current Protocols in Molecular Biology. , 1-24 (2010).
  7. Chaleckis, R., Meister, I., Zhang, P., Wheelock, C. E. Challenges, progress and promises of metabolite annotation for LC-MS-based metabolomics. Current Opinion in Biotechnology. 55, 44-50 (2019).
  8. Palmer, A., et al. FDR-controlled metabolite annotation for high-resolution imaging mass spectrometry. Nature Methods. 14 (1), 57-60 (2017).
  9. Scheubert, K., et al. Significance estimation for large scale metabolomics annotations by spectral matching. Nature Communications. 8 (1), 1494 (2017).
  10. Schrimpe-Rutledge, A. C., Codreanu, S. G., Sherrod, S. D., McLean, J. A. Untargeted metabolomics strategies-challenges and emerging directions. Journal of the American Society for Mass Spectrometry. 27 (12), 1897-1905 (2016).
  11. Blaženović, I., Kind, T., Ji, J., Fiehn, O. Software tools and approaches for compound identification of LC-MS/MS data in metabolomics. Metabolites. 8 (2), (2018).
  12. Katajamaa, M., Miettinen, J., Oresic, M. MZmine: toolbox for processing and visualization of mass spectrometry based molecular profile data. Bioinformatics. 22 (5), 634-636 (2006).
  13. Tsugawa, H., et al. Hydrogen rearrangement rules: computational MS/MS fragmentation and structure elucidation using MS-FINDER software. Analytical chemistry. 88 (16), 7946-7958 (2016).
  14. Wang, F., et al. CFM-ID 4.0: More accurate ESI-MS/MS spectral prediction and compound identification. Analytical Chemistry. 93 (34), 11692-11700 (2021).
  15. Ruttkies, C., Schymanski, E. L., Wolf, S., Hollender, J., Neumann, S. MetFrag relaunched: incorporating strategies beyond in silico fragmentation. Journal of Cheminformatics. 8, 3 (2016).
  16. Delabriere, A., Warmer, P., Brennsteiner, V., Zamboni, N. SLAW: A scalable and self-optimizing processing workflow for untargeted LC-MS. Analytical chemistry. 93 (45), 15024-15032 (2021).
  17. Wang, X., et al. Target-decoy-based false discovery rate estimation for large-scale metabolite identification. Journal of Proteome Research. 17 (7), 2328-2334 (2018).
  18. Li, D., et al. XY-Meta: a high-efficiency search engine for large-scale metabolome annotation with accurate FDR estimation. Analytical Chemistry. 92 (8), 5701-5707 (2020).
  19. Wen, B., Mei, Z., Zeng, C., Liu, S. metaX: a flexible and comprehensive software for processing metabolomics data. BMC Bioinformatics. 18 (1), 183 (2017).
  20. Aberg, K. M., Torgrip, R. J. O., Kolmert, J., Schuppe-Koistinen, I., Lindberg, J. Feature detection and alignment of hyphenated chromatographic-mass spectrometric data. Extraction of pure ion chromatograms using Kalman tracking. Journal of Chromatography. A. 1192 (1), 139-146 (2008).
  21. Liu, Q., et al. Addressing the batch effect issue for LC/MS metabolomics data in data preprocessing. Scientific Reports. 10 (1), 13856 (2020).
  22. Han, W., Li, L. Evaluating and minimizing batch effects in metabolomics. Mass Spectrometry Reviews. 41 (3), 421-442 (2022).
  23. Fei, F., Bowdish, D. M. E., McCarry, B. E. Comprehensive and simultaneous coverage of lipid and polar metabolites for endogenous cellular metabolomics using HILIC-TOF-MS. Analytical and Bioanalytical Chemistry. 406 (15), 3723-3733 (2014).
  24. Smith, C. A., Want, E. J., O’Maille, G., Abagyan, R., Siuzdak, G. XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification. Analytical Chemistry. 78 (3), 779-787 (2006).
  25. Giacomoni, F., et al. Workflow4Metabolomics: a collaborative research infrastructure for computational metabolomics. Bioinformatics. 31 (9), 1493-1495 (2015).
  26. Chang, H. -. Y., et al. iMet-Q: A user-friendly tool for label-free metabolomics quantitation using dynamic peak-width determination. PloS One. 11 (1), 0146112 (2016).
  27. Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
  28. Schmid, R., et al. Ion identity molecular networking for mass spectrometry-based metabolomics in the GNPS environment. Nature Communications. 12 (1), 3832 (2021).
  29. Kessner, D., Chambers, M., Burke, R., Agus, D., Mallick, P. ProteoWizard: open source software for rapid proteomics tools development. Bioinformatics. 24 (21), 2534-2536 (2008).
  30. Johnson, S. R., Lange, B. M. Open-access metabolomics databases for natural product research: present capabilities and future potential. Frontiers in Bioengineering and Biotechnology. 3, 22 (2015).
  31. Horai, H., et al. MassBank: a public repository for sharing mass spectral data for life sciences. Journal of Mass Spectrometry: JMS. 45 (7), 703-714 (2010).
  32. Rawlinson, C., et al. Hierarchical clustering of MS/MS spectra from the firefly metabolome identifies new lucibufagin compounds. Scientific Reports. 10 (1), 6043 (2020).

Play Video

Citar este artigo
Li, D., Liang, J., Zhang, Y., Zhang, G. An Integrated Workflow of Identification and Quantification on FDR Control-Based Untargeted Metabolome. J. Vis. Exp. (187), e63625, doi:10.3791/63625 (2022).

View Video