Summary

Un flujo de trabajo integrado de identificación y cuantificación en un metaboloma no dirigido basado en el control FDR

Published: September 20, 2022
doi:

Summary

Construimos un flujo de trabajo metabolómico no dirigido que integró XY-Meta y metaX juntos. En este protocolo, mostramos cómo usar XY-Meta para generar una biblioteca espectral señuelo a partir de la referencia de espectros de acceso abierto, y luego realizamos el control FDR y usamos el metaX para cuantificar los metabolitos después de identificar los espectros metabolómicos.

Abstract

Las técnicas de metabolómica no dirigidas están siendo ampliamente utilizadas en los últimos años. Sin embargo, el rápido aumento del rendimiento y el número de muestras crean una enorme cantidad de espectros, estableciendo desafíos para el control de calidad de los espectros de espectrometría de masas. Para reducir los falsos positivos, es necesario un control de calidad de la tasa de descubrimiento falso (FDR). Recientemente, desarrollamos un software para el control FDR de la identificación de metabolomas no dirigidos que se basa en una estrategia Target-Decoy llamada XY-Meta. Aquí, demostramos una canalización de análisis completa que integra XY-Meta y metaX juntos. Este protocolo muestra cómo usar XY-meta para generar una base de datos señuelo a partir de una base de datos de referencia existente y realizar el control FDR utilizando la estrategia Target-Decoy para la identificación de metabolomas a gran escala en un conjunto de datos de acceso abierto. El análisis diferencial y la anotación de metabolitos se realizaron después de ejecutar metaX para la detección y cuantificación de picos de metabolitos. Con el fin de ayudar a más investigadores, también desarrollamos una plataforma de análisis basada en la nube fácil de usar para estos análisis, sin la necesidad de habilidades bioinformáticas o lenguajes informáticos.

Introduction

Los metabolitos juegan un papel importante en los procesos biológicos. Los metabolitos son a menudo reguladores de diversos procesos como la transferencia de energía, las regulaciones hormonales, la regulación de los neurotransmisores, las comunicaciones celulares y las modificaciones post-traduccionales de proteínas, etc. 1,2,3,4. La metabolómica no dirigida proporciona una visión global de numerosos metabolitos 5,6. Con los avances en las tecnologías de espectrometría de masas y cromatografía, el rendimiento de los espectros de metaboloma MS/MS está aumentando rápidamente en los últimos años 7,8,9,10,11. Para identificar metabolitos a partir de estos enormes conjuntos de datos, se desarrollaron varios software de anotación11, como MZmine12, MS-FINDER13, CFM-ID14, MetFrag15 y SLAW16. Sin embargo, estas identificaciones a menudo contienen muchos falsos positivos. Las razones incluyen: (1) Los espectros MS/MS contienen ruido aleatorio, lo que puede inducir a error a la coincidencia del pico. (2) Los isómeros y las diferencias en las energías de fragmentación causan múltiples huellas dactilares de espectros y, por lo tanto, aumentan el volumen de la biblioteca de referencia. (3) La calidad de las bibliotecas de referencia varía. Se necesita un estándar adecuado para construir una buena biblioteca espectral de referencia. Por lo tanto, un control sistemático de la tasa de falso descubrimiento (FDR) para la metabolómica no dirigida es esencial para la investigación del metaboloma funcional 7,8,9,17.

Tanto el enfoque empírico de Bayes como la estrategia Target-Decoy abordaron el problema de control de FDR en general. Kerstin Scheubert et al. demostraron que la estrategia Target-Decoy en la base de datos de señuelos generada a partir del método basado en árboles de fragmentación es el mejor método para el control FDR9. Xusheng Wang et al. diseñaron un método para la generación de señuelos basado en la regla del octeto en química y mejoraron la precisión de la estimación FDR17. La biblioteca espectral para generar la base de datos señuelo se demostró para un mejor rendimiento18. Aquí, mejoramos el método basado en la biblioteca espectral y desarrollamos un software llamado XY-Meta19 que puede mejorar aún más la precisión de la estimación de FDR. Utiliza la biblioteca espectral de referencia existente para generar una biblioteca de señuelos para el control FDR bajo el esquema Target-Decoy. XY-Meta admite sus propios algoritmos de coincidencia de espectros y similitud de coseno. Permite la búsqueda convencional y los modos de búsqueda iterativa. En el paso de la evaluación de FDR, admite el modo concatenado Target-Decoy y el modo separado. Para una mayor flexibilidad, XY-Meta acepta bibliotecas señuelo externas.

La detección y cuantificación de picos de metabolitos es también un paso importante del análisis de metabolomas no dirigidos. La detección de picos es el método principal para la identificación de metabolomas. En general, la precisión de la detección de picos de metabolitos se vio afectada por múltiples factores, como las señales de ruido de la espectrometría de masas, la baja abundancia de metabolitos, contaminantes y productos de degradación de metabolitos20. Cuando el número de muestras de es demasiado grande o la columna de cromatografía líquida fue reemplazada en experimentos de metaboloma no dirigido, pueden aparecer efectos de lote notables, lo cual es un desafío importante para la cuantificación del metaboloma 21,22,23. Actualmente, software como XCMS24, Workflow4Metabolomic25, iMet-Q26 y metaX19 puede realizar la detección y cuantificación de picos de metaboloma no dirigido, pero sugerimos que la canalización de metaX sea más completa y fácil de usar. Aquí, demostramos el proceso de identificación y control FDR para un conjunto de datos disponible públicamente msv000084112 usando XY-Meta, y la detección y cuantificación de metabolitos de pico usando metaX. Este flujo de trabajo solo requiere dos grupos y cada grupo necesita al menos dos ejemplos. Se necesitan datos de espectros MS /MS, independientemente de la plataforma del espectrómetro de masas, el modo de ionización, el modo de carga y el tipo de muestra, y pueden admitir la normalización basada en muestras y la normalización basada en picos. Siguiendo este ejemplo, los investigadores pueden realizar la identificación y cuantificación de la metabolómica de una manera fácil de manejar. El uso de esta canalización requiere la capacidad de programación de R. Para ayudar al investigador sin ningún conocimiento de programación, también desarrollamos una plataforma de análisis en la nube para el análisis metabolómico. Demostramos esta plataforma de análisis en la nube en material complementario 5.

Protocol

1. Preparar conjuntos de datos metabolómicos para el análisis NOTA: En esta demostración, utilizamos conjuntos de datos de metabolómica sin muestra de control de calidad. Se necesitan datos para los grupos de casos y controles. Para la demostración, utilizamos un conjunto de datos público en la base de datos GNPS27. Vaya a la página web https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp. Haga clic en Examinar conjuntos de d…

Representative Results

Los datos brutos de msv000084112 fueron convertidos por msconvert.exe y generados archivos mgf (Material Suplementario S6). XY-Meta generó el archivo GNPS-NIST14-MATCHES_Decoy.mgf en la carpeta /database. Esta es la biblioteca señuelo generada a partir de la biblioteca espectral de referencia original GNPS-NIST14-MATCHES.mgf. Esta biblioteca de señuelos se puede reutilizar. Al reutilizar esta biblioteca de señuelos, el usuario debe establecer el decoy_pattern como 1 en el …

Discussion

El control FDR de metabolitos no dirigidos ha sido un gran desafío. Aquí, demostramos una cartera completa de análisis metabolómico no dirigido a gran escala (cualitativo y cuantitativo) con control FDR. Esto reduce efectivamente los falsos positivos, que son muy comunes en el análisis de EM.

Preparar una biblioteca espectral de referencia adecuada para su estudio es un punto clave. Una identificación MS/MS exitosa y sensible requiere no solo algoritmos de coincidencia adecuados, sino ta…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Este trabajo cuenta con el apoyo del Programa Nacional de Investigación y Desarrollo Clave (2018YFC0910200/2017YFA0505001) y el Programa Clave de I + D de Guangdong (2019B020226001).

Materials

GNPS open source n/a https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp
XY-Meta open source n/a https://github.com/DLI-ShenZhen/XY-Meta
metaX open source n/a https://github.com/wenbostar/metaX
ProteoWizard Free Download 3.0.22116.18c918b-x86_64 https://proteowizard.sourceforge.io/download.html
CHI.Client Free Download ndp48-x86-x64-allos-enu http://www.chi-biotech.com/technology.html?ty=ypt

Riferimenti

  1. Misra, B. B., Fahrmann, J. F., Grapov, D. Review of emerging metabolomic tools and resources: 2015-2016. Electrophoresis. 38 (18), 2257-2274 (2017).
  2. Idle, J. R., Gonzalez, F. J. Metabolomics. Cell Metabolism. 6 (5), 348-351 (2007).
  3. Fiehn, O., Town, C. Metabolomics — the link between genotypes and phenotypes. Functional Genomics. , 155-171 (2002).
  4. Town, C. . Functional Genomics. , (2002).
  5. Dettmer, K., Aronov, P. A., Hammock, B. D. Mass spectrometry-based metabolomics. Mass Spectrometry Reviews. 26 (1), 51-78 (2007).
  6. Vinayavekhin, N., Saghatelian, A. Untargeted metabolomics. Current Protocols in Molecular Biology. , 1-24 (2010).
  7. Chaleckis, R., Meister, I., Zhang, P., Wheelock, C. E. Challenges, progress and promises of metabolite annotation for LC-MS-based metabolomics. Current Opinion in Biotechnology. 55, 44-50 (2019).
  8. Palmer, A., et al. FDR-controlled metabolite annotation for high-resolution imaging mass spectrometry. Nature Methods. 14 (1), 57-60 (2017).
  9. Scheubert, K., et al. Significance estimation for large scale metabolomics annotations by spectral matching. Nature Communications. 8 (1), 1494 (2017).
  10. Schrimpe-Rutledge, A. C., Codreanu, S. G., Sherrod, S. D., McLean, J. A. Untargeted metabolomics strategies-challenges and emerging directions. Journal of the American Society for Mass Spectrometry. 27 (12), 1897-1905 (2016).
  11. Blaženović, I., Kind, T., Ji, J., Fiehn, O. Software tools and approaches for compound identification of LC-MS/MS data in metabolomics. Metabolites. 8 (2), (2018).
  12. Katajamaa, M., Miettinen, J., Oresic, M. MZmine: toolbox for processing and visualization of mass spectrometry based molecular profile data. Bioinformatics. 22 (5), 634-636 (2006).
  13. Tsugawa, H., et al. Hydrogen rearrangement rules: computational MS/MS fragmentation and structure elucidation using MS-FINDER software. Analytical chemistry. 88 (16), 7946-7958 (2016).
  14. Wang, F., et al. CFM-ID 4.0: More accurate ESI-MS/MS spectral prediction and compound identification. Analytical Chemistry. 93 (34), 11692-11700 (2021).
  15. Ruttkies, C., Schymanski, E. L., Wolf, S., Hollender, J., Neumann, S. MetFrag relaunched: incorporating strategies beyond in silico fragmentation. Journal of Cheminformatics. 8, 3 (2016).
  16. Delabriere, A., Warmer, P., Brennsteiner, V., Zamboni, N. SLAW: A scalable and self-optimizing processing workflow for untargeted LC-MS. Analytical chemistry. 93 (45), 15024-15032 (2021).
  17. Wang, X., et al. Target-decoy-based false discovery rate estimation for large-scale metabolite identification. Journal of Proteome Research. 17 (7), 2328-2334 (2018).
  18. Li, D., et al. XY-Meta: a high-efficiency search engine for large-scale metabolome annotation with accurate FDR estimation. Analytical Chemistry. 92 (8), 5701-5707 (2020).
  19. Wen, B., Mei, Z., Zeng, C., Liu, S. metaX: a flexible and comprehensive software for processing metabolomics data. BMC Bioinformatics. 18 (1), 183 (2017).
  20. Aberg, K. M., Torgrip, R. J. O., Kolmert, J., Schuppe-Koistinen, I., Lindberg, J. Feature detection and alignment of hyphenated chromatographic-mass spectrometric data. Extraction of pure ion chromatograms using Kalman tracking. Journal of Chromatography. A. 1192 (1), 139-146 (2008).
  21. Liu, Q., et al. Addressing the batch effect issue for LC/MS metabolomics data in data preprocessing. Scientific Reports. 10 (1), 13856 (2020).
  22. Han, W., Li, L. Evaluating and minimizing batch effects in metabolomics. Mass Spectrometry Reviews. 41 (3), 421-442 (2022).
  23. Fei, F., Bowdish, D. M. E., McCarry, B. E. Comprehensive and simultaneous coverage of lipid and polar metabolites for endogenous cellular metabolomics using HILIC-TOF-MS. Analytical and Bioanalytical Chemistry. 406 (15), 3723-3733 (2014).
  24. Smith, C. A., Want, E. J., O’Maille, G., Abagyan, R., Siuzdak, G. XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification. Analytical Chemistry. 78 (3), 779-787 (2006).
  25. Giacomoni, F., et al. Workflow4Metabolomics: a collaborative research infrastructure for computational metabolomics. Bioinformatics. 31 (9), 1493-1495 (2015).
  26. Chang, H. -. Y., et al. iMet-Q: A user-friendly tool for label-free metabolomics quantitation using dynamic peak-width determination. PloS One. 11 (1), 0146112 (2016).
  27. Wang, M., et al. Sharing and community curation of mass spectrometry data with Global Natural Products Social Molecular Networking. Nature Biotechnology. 34 (8), 828-837 (2016).
  28. Schmid, R., et al. Ion identity molecular networking for mass spectrometry-based metabolomics in the GNPS environment. Nature Communications. 12 (1), 3832 (2021).
  29. Kessner, D., Chambers, M., Burke, R., Agus, D., Mallick, P. ProteoWizard: open source software for rapid proteomics tools development. Bioinformatics. 24 (21), 2534-2536 (2008).
  30. Johnson, S. R., Lange, B. M. Open-access metabolomics databases for natural product research: present capabilities and future potential. Frontiers in Bioengineering and Biotechnology. 3, 22 (2015).
  31. Horai, H., et al. MassBank: a public repository for sharing mass spectral data for life sciences. Journal of Mass Spectrometry: JMS. 45 (7), 703-714 (2010).
  32. Rawlinson, C., et al. Hierarchical clustering of MS/MS spectra from the firefly metabolome identifies new lucibufagin compounds. Scientific Reports. 10 (1), 6043 (2020).
check_url/it/63625?article_type=t

Play Video

Citazione di questo articolo
Li, D., Liang, J., Zhang, Y., Zhang, G. An Integrated Workflow of Identification and Quantification on FDR Control-Based Untargeted Metabolome. J. Vis. Exp. (187), e63625, doi:10.3791/63625 (2022).

View Video