Summary

DeepOmicsAE: Representación de módulos de señalización en la enfermedad de Alzheimer con análisis de aprendizaje profundo de proteómica, metabolómica y datos clínicos

Published: December 15, 2023
doi:

Summary

DeepOmicsAE es un flujo de trabajo centrado en la aplicación de un método de aprendizaje profundo (es decir, un codificador automático) para reducir la dimensionalidad de los datos multiómicos, proporcionando una base para modelos predictivos y módulos de señalización que representan múltiples capas de datos ómicos.

Abstract

Los grandes conjuntos de datos ómicos están cada vez más disponibles para la investigación de la salud humana. Este artículo presenta DeepOmicsAE, un flujo de trabajo optimizado para el análisis de conjuntos de datos multiómicos, incluidos proteómicos, metabolómicos y datos clínicos. Este flujo de trabajo emplea un tipo de red neuronal denominada autocodificador para extraer un conjunto conciso de características de los datos de entrada multiómicos de alta dimensión. Además, el flujo de trabajo proporciona un método para optimizar los parámetros clave necesarios para implementar el autocodificador. Para mostrar este flujo de trabajo, se analizaron los datos clínicos de una cohorte de 142 individuos sanos o diagnosticados con la enfermedad de Alzheimer, junto con el proteoma y el metaboloma de sus muestras cerebrales postmortem. Las características extraídas de la capa latente del autocodificador retienen la información biológica que separa a los pacientes sanos de los enfermos. Además, las características individuales extraídas representan distintos módulos de señalización molecular, cada uno de los cuales interactúa de manera única con las características clínicas de los individuos, proporcionando un medio para integrar la proteómica, la metabolómica y los datos clínicos.

Introduction

Una proporción cada vez mayor de la población está envejeciendo y se espera que la carga de las enfermedades relacionadas con la edad, como la neurodegeneración, aumente drásticamente en las próximas décadas1. La enfermedad de Alzheimer es el tipo más común de enfermedad neurodegenerativa2. El progreso en la búsqueda de un tratamiento ha sido lento debido a nuestra escasa comprensión de los mecanismos moleculares fundamentales que impulsan la aparición y el progreso de la enfermedad. La mayor parte de la información sobre la enfermedad de Alzheimer se obtiene post mortem a partir del examen del tejido cerebral, lo que ha dificultado la distinción de causas y consecuencias3. El Proyecto de Estudio de las Órdenes Religiosas/Memoria y Envejecimiento (ROSMAP, por sus siglas en inglés) es un ambicioso esfuerzo para obtener una comprensión más amplia de la neurodegeneración, que implica el estudio de miles de personas que se han comprometido a someterse a exámenes médicos y psicológicos anualmente y a contribuir con sus cerebros para la investigación después desu fallecimiento. El estudio se centra en la transición del funcionamiento normal del cerebro a la enfermedad de Alzheimer2. Dentro del proyecto, se analizaron muestras cerebrales postmortem con una gran cantidad de enfoques ómicos, que incluyen genómica, epigenómica, transcriptómica, proteómica5 y metabolómica.

Las tecnologías ómicas que ofrecen lecturas funcionales de los estados celulares (es decir, proteómica y metabolómica)6,7 son clave para interpretar la enfermedad 8,9,10,11,12, debido a la relación directa entre la abundancia de proteínas y metabolitos y las actividades celulares. Las proteínas son los principales ejecutores de los procesos celulares, mientras que los metabolitos son los sustratos y productos de las reacciones bioquímicas. El análisis de datos multiómicos ofrece la posibilidad de comprender las complejas relaciones entre los datos proteómicos y metabolómicos en lugar de apreciarlos de forma aislada. La multiómica es una disciplina que estudia múltiples capas de datos biológicos de alta dimensión, incluidos datos moleculares (secuencia y mutaciones del genoma, transcriptoma, proteoma, metaboloma), datos de imágenes clínicas y características clínicas. En particular, el análisis de datos multiómicos tiene como objetivo integrar dichas capas de datos biológicos, comprender su regulación recíproca y su dinámica de interacción, y ofrecer una comprensión holística de la aparición y progresión de la enfermedad. Sin embargo, los métodos para integrar datos multiómicos aún se encuentran en las primeras etapas de desarrollo13.

Los autocodificadores, un tipo de red neuronal no supervisada14, son una poderosa herramienta para la integración de datos multiómicos. A diferencia de las redes neuronales supervisadas, los autocodificadores no asignan muestras a valores objetivo específicos (como sanos o enfermos), ni se utilizan para predecir resultados. Una de sus principales aplicaciones radica en la reducción de la dimensionalidad. Sin embargo, los autocodificadores ofrecen varias ventajas sobre los métodos de reducción de dimensionalidad más simples, como el análisis de componentes principales (PCA), la incrustación de vecinos estocásticos distribuidos en t (tSNE) o la aproximación y proyección de variedades uniformes (UMAP). A diferencia de PCA, los autocodificadores pueden capturar relaciones no lineales dentro de los datos. A diferencia de tSNE y UMAP, pueden detectar relaciones jerárquicas y multimodales dentro de los datos, ya que se basan en múltiples capas de unidades computacionales, cada una de las cuales contiene funciones de activación no lineales. Por lo tanto, representan modelos atractivos para capturar la complejidad de los datos multiómicos. Por último, mientras que la aplicación principal de PCA, tSNE y UMAP es la agrupación de los datos, los autocodificadores comprimen los datos de entrada en características extraídas que son adecuadas para tareas predictivas posteriores15,16.

En resumen, las redes neuronales comprenden varias capas, cada una de las cuales contiene múltiples unidades computacionales o “neuronas”. La primera y la última capa se denominan capas de entrada y salida, respectivamente. Los autocodificadores son redes neuronales con una estructura de reloj de arena, que consta de una capa de entrada, seguida de una a tres capas ocultas y una pequeña capa “latente” que normalmente contiene entre dos y seis neuronas. La primera mitad de esta estructura se conoce como codificador y se combina con un decodificador que refleja el codificador. El decodificador termina con una capa de salida que contiene el mismo número de neuronas que la capa de entrada. Los autocodificadores toman la entrada a través del cuello de botella y la reconstruyen en la capa de salida, con el objetivo de generar una salida que refleje la información original lo más fielmente posible. Esto se logra minimizando matemáticamente un parámetro denominado “pérdida de reconstrucción”. La entrada consiste en un conjunto de características, que en la aplicación que se muestra en este documento serán abundancias de proteínas y metabolitos, y características clínicas (es decir, sexo, educación y edad de muerte). La capa latente contiene una representación comprimida y rica en información de la entrada, que puede ser utilizada para aplicaciones posteriores como modelos predictivos17,18.

Este protocolo presenta un flujo de trabajo, DeepOmicsAE, que implica: 1) preprocesamiento de proteómica, metabolómica y datos clínicos (es decir, normalización, escalado, eliminación de valores atípicos) para obtener datos con una escala consistente para el análisis de aprendizaje automático; 2) seleccionar las características de entrada apropiadas del autocodificador, ya que la sobrecarga de características puede ocultar los patrones de enfermedades relevantes; 3) optimizar y entrenar el autocodificador, incluida la determinación del número óptimo de proteínas y metabolitos a seleccionar, y de neuronas para la capa latente; 4) extracción de características de la capa latente; y 5) utilizar las características extraídas para la interpretación biológica mediante la identificación de módulos de señalización molecular y su relación con las características clínicas.

Este protocolo pretende ser simple y aplicable por biólogos con experiencia computacional limitada que tengan un conocimiento básico de programación con Python. El protocolo se centra en el análisis de datos multiómicos, incluidos los proteómicos, los metabolómicos y las características clínicas, pero su uso puede extenderse a otros tipos de datos de expresión molecular, incluida la transcriptómica. Una nueva aplicación importante introducida por este protocolo es el mapeo de las puntuaciones de importancia de las características originales en neuronas individuales en la capa latente. Como resultado, cada neurona en la capa latente representa un módulo de señalización, detallando las interacciones entre alteraciones moleculares específicas y las características clínicas de los pacientes. La interpretación biológica de los módulos de señalización molecular se obtiene mediante el uso de MetaboAnalyst, una herramienta disponible públicamente que integra datos de genes/proteínas y metabolitos para derivar vías de señalización metabólica y celular enriquecidas17.

Protocol

NOTA: Los datos utilizados aquí fueron datos de ROSMAP descargados del portal de conocimiento de AD. No se necesita el consentimiento informado para descargar y reutilizar los datos. El protocolo presentado en este documento utiliza el aprendizaje profundo para analizar datos multiómicos e identificar módulos de señalización que distinguen a pacientes específicos o grupos de muestras basándose, por ejemplo, en su diagnóstico. El protocolo también ofrece un pequeño conjunto de características extraídas que res…

Representative Results

Para mostrar el protocolo, analizamos un conjunto de datos que comprendía el proteoma, el metaboloma y la información clínica derivada de los cerebros postmortem de 142 individuos sanos o diagnosticados con la enfermedad de Alzheimer. Después de realizar la sección 1 del protocolo para preprocesar los datos, el conjunto de datos incluyó 6.497 proteínas, 443 metabolitos y tres características clínicas (sexo, edad de muerte y educación). La característica objetivo es el diagn?…

Discussion

La estructura del conjunto de datos es fundamental para el éxito del protocolo y debe comprobarse cuidadosamente. Los datos deben formatearse como se indica en la sección 1 del protocolo. La asignación correcta de las posiciones de las columnas también es fundamental para el éxito del método. Los datos proteómicos y metabolómicos se preprocesan de manera diferente y la selección de características se realiza por separado debido a la diferente naturaleza de los datos. Por lo tanto, es fundamental asignar correct…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue financiado por el CA201402 de subvenciones de los NIH y el Premio al Académico Distinguido del Centro de Genómica de Vertebrados de Cornell (CVG). Los resultados publicados aquí se basan total o parcialmente en datos obtenidos del Portal de Conocimiento de AD (https://adknowledgeportal.org). Los datos del estudio se proporcionaron a través de la Asociación de Medicina Acelerada para la EA (U01AG046161 y U01AG061357) en base a muestras proporcionadas por el Centro de la Enfermedad de Alzheimer Rush, Centro Médico de la Universidad Rush, Chicago. La recopilación de datos fue financiada por subvenciones del NIA P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, el Departamento de Salud Pública de Illinois y el Instituto de Investigación Genómica Traslacional. El conjunto de datos metabolómicos se generó en Metabolon y fue preprocesado por el ADMC.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

Referenzen

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/de/65910?article_type=t

Play Video

Diesen Artikel zitieren
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video