Summary

DeepOmicsAE : Représentation de modules de signalisation dans la maladie d’Alzheimer avec l’analyse de l’apprentissage profond de la protéomique, de la métabolomique et des données cliniques

Published: December 15, 2023
doi:

Summary

DeepOmicsAE est un flux de travail centré sur l’application d’une méthode d’apprentissage profond (c’est-à-dire un auto-encodeur) pour réduire la dimensionnalité des données multi-omiques, fournissant une base pour les modèles prédictifs et les modules de signalisation représentant plusieurs couches de données omiques.

Abstract

De grands ensembles de données omiques sont de plus en plus disponibles pour la recherche sur la santé humaine. Cet article présente DeepOmicsAE, un flux de travail optimisé pour l’analyse d’ensembles de données multi-omiques, y compris la protéomique, la métabolomique et les données cliniques. Ce flux de travail utilise un type de réseau neuronal appelé auto-encodeur, pour extraire un ensemble concis de caractéristiques à partir des données d’entrée multi-omiques de grande dimension. De plus, le flux de travail fournit une méthode pour optimiser les paramètres clés nécessaires à la mise en œuvre de l’auto-encodeur. Pour présenter ce flux de travail, les données cliniques d’une cohorte de 142 personnes en bonne santé ou diagnostiquées avec la maladie d’Alzheimer ont été analysées, ainsi que le protéome et le métabolome de leurs échantillons de cerveau post-mortem. Les caractéristiques extraites de la couche latente de l’auto-encodeur retiennent les informations biologiques qui séparent les patients sains et malades. De plus, les caractéristiques individuelles extraites représentent des modules de signalisation moléculaire distincts, chacun interagissant de manière unique avec les caractéristiques cliniques des individus, fournissant un moyen d’intégrer la protéomique, la métabolomique et les données cliniques.

Introduction

Une proportion de plus en plus importante de la population vieillit et le fardeau des maladies liées à l’âge, telles que la neurodégénérescence, devrait fortement augmenter au cours des prochaines décennies1. La maladie d’Alzheimer est le type le plus courant de maladie neurodégénérative2. Les progrès dans la recherche d’un traitement ont été lents étant donné notre mauvaise compréhension des mécanismes moléculaires fondamentaux à l’origine de l’apparition et de la progression de la maladie. La majorité des informations sur la maladie d’Alzheimer sont obtenues post-mortem à partir de l’examen du tissu cérébral, ce qui a rendu difficile la distinction des causes et des conséquences3. Le projet ROSMAP (Religious Orders Study/Memory and Aging) est un effort ambitieux visant à mieux comprendre la neurodégénérescence, ce qui implique l’étude de milliers de personnes qui se sont engagées à subir des examens médicaux et psychologiques chaque année et à contribuer à la recherche après leur décès4. L’étude se concentre sur la transition du fonctionnement normal du cerveau à la maladie d’Alzheimer2. Dans le cadre du projet, des échantillons de cerveau post-mortem ont été analysés avec une pléthore d’approches omiques, notamment la génomique, l’épigénomique, la transcriptomique, la protéomique5 et la métabolomique.

Les technologies omiques qui offrent des lectures fonctionnelles des états cellulaires (c.-à-d. protéomique et métabolomique)6,7 sont essentielles à l’interprétation de la maladie 8,9,10,11,12, en raison de la relation directe entre l’abondance des protéines et des métabolites et les activités cellulaires. Les protéines sont les principaux exécuteurs des processus cellulaires, tandis que les métabolites sont les substrats et les produits des réactions biochimiques. L’analyse de données multi-omiques offre la possibilité de comprendre les relations complexes entre les données protéomiques et métabolomiques au lieu de les apprécier isolément. La multi-omique est une discipline qui étudie plusieurs couches de données biologiques de grande dimension, y compris des données moléculaires (séquence et mutations du génome, transcriptome, protéome, métabolome), des données d’imagerie clinique et des caractéristiques cliniques. En particulier, l’analyse de données multi-omiques vise à intégrer ces couches de données biologiques, à comprendre leur régulation réciproque et leur dynamique d’interaction, et à fournir une compréhension holistique de l’apparition et de la progression de la maladie. Cependant, les méthodes d’intégration des données multi-omiques en sont encore aux premiers stades de développement13.

Les auto-encodeurs, un type de réseau neuronal non supervisé14, sont un outil puissant pour l’intégration de données multi-omiques. Contrairement aux réseaux neuronaux supervisés, les auto-encodeurs ne font pas correspondre les échantillons à des valeurs cibles spécifiques (telles que sain ou malade), et ne sont pas utilisés pour prédire les résultats. L’une de leurs principales applications réside dans la réduction de la dimensionnalité. Cependant, les auto-encodeurs offrent plusieurs avantages par rapport aux méthodes de réduction de dimensionnalité plus simples telles que l’analyse en composantes principales (PCA), l’intégration de voisins stochastiques distribués en t (tSNE) ou l’approximation et la projection de variétés uniformes (UMAP). Contrairement à l’ACP, les auto-encodeurs peuvent capturer des relations non linéaires dans les données. Contrairement au tSNE et à l’UMAP, ils peuvent détecter des relations hiérarchiques et multimodales dans les données car ils reposent sur plusieurs couches d’unités de calcul contenant chacune des fonctions d’activation non linéaires. Par conséquent, ils représentent des modèles attrayants pour capturer la complexité des données multi-omiques. Enfin, alors que l’application principale de l’ACP, du tSNE et de l’UMAP est le clustering des données, les auto-encodeurs compressent les données d’entrée en caractéristiques extraites qui sont bien adaptées aux tâches prédictives en aval15,16.

En bref, les réseaux neuronaux comprennent plusieurs couches, chacune contenant plusieurs unités de calcul ou « neurones ». La première et la dernière couche sont appelées respectivement couches d’entrée et de sortie. Les auto-encodeurs sont des réseaux neuronaux avec une structure en sablier, composée d’une couche d’entrée, suivie d’une à trois couches cachées et d’une petite couche « latente » contenant généralement entre deux et six neurones. La première moitié de cette structure est connue sous le nom d’encodeur et est combinée à un décodeur reflétant l’encodeur. Le décodeur se termine par une couche de sortie contenant le même nombre de neurones que la couche d’entrée. Les auto-encodeurs font passer l’entrée à travers le goulot d’étranglement et la reconstruisent dans la couche de sortie, dans le but de générer une sortie qui reflète le plus fidèlement possible les informations d’origine. Ceci est réalisé en minimisant mathématiquement un paramètre appelé « perte de reconstruction ». L’entrée consiste en un ensemble de caractéristiques qui, dans l’application présentée ici, seront l’abondance des protéines et des métabolites et les caractéristiques cliniques (c’est-à-dire le sexe, l’éducation et l’âge au décès). La couche latente contient une représentation compressée et riche en informations de l’entrée, qui peut être utilisée pour des applications ultérieures telles que les modèles prédictifs17,18.

Ce protocole présente un flux de travail, DeepOmicsAE, qui implique : 1) le prétraitement des données protéomiques, métabolomiques et cliniques (c’est-à-dire la normalisation, la mise à l’échelle, la suppression des valeurs aberrantes) pour obtenir des données avec une échelle cohérente pour l’analyse de l’apprentissage automatique ; 2) sélectionner les caractéristiques d’entrée de l’auto-encodeur appropriées, car la surcharge de caractéristiques peut masquer les modèles de maladie pertinents ; 3) l’optimisation et l’entraînement de l’auto-encodeur, y compris la détermination du nombre optimal de protéines et de métabolites à sélectionner, et de neurones pour la couche latente ; 4) extraire les caractéristiques de la couche latente ; et 5) l’utilisation des caractéristiques extraites pour l’interprétation biologique en identifiant les modules de signalisation moléculaire et leur relation avec les caractéristiques cliniques.

Ce protocole se veut simple et applicable par des biologistes ayant une expérience informatique limitée qui ont une compréhension de base de la programmation avec Python. Le protocole se concentre sur l’analyse des données multi-omiques, y compris la protéomique, la métabolomique et les caractéristiques cliniques, mais son utilisation peut être étendue à d’autres types de données d’expression moléculaire, y compris la transcriptomique. Une nouvelle application importante introduite par ce protocole est la cartographie des scores d’importance des caractéristiques originales sur les neurones individuels de la couche latente. En conséquence, chaque neurone de la couche latente représente un module de signalisation, détaillant les interactions entre des altérations moléculaires spécifiques et les caractéristiques cliniques des patients. L’interprétation biologique des modules de signalisation moléculaire est obtenue à l’aide de MetaboAnalyst, un outil accessible au public qui intègre des données sur les gènes/protéines et les métabolites pour en déduire des voies de signalisation métaboliques et cellulaires enrichies17.

Protocol

REMARQUE : Les données utilisées ici sont des données ROSMAP téléchargées à partir du portail de connaissances AD. Le consentement éclairé n’est pas nécessaire pour télécharger et réutiliser les données. Le protocole présenté ici utilise l’apprentissage profond pour analyser les données multi-omiques et identifier les modules de signalisation qui distinguent des patients ou des groupes d’échantillons spécifiques en fonction, par exemple, de leur diagnostic. Le protocole fournit également un peti…

Representative Results

Pour présenter le protocole, nous avons analysé un ensemble de données comprenant le protéome, le métabolome et les informations cliniques dérivées des cerveaux post-mortem de 142 personnes en bonne santé ou diagnostiquées avec la maladie d’Alzheimer. Après avoir effectué la section 1 du protocole pour prétraiter les données, l’ensemble de données comprenait 6 497 protéines, 443 métabolites et trois caractéristiques cliniques (sexe, âge au décès et éducation). La carac…

Discussion

La structure de l’ensemble de données est essentielle au succès du protocole et doit être soigneusement vérifiée. Les données doivent être formatées comme indiqué dans la section 1 du protocole. L’affectation correcte des positions des colonnes est également essentielle au succès de la méthode. Les données protéomiques et métabolomiques sont prétraitées différemment et la sélection des caractéristiques est effectuée séparément en raison de la nature différente des données. Par conséquent, il…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par des subventions des NIH CA201402 et le prix Distinguished Scholar du Cornell Center for Vertebrate Genomics (CVG). Les résultats publiés ici sont en tout ou en partie basés sur les données obtenues à partir du portail de connaissances AD (https://adknowledgeportal.org). Les données de l’étude ont été fournies par l’intermédiaire de l’Accelerating Medicine Partnership for AD (U01AG046161 et U01AG061357) sur la base d’échantillons fournis par le Rush Alzheimer’s Disease Center, Rush University Medical Center, Chicago. La collecte de données a été financée par des subventions NIA P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, le département de la santé publique de l’Illinois et l’Institut de recherche en génomique translationnelle. L’ensemble de données métabolomiques a été généré à Metabolon et prétraité par l’ADMC.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

Riferimenti

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/it/65910?article_type=t

Play Video

Citazione di questo articolo
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video