Summary

DeepOmicsAE: weergave van signaalmodules bij de ziekte van Alzheimer met Deep Learning-analyse van proteomics, metabolomics en klinische gegevens

Published: December 15, 2023
doi:

Summary

DeepOmicsAE is een workflow die is gericht op de toepassing van een deep learning-methode (d.w.z. een auto-encoder) om de dimensionaliteit van multi-omics-gegevens te verminderen en een basis te leggen voor voorspellende modellen en signaleringsmodules die meerdere lagen omics-gegevens vertegenwoordigen.

Abstract

Grote omics-datasets komen steeds meer beschikbaar voor onderzoek naar de menselijke gezondheid. Dit artikel presenteert DeepOmicsAE, een workflow die is geoptimaliseerd voor de analyse van multi-omics-datasets, waaronder proteomics, metabolomics en klinische gegevens. Deze workflow maakt gebruik van een type neuraal netwerk, auto-encoder genaamd, om een beknopte set functies te extraheren uit de hoogdimensionale multi-omics-invoergegevens. Bovendien biedt de workflow een methode om de belangrijkste parameters te optimaliseren die nodig zijn om de auto-encoder te implementeren. Om deze workflow te demonstreren, werden klinische gegevens geanalyseerd van een cohort van 142 personen die gezond waren of gediagnosticeerd waren met de ziekte van Alzheimer, samen met het proteoom en metaboloom van hun postmortale hersenmonsters. De kenmerken die uit de latente laag van de auto-encoder worden gehaald, behouden de biologische informatie die gezonde en zieke patiënten scheidt. Bovendien vertegenwoordigen de individueel geëxtraheerde kenmerken verschillende moleculaire signaalmodules, die elk op unieke wijze interageren met de klinische kenmerken van de individuen, waardoor een middel wordt geboden om de proteomics, metabolomics en klinische gegevens te integreren.

Introduction

Een steeds groter deel van de bevolking vergrijst en de verwachting is dat de last van ouderdomsziekten, zoals neurodegeneratie, de komende decennia sterk zaltoenemen1. De ziekte van Alzheimer is de meest voorkomende vorm van neurodegeneratieve ziekte2. De vooruitgang bij het vinden van een behandeling is traag geweest, gezien ons slechte begrip van de fundamentele moleculaire mechanismen die het begin en de voortgang van de ziekte veroorzaken. De meeste informatie over de ziekte van Alzheimer wordt postmortaal verkregen uit het onderzoek van hersenweefsel, waardoor het onderscheiden van oorzaken en gevolgen een moeilijke taak isgeworden3. Het Religious Orders Study/Memory and Aging Project (ROSMAP) is een ambitieuze poging om een breder begrip te krijgen van neurodegeneratie, waarbij duizenden personen worden bestudeerd die zich ertoe hebben verbonden jaarlijks medische en psychologische onderzoeken te ondergaan en hun hersenen bij te dragen aan onderzoek nahun overlijden. De studie richt zich op de overgang van de normale werking van de hersenen naar de ziekte van Alzheimer2. Binnen het project werden postmortale hersenmonsters geanalyseerd met een overvloed aan omics-benaderingen, waaronder genomics, epigenomics, transcriptomics, proteomics5 en metabolomics.

Omics-technologieën die functionele uitlezingen van cellulaire toestanden bieden (d.w.z. proteomics en metabolomics)6,7 zijn de sleutel tot het interpreteren van ziekte 8,9,10,11,12, vanwege de directe relatie tussen de overvloed aan eiwitten en metabolieten en cellulaire activiteiten. Eiwitten zijn de primaire uitvoerders van cellulaire processen, terwijl metabolieten de substraten en producten zijn voor biochemische reacties. Multi-omics data-analyse biedt de mogelijkheid om de complexe relaties tussen proteomics- en metabolomics-data te begrijpen in plaats van ze afzonderlijk te waarderen. Multi-omics is een discipline die meerdere lagen van hoogdimensionale biologische gegevens bestudeert, waaronder moleculaire gegevens (genoomsequentie en mutaties, transcriptoom, proteoom, metaboloom), klinische beeldvormingsgegevens en klinische kenmerken. Multi-omics-data-analyse is met name gericht op het integreren van dergelijke lagen van biologische gegevens, het begrijpen van hun wederzijdse regulatie en interactiedynamiek, en het leveren van een holistisch begrip van het ontstaan en de progressie van ziekten. Methoden voor de integratie van multi-omics-gegevens bevinden zich echter nog in de beginfase van ontwikkeling13.

Auto-encoders, een soort neuraal netwerk zonder toezicht14, zijn een krachtig hulpmiddel voor multi-omics-gegevensintegratie. In tegenstelling tot gesuperviseerde neurale netwerken, wijzen auto-encoders monsters niet toe aan specifieke doelwaarden (zoals gezond of ziek), noch worden ze gebruikt om resultaten te voorspellen. Een van hun belangrijkste toepassingen ligt in dimensionaliteitsreductie. Auto-encoders bieden echter verschillende voordelen ten opzichte van eenvoudigere methoden voor dimensionaliteitsreductie, zoals principal component analysis (PCA), t-distributed stochastic neighbor embedding (tSNE) of uniform manifold approximation and projection (UMAP). In tegenstelling tot PCA kunnen auto-encoders niet-lineaire relaties in de gegevens vastleggen. In tegenstelling tot tSNE en UMAP kunnen ze hiërarchische en multimodale relaties binnen de gegevens detecteren, omdat ze afhankelijk zijn van meerdere lagen van rekeneenheden die elk niet-lineaire activeringsfuncties bevatten. Daarom zijn het aantrekkelijke modellen om de complexiteit van multi-omics-gegevens vast te leggen. Ten slotte, terwijl de primaire toepassing van PCA, tSNE en UMAP die van het clusteren van de gegevens is, comprimeren auto-encoders de invoergegevens tot geëxtraheerde functies die zeer geschikt zijn voor downstream voorspellende taken15,16.

In het kort bestaan neurale netwerken uit verschillende lagen, die elk meerdere rekeneenheden of ‘neuronen’ bevatten. De eerste en laatste laag worden respectievelijk de invoer- en uitvoerlaag genoemd. Auto-encoders zijn neurale netwerken met een zandloperstructuur, bestaande uit een invoerlaag, gevolgd door één tot drie verborgen lagen en een kleine “latente” laag die meestal tussen de twee en zes neuronen bevat. De eerste helft van deze structuur staat bekend als de encoder en wordt gecombineerd met een decoder die de encoder spiegelt. De decoder eindigt met een uitvoerlaag met hetzelfde aantal neuronen als de invoerlaag. Auto-encoders nemen de input door het knelpunt en reconstrueren deze in de uitvoerlaag, met als doel een output te genereren die de oorspronkelijke informatie zo goed mogelijk weerspiegelt. Dit wordt bereikt door een parameter die ‘reconstructieverlies’ wordt genoemd, wiskundig te minimaliseren. De input bestaat uit een reeks kenmerken, die in de hierin getoonde aanvraag eiwit- en metabolietabundanties en klinische kenmerken (d.w.z. geslacht, opleiding en leeftijd bij overlijden) zullen zijn. De latente laag bevat een gecomprimeerde en informatierijke weergave van de input, die kan worden gebruikt voor volgende toepassingen zoals voorspellende modellen17,18.

Dit protocol presenteert een workflow, DeepOmicsAE, die het volgende omvat: 1) voorverwerking van proteomics, metabolomics en klinische gegevens (d.w.z. normalisatie, schaalvergroting, verwijdering van uitschieters) om gegevens te verkrijgen met een consistente schaal voor machine learning-analyse; 2) het selecteren van de juiste invoerfuncties voor auto-encoders, aangezien overbelasting van functies relevante ziektepatronen kan verdoezelen; 3) het optimaliseren en trainen van de auto-encoder, inclusief het bepalen van het optimale aantal te selecteren eiwitten en metabolieten, en van neuronen voor de latente laag; 4) het extraheren van kenmerken uit de latente laag; en 5) het gebruik van de geëxtraheerde kenmerken voor biologische interpretatie door moleculaire signaleringsmodules en hun relatie met klinische kenmerken te identificeren.

Dit protocol is bedoeld om eenvoudig en toepasbaar te zijn door biologen met beperkte rekenervaring die een basiskennis hebben van programmeren met Python. Het protocol richt zich op het analyseren van multi-omics-gegevens, waaronder proteomics, metabolomics en klinische kenmerken, maar het gebruik ervan kan worden uitgebreid naar andere soorten moleculaire expressiegegevens, waaronder transcriptomics. Een belangrijke nieuwe toepassing die door dit protocol wordt geïntroduceerd, is het in kaart brengen van de belangrijkheidsscores van originele kenmerken op individuele neuronen in de latente laag. Als gevolg hiervan vertegenwoordigt elk neuron in de latente laag een signaalmodule, die de interacties tussen specifieke moleculaire veranderingen en de klinische kenmerken van de patiënt beschrijft. Biologische interpretatie van de moleculaire signaleringsmodules wordt verkregen door gebruik te maken van MetaboAnalyst, een openbaar beschikbaar hulpmiddel dat gen-/eiwit- en metabolietgegevens integreert om verrijkte metabole en celsignaleringsroutes af te leiden17.

Protocol

OPMERKING: De gegevens die hier worden gebruikt, zijn ROSMAP-gegevens die zijn gedownload van de AD Knowledge-portal. Geïnformeerde toestemming is niet nodig om de gegevens te downloaden en te hergebruiken. Het hierin gepresenteerde protocol maakt gebruik van deep learning om multi-omics-gegevens te analyseren en signaleringsmodules te identificeren die specifieke patiënt- of steekproefgroepen onderscheiden op basis van bijvoorbeeld hun diagnose. Het protocol levert ook een kleine set geëxtraheerde functies die de oor…

Representative Results

Om het protocol te demonstreren, analyseerden we een dataset bestaande uit het proteoom, metaboloom en klinische informatie afkomstig van postmortale hersenen van 142 personen die gezond waren of gediagnosticeerd waren met de ziekte van Alzheimer. Na het uitvoeren van het protocolsectie 1 om de gegevens voor te verwerken, omvatte de dataset 6.497 eiwitten, 443 metabolieten en drie klinische kenmerken (geslacht, leeftijd bij overlijden en opleiding). Het doelkenmerk is klinische consens…

Discussion

De structuur van de dataset is van cruciaal belang voor het succes van het protocol en moet zorgvuldig worden gecontroleerd. De gegevens moeten worden opgemaakt zoals aangegeven in punt 1 van het protocol. De juiste toewijzing van kolomposities is ook van cruciaal belang voor het succes van de methode. Proteomics- en metabolomics-gegevens worden anders voorverwerkt en de selectie van functies wordt afzonderlijk uitgevoerd vanwege de verschillende aard van de gegevens. Daarom is het van cruciaal belang om kolomposities co…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door NIH-subsidie CA201402 en de Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. De hier gepubliceerde resultaten zijn geheel of gedeeltelijk gebaseerd op gegevens verkregen uit het AD Kennisportaal (https://adknowledgeportal.org). Studiegegevens werden verstrekt via het Accelerating Medicine Partnership for AD (U01AG046161 en U01AG061357) op basis van monsters die werden verstrekt door het Rush Alzheimer’s Disease Center, Rush University Medical Center, Chicago. Het verzamelen van gegevens werd ondersteund door financiering door NIA-subsidies P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, het Illinois Department of Public Health en het Translational Genomics Research Institute. De metabolomics-dataset is gegenereerd bij Metabolon en voorbewerkt door de ADMC.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/65910?article_type=t

Play Video

Cite This Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video