DeepOmicsAE: Representing Signaling Modules in Alzheimer's Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data

Elena Panizza

doi:10.3791/65910

JoVE Journal > Biology

Biologia

DeepOmicsAE: Repræsenterer signalmoduler i Alzheimers sygdom med dyb læringsanalyse af proteomics, metabolomics og kliniske data

Published: December 15, 2023

doi:

10.3791/65910

Elena Panizza

¹Department of Molecular Medicine,Cornell University

Summary

DeepOmicsAE er en arbejdsgang centreret om anvendelsen af en dyb læringsmetode (dvs. en autoencoder) for at reducere dimensionaliteten af multi-omics-data, hvilket giver et fundament for prædiktive modeller og signalmoduler, der repræsenterer flere lag af omics-data.

Abstract

Store omics-datasæt bliver i stigende grad tilgængelige for forskning i menneskers sundhed. Dette papir præsenterer DeepOmicsAE, en arbejdsgang optimeret til analyse af multi-omics-datasæt, herunder proteomics, metabolomics og kliniske data. Denne arbejdsproces anvender en type neuralt netværk kaldet autoencoder til at udtrække et kortfattet sæt funktioner fra de højdimensionelle multi-omics-inputdata. Desuden giver arbejdsgangen en metode til at optimere de nøgleparametre, der er nødvendige for at implementere autoencoderen. For at fremvise denne arbejdsgang blev kliniske data analyseret fra en kohorte på 142 personer, der enten var sunde eller diagnosticeret med Alzheimers sygdom sammen med proteomet og metabolomet i deres postmortem hjerneprøver. De funktioner, der ekstraheres fra det latente lag af autokoderen, bevarer den biologiske information, der adskiller raske og syge patienter. Derudover repræsenterer de enkelte ekstraherede træk forskellige molekylære signalmoduler, som hver især interagerer unikt med individernes kliniske egenskaber, hvilket giver et middel til at integrere proteomics, metabolomics og kliniske data.

Introduction

En stadig større del af befolkningen ældes, og byrden af aldersrelaterede sygdomme, såsom neurodegeneration, forventes at stige kraftigt i de kommende årtier¹. Alzheimers sygdom er den mest almindelige type neurodegenerativ sygdom². Fremskridt med at finde en behandling har været langsomme i betragtning af vores dårlige forståelse af de grundlæggende molekylære mekanismer, der driver sygdommens begyndelse og fremskridt. Størstedelen af informationen om Alzheimers sygdom er indhentet post mortem fra undersøgelsen af hjernevæv, hvilket har gjort det vanskeligt at skelne mellem årsager og konsekvenser³. Religious Orders Study / Memory and Aging Project (ROSMAP) er en ambitiøs indsats for at få en bredere forståelse af neurodegeneration, som involverer undersøgelse af tusindvis af personer, der har forpligtet sig til at gennemgå medicinske og psykologiske undersøgelser årligt og bidrage med deres hjerner til forskning efter deres død⁴. Studiet fokuserer på overgangen fra hjernens normale funktion til Alzheimers sygdom². Inden for projektet blev postmortem hjerneprøver analyseret med en overflod af omics tilgange, herunder genomics, epigenomics, transcriptomics, proteomics⁵ og metabolomics.

Omics-teknologier, der tilbyder funktionelle aflæsninger af cellulære tilstande (dvs. proteomics og metabolomics)^6,7 er nøglen til fortolkning af sygdom ^8,9,10,11,12 på grund af det direkte forhold mellem protein- og metabolitoverflod og cellulære aktiviteter. Proteiner er de primære eksekutorer af cellulære processer, mens metabolitter er substrater og produkter til biokemiske reaktioner. Multi-omics dataanalyse giver mulighed for at forstå de komplekse forhold mellem proteomics og metabolomics data i stedet for at værdsætte dem isoleret. Multi-omics er en disciplin, der studerer flere lag af højdimensionelle biologiske data, herunder molekylære data (genomsekvens og mutationer, transkriptom, proteom, metabolom), kliniske billeddannelsesdata og kliniske træk. Multi-omics dataanalyse sigter især mod at integrere sådanne lag af biologiske data, forstå deres gensidige regulering og interaktionsdynamik og levere en holistisk forståelse af sygdomsdebut og progression. Metoderne til integration af multiomikdata befinder sig dog stadig i de tidlige udviklingsstadier¹³.

Autoencodere, en type uovervåget neuralt netværk¹⁴, er et kraftfuldt værktøj til multi-omics dataintegration. I modsætning til overvågede neurale netværk kortlægger autokodere ikke prøver til specifikke målværdier (såsom raske eller syge), og de bruges heller ikke til at forudsige resultater. En af deres primære anvendelser ligger i dimensionalitetsreduktion. Autoencodere tilbyder dog flere fordele i forhold til enklere dimensionalitetsreduktionsmetoder såsom hovedkomponentanalyse (PCA), t-distribueret stokastisk naboindlejring (tSNE) eller ensartet manifoldtilnærmelse og projektion (UMAP). I modsætning til PCA kan autokodere registrere ikke-lineære relationer i dataene. I modsætning til tSNE og UMAP kan de registrere hierarkiske og multimodale relationer inden for dataene, da de er afhængige af flere lag af beregningsenheder, der hver indeholder ikke-lineære aktiveringsfunktioner. Derfor repræsenterer de attraktive modeller til at fange kompleksiteten af multi-omics-data. Endelig, mens den primære anvendelse af PCA, tSNE og UMAP er klyngedannelse af dataene, komprimerer autokodere inputdataene til ekstraherede funktioner, der er velegnede til downstream-prædiktive opgaver^15,16.

Kort fortalt består neurale netværk af flere lag, der hver indeholder flere beregningsenheder eller “neuroner”. Det første og sidste lag kaldes henholdsvis input- og outputlagene. Autoencodere er neurale netværk med en timeglasstruktur, der består af et inputlag efterfulgt af et til tre skjulte lag og et lille “latent” lag, der typisk indeholder mellem to og seks neuroner. Denne strukturs første halvdel er kendt som koderen og kombineres med en dekoder, der afspejler koderen. Dekoderen slutter med et outputlag, der indeholder det samme antal neuroner som inputlaget. Autoencodere tager input gennem flaskehalsen og rekonstruerer det i outputlaget med det formål at generere et output, der afspejler den originale information så tæt som muligt. Dette opnås ved matematisk at minimere en parameter kaldet “rekonstruktionstab”. Inputtet består af et sæt funktioner, som i applikationen, der vises heri, vil være protein- og metabolitmængder og kliniske egenskaber (dvs. køn, uddannelse og alder ved døden). Det latente lag indeholder en komprimeret og informationsrig repræsentation af inputtet, som kan bruges til efterfølgende applikationer såsom prædiktive modeller^17,18.

Denne protokol præsenterer en arbejdsgang, DeepOmicsAE, som involverer: 1) forbehandling af proteomics, metabolomics og kliniske data (dvs. normalisering, skalering, fjernelse af afvigende værdier) for at opnå data med en ensartet skala til maskinlæringsanalyse; 2) valg af passende autoencoderinputfunktioner, da overbelastning af funktioner kan skjule relevante sygdomsmønstre 3) optimering og træning af autoencoderen, herunder bestemmelse af det optimale antal proteiner og metabolitter, der skal vælges, og af neuroner til det latente lag; 4) ekstraktion af træk fra det latente lag; og 5) udnyttelse af de ekstraherede egenskaber til biologisk fortolkning ved at identificere molekylære signalmoduler og deres forhold til kliniske egenskaber.

Denne protokol sigter mod at være enkel og anvendelig af biologer med begrænset beregningserfaring, der har en grundlæggende forståelse af programmering med Python. Protokollen fokuserer på at analysere multi-omics-data, herunder proteomics, metabolomics og kliniske egenskaber, men dens anvendelse kan udvides til andre typer molekylære ekspressionsdata, herunder transkriptomics. En vigtig ny applikation introduceret af denne protokol er kortlægning af vigtighedsscorerne for originale træk på individuelle neuroner i det latente lag. Som et resultat repræsenterer hver neuron i det latente lag et signalmodul, der beskriver interaktionerne mellem specifikke molekylære ændringer og patienternes kliniske egenskaber. Biologisk fortolkning af de molekylære signalmoduler opnås ved hjælp af MetaboAnalyst, et offentligt tilgængeligt værktøj, der integrerer gen/protein og metabolitdata for at udlede berigede metaboliske og cellesignalveje¹⁷.

Protocol

BEMÆRK: De data, der blev brugt her, var ROSMAP-data, der blev downloadet fra AD-vidensportalen. Informeret samtykke er ikke nødvendigt for at downloade og genbruge dataene. Protokollen, der præsenteres heri, bruger dyb læring til at analysere multi-omics-data og identificere signalmoduler, der adskiller specifikke patient- eller prøvegrupper baseret på for eksempel deres diagnose. Protokollen leverer også et lille sæt udtrukne funktioner, der opsummerer de oprindelige store data og kan bruges til yderligere anal…

Representative Results

For at fremvise protokollen analyserede vi et datasæt, der omfattede proteom, metabolom og klinisk information afledt af postmortemhjerner fra 142 personer, der enten var sunde eller diagnosticeret med Alzheimers sygdom. Efter at have udført protokollens afsnit 1 for at forbehandle dataene, omfattede datasættet 6.497 proteiner, 443 metabolitter og tre kliniske træk (køn, alder ved død og uddannelse). Målfunktionen er klinisk konsensusdiagnose af kognitiv status på dødstidspunk…

Discussion

Datasættets struktur er afgørende for protokollens succes og bør kontrolleres nøje. Dataene skal formateres som angivet i protokolafsnit 1. Den korrekte tildeling af kolonnepositioner er også afgørende for metodens succes. Proteomics og metabolomics data behandles forskelligt, og valg af funktioner udføres separat på grund af dataenes forskellige karakter. Derfor er det vigtigt at tildele kolonnepositioner korrekt i protokoltrin 1.5, 2.3 og 3.3.

Hvis de kliniske data indeholder datatyp…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet af NIH grant CA201402 og Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. De resultater, der offentliggøres her, er helt eller delvist baseret på data fra AD-vidensportalen (https://adknowledgeportal.org). Undersøgelsesdata blev leveret gennem Accelerating Medicine Partnership for AD (U01AG046161 og U01AG061357) baseret på prøver leveret af Rush Alzheimers Disease Center, Rush University Medical Center, Chicago. Dataindsamling blev støttet gennem finansiering af NIA-tilskud P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health og Translational Genomics Research Institute. Metabolomics-datasættet blev genereret ved Metabolon og forbehandlet af ADMC.

Materials

Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

Riferimenti

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

DeepOmicsAE: Repræsenterer signalmoduler i Alzheimers sygdom med dyb læringsanalyse af proteomics, metabolomics og kliniske data

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

DeepOmicsAE: Repræsenterer signalmoduler i Alzheimers sygdom med dyb læringsanalyse af proteomics, metabolomics og kliniske data

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below