Summary

DeepOmicsAE: Representerer signalmoduler i Alzheimers sykdom med dyp læring Analyse av proteomikk, metabolomikk og kliniske data

Published: December 15, 2023
doi:

Summary

DeepOmicsAE er en arbeidsflyt sentrert om anvendelsen av en dyp læringsmetode (dvs. en autoencoder) for å redusere dimensjonaliteten til multi-omics-data, noe som gir grunnlag for prediktive modeller og signalmoduler som representerer flere lag med omics-data.

Abstract

Store omics-datasett blir stadig mer tilgjengelige for forskning på menneskers helse. Denne rapporten presenterer DeepOmicsAE, en arbeidsflyt optimalisert for analyse av multi-omics datasett, inkludert proteomikk, metabolomikk og kliniske data. Denne arbeidsflyten bruker en type nevrale nettverk kalt autoencoder, for å trekke ut et kortfattet sett med funksjoner fra de høydimensjonale multi-omics-inngangsdataene. Videre gir arbeidsflyten en metode for å optimalisere nøkkelparametrene som trengs for å implementere autoenkoderen. For å vise frem denne arbeidsflyten ble kliniske data analysert fra en kohorte på 142 personer som enten var sunne eller diagnostisert med Alzheimers sykdom, sammen med proteomet og metabolomet til hjerneprøvene etter døden. Funksjonene hentet fra det latente laget av autoenkoderen beholder den biologiske informasjonen som skiller friske og syke pasienter. I tillegg representerer de individuelle ekstraherte egenskapene distinkte molekylære signalmoduler, som hver samhandler unikt med individets kliniske egenskaper, noe som gir et middel til å integrere proteomikk, metabolomikk og kliniske data.

Introduction

En stadig større andel av befolkningen blir eldre, og byrden av aldersrelaterte sykdommer, som nevrodegenerasjon, forventes å øke kraftig de neste tiårene1. Alzheimers sykdom er den vanligste typen nevrodegenerativ sykdom2. Fremgang i å finne en behandling har vært langsom gitt vår dårlige forståelse av de grunnleggende molekylære mekanismene som driver sykdomsutbruddet og fremgangen. Mesteparten av informasjonen om Alzheimers sykdom er oppnådd post mortem fra undersøkelsen av hjernevev, noe som har gjort skille mellom årsaker og konsekvenser en vanskelig oppgave3. The Religious Orders Study / Memory and Aging Project (ROSMAP) er en ambisiøs innsats for å få en bredere forståelse av nevrodegenerasjon, som innebærer studier av tusenvis av individer som har forpliktet seg til å gjennomgå medisinske og psykologiske undersøkelser årlig og å bidra med hjernen sin til forskning etter deres død4. Studien fokuserer på overgangen fra normal funksjon av hjernen til Alzheimers sykdom2. Innenfor prosjektet ble postmortem hjerneprøver analysert med en mengde omics-tilnærminger, inkludert genomikk, epigenomikk, transkriptomikk, proteomikk5 og metabolomikk.

Omics-teknologier som tilbyr funksjonelle avlesninger av cellulære tilstander (dvs. proteomikk og metabolomikk)6,7 er nøkkelen til å tolke sykdom 8,9,10,11,12, på grunn av det direkte forholdet mellom protein- og metabolittoverflod og cellulære aktiviteter. Proteiner er de primære eksekutørene av cellulære prosesser, mens metabolitter er substratene og produktene for biokjemiske reaksjoner. Multi-omics dataanalyse gir muligheten til å forstå de komplekse forholdene mellom proteomikk og metabolomikkdata i stedet for å verdsette dem isolert. Multi-omics er en disiplin som studerer flere lag med høydimensjonale biologiske data, inkludert molekylære data (genomsekvens og mutasjoner, transkriptom, proteom, metabolom), kliniske bildedata og kliniske egenskaper. Spesielt har multi-omics dataanalyse som mål å integrere slike lag av biologiske data, forstå deres gjensidige regulering og interaksjonsdynamikk, og levere en helhetlig forståelse av sykdomsutbrudd og progresjon. Metoder for å integrere multi-omics-data forblir imidlertid i de tidlige utviklingsstadiene13.

Autoencoders, en type uovervåket nevralt nettverk14, er et kraftig verktøy for multi-omics dataintegrasjon. I motsetning til overvåkede nevrale nettverk, tilordner ikke autokodere prøver til bestemte målverdier (for eksempel friske eller syke), og de brukes heller ikke til å forutsi utfall. En av deres primære anvendelser ligger i dimensjonalitetsreduksjon. Imidlertid tilbyr autokodere flere fordeler i forhold til enklere dimensjonalitetsreduksjonsmetoder som prinsipal komponentanalyse (PCA), t-distribuert stokastisk naboinnebygging (tSNE) eller uniform manifoldtilnærming og projeksjon (UMAP). I motsetning til PCA kan autokodere fange opp ikke-lineære relasjoner i dataene. I motsetning til tSNE og UMAP, kan de oppdage hierarkiske og multimodale relasjoner i dataene, siden de er avhengige av flere lag med beregningsenheter som hver inneholder ikke-lineære aktiveringsfunksjoner. Derfor representerer de attraktive modeller for å fange kompleksiteten til multi-omics-data. Til slutt, mens den primære anvendelsen av PCA, tSNE og UMAP er å gruppere dataene, komprimerer autokodere inndataene til ekstraherte funksjoner som er godt egnet for nedstrøms prediktive oppgaver15,16.

Kort fortalt består nevrale nettverk av flere lag, som hver inneholder flere beregningsenheter eller “nevroner”. Det første og siste laget refereres til som henholdsvis inngangs- og utgangslag. Autokodere er nevrale nettverk med en timeglassstruktur, bestående av et inngangslag, etterfulgt av ett til tre skjulte lag og et lite “latent” lag som vanligvis inneholder mellom to og seks nevroner. Denne strukturens første halvdel er kjent som koderen og er kombinert med en dekoder som speiler koderen. Dekoderen ender med et utgangslag som inneholder samme antall nevroner som inngangslaget. Autokodere tar inngangen gjennom flaskehalsen og rekonstruerer den i utgangslaget, med mål om å generere en utgang som speiler den opprinnelige informasjonen så nært som mulig. Dette oppnås ved matematisk å minimere en parameter som kalles “rekonstruksjonstap”. Inngangen består av et sett med funksjoner, som i søknaden som vises her, vil være protein- og metabolittmengder, og kliniske egenskaper (dvs. kjønn, utdanning og alder ved død). Det latente laget inneholder en komprimert og informasjonsrik representasjon av inngangen, som kan brukes til påfølgende applikasjoner som prediktive modeller17,18.

Denne protokollen presenterer en arbeidsflyt, DeepOmicsAE, som innebærer: 1) forbehandling av proteomikk, metabolomikk og kliniske data (dvs. normalisering, skalering, fjerning av avvik) for å oppnå data med en konsistent skala for maskinlæringsanalyse; 2) velge passende autoencoder-inngangsfunksjoner, siden funksjonsoverbelastning kan skjule relevante sykdomsmønstre; 3) optimalisere og trene autoenkoderen, inkludert å bestemme det optimale antall proteiner og metabolitter å velge, og av nevroner for det latente laget; 4) trekke ut funksjoner fra det latente laget; og 5) utnytte de ekstraherte egenskapene for biologisk tolkning ved å identifisere molekylære signalmoduler og deres forhold til kliniske egenskaper.

Denne protokollen tar sikte på å være enkel og anvendelig av biologer med begrenset beregningserfaring som har en grunnleggende forståelse av programmering med Python. Protokollen fokuserer på å analysere multi-omics data, inkludert proteomikk, metabolomikk og kliniske egenskaper, men bruken kan utvides til andre typer molekylære uttrykksdata, inkludert transkriptomikk. En viktig ny applikasjon introdusert av denne protokollen er å kartlegge viktighetspoengene til originale egenskaper på individuelle nevroner i det latente laget. Som et resultat representerer hver nevron i det latente laget en signalmodul som beskriver samspillet mellom spesifikke molekylære endringer og pasientens kliniske egenskaper. Biologisk tolkning av molekylære signalmoduler oppnås ved hjelp av MetaboAnalyst, et offentlig tilgjengelig verktøy som integrerer gen-/protein- og metabolittdata for å utlede berikede metabolske og cellesignalveier17.

Protocol

MERK: Dataene som ble brukt her, var ROSMAP-data lastet ned fra AD-kunnskapsportalen. Informert samtykke er ikke nødvendig for å laste ned og gjenbruke dataene. Protokollen som presenteres her, bruker dyp læring for å analysere multi-omics-data og identifisere signalmoduler som skiller spesifikke pasient- eller utvalgsgrupper basert for eksempel på diagnosen. Protokollen leverer også et lite sett med ekstraherte funksjoner som oppsummerer de opprinnelige storskaladataene og kan brukes til videre analyse, for eksemp…

Representative Results

For å vise frem protokollen analyserte vi et datasett bestående av proteom, metabolom og klinisk informasjon avledet fra postmortemhjerner hos 142 personer som enten var sunne eller diagnostisert med Alzheimers sykdom. Etter å ha utført protokollseksjon 1 for å forhåndsbehandle dataene, inkluderte datasettet 6 497 proteiner, 443 metabolitter og tre kliniske trekk (kjønn, alder ved død og utdanning). Målfunksjonen er klinisk konsensusdiagnose av kognitiv status ved dødstidspun…

Discussion

Strukturen til datasettet er avgjørende for protokollens suksess og bør kontrolleres nøye. Dataene skal formateres som angitt i protokollseksjon 1. Riktig tildeling av kolonneposisjoner er også avgjørende for metodens suksess. Proteomikk- og metabolomikkdata er forhåndsbehandlet forskjellig, og funksjonsvalg utføres separat på grunn av dataenes forskjellige natur. Derfor er det viktig å tilordne kolonneposisjoner riktig i protokolltrinn 1.5, 2.3 og 3.3.

Hvis de kliniske dataene inneho…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble støttet av NIH grant CA201402 og Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. Resultatene som publiseres her er helt eller delvis basert på data hentet fra AD Knowledge Portal (https://adknowledgeportal.org). Studiedata ble gitt gjennom Accelerating Medicine Partnership for AD (U01AG046161 og U01AG061357) basert på prøver levert av Rush Alzheimer’s Disease Center, Rush University Medical Center, Chicago. Datainnsamling ble støttet gjennom finansiering av NIA tilskudd P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health og Translational Genomics Research Institute. Datasettet metabolomics ble generert ved Metabolon og forhåndsbehandlet av ADMC.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/fr/65910?article_type=t

Play Video

Citer Cet Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video