DeepOmicsAE er en arbeidsflyt sentrert om anvendelsen av en dyp læringsmetode (dvs. en autoencoder) for å redusere dimensjonaliteten til multi-omics-data, noe som gir grunnlag for prediktive modeller og signalmoduler som representerer flere lag med omics-data.
Store omics-datasett blir stadig mer tilgjengelige for forskning på menneskers helse. Denne rapporten presenterer DeepOmicsAE, en arbeidsflyt optimalisert for analyse av multi-omics datasett, inkludert proteomikk, metabolomikk og kliniske data. Denne arbeidsflyten bruker en type nevrale nettverk kalt autoencoder, for å trekke ut et kortfattet sett med funksjoner fra de høydimensjonale multi-omics-inngangsdataene. Videre gir arbeidsflyten en metode for å optimalisere nøkkelparametrene som trengs for å implementere autoenkoderen. For å vise frem denne arbeidsflyten ble kliniske data analysert fra en kohorte på 142 personer som enten var sunne eller diagnostisert med Alzheimers sykdom, sammen med proteomet og metabolomet til hjerneprøvene etter døden. Funksjonene hentet fra det latente laget av autoenkoderen beholder den biologiske informasjonen som skiller friske og syke pasienter. I tillegg representerer de individuelle ekstraherte egenskapene distinkte molekylære signalmoduler, som hver samhandler unikt med individets kliniske egenskaper, noe som gir et middel til å integrere proteomikk, metabolomikk og kliniske data.
En stadig større andel av befolkningen blir eldre, og byrden av aldersrelaterte sykdommer, som nevrodegenerasjon, forventes å øke kraftig de neste tiårene1. Alzheimers sykdom er den vanligste typen nevrodegenerativ sykdom2. Fremgang i å finne en behandling har vært langsom gitt vår dårlige forståelse av de grunnleggende molekylære mekanismene som driver sykdomsutbruddet og fremgangen. Mesteparten av informasjonen om Alzheimers sykdom er oppnådd post mortem fra undersøkelsen av hjernevev, noe som har gjort skille mellom årsaker og konsekvenser en vanskelig oppgave3. The Religious Orders Study / Memory and Aging Project (ROSMAP) er en ambisiøs innsats for å få en bredere forståelse av nevrodegenerasjon, som innebærer studier av tusenvis av individer som har forpliktet seg til å gjennomgå medisinske og psykologiske undersøkelser årlig og å bidra med hjernen sin til forskning etter deres død4. Studien fokuserer på overgangen fra normal funksjon av hjernen til Alzheimers sykdom2. Innenfor prosjektet ble postmortem hjerneprøver analysert med en mengde omics-tilnærminger, inkludert genomikk, epigenomikk, transkriptomikk, proteomikk5 og metabolomikk.
Omics-teknologier som tilbyr funksjonelle avlesninger av cellulære tilstander (dvs. proteomikk og metabolomikk)6,7 er nøkkelen til å tolke sykdom 8,9,10,11,12, på grunn av det direkte forholdet mellom protein- og metabolittoverflod og cellulære aktiviteter. Proteiner er de primære eksekutørene av cellulære prosesser, mens metabolitter er substratene og produktene for biokjemiske reaksjoner. Multi-omics dataanalyse gir muligheten til å forstå de komplekse forholdene mellom proteomikk og metabolomikkdata i stedet for å verdsette dem isolert. Multi-omics er en disiplin som studerer flere lag med høydimensjonale biologiske data, inkludert molekylære data (genomsekvens og mutasjoner, transkriptom, proteom, metabolom), kliniske bildedata og kliniske egenskaper. Spesielt har multi-omics dataanalyse som mål å integrere slike lag av biologiske data, forstå deres gjensidige regulering og interaksjonsdynamikk, og levere en helhetlig forståelse av sykdomsutbrudd og progresjon. Metoder for å integrere multi-omics-data forblir imidlertid i de tidlige utviklingsstadiene13.
Autoencoders, en type uovervåket nevralt nettverk14, er et kraftig verktøy for multi-omics dataintegrasjon. I motsetning til overvåkede nevrale nettverk, tilordner ikke autokodere prøver til bestemte målverdier (for eksempel friske eller syke), og de brukes heller ikke til å forutsi utfall. En av deres primære anvendelser ligger i dimensjonalitetsreduksjon. Imidlertid tilbyr autokodere flere fordeler i forhold til enklere dimensjonalitetsreduksjonsmetoder som prinsipal komponentanalyse (PCA), t-distribuert stokastisk naboinnebygging (tSNE) eller uniform manifoldtilnærming og projeksjon (UMAP). I motsetning til PCA kan autokodere fange opp ikke-lineære relasjoner i dataene. I motsetning til tSNE og UMAP, kan de oppdage hierarkiske og multimodale relasjoner i dataene, siden de er avhengige av flere lag med beregningsenheter som hver inneholder ikke-lineære aktiveringsfunksjoner. Derfor representerer de attraktive modeller for å fange kompleksiteten til multi-omics-data. Til slutt, mens den primære anvendelsen av PCA, tSNE og UMAP er å gruppere dataene, komprimerer autokodere inndataene til ekstraherte funksjoner som er godt egnet for nedstrøms prediktive oppgaver15,16.
Kort fortalt består nevrale nettverk av flere lag, som hver inneholder flere beregningsenheter eller “nevroner”. Det første og siste laget refereres til som henholdsvis inngangs- og utgangslag. Autokodere er nevrale nettverk med en timeglassstruktur, bestående av et inngangslag, etterfulgt av ett til tre skjulte lag og et lite “latent” lag som vanligvis inneholder mellom to og seks nevroner. Denne strukturens første halvdel er kjent som koderen og er kombinert med en dekoder som speiler koderen. Dekoderen ender med et utgangslag som inneholder samme antall nevroner som inngangslaget. Autokodere tar inngangen gjennom flaskehalsen og rekonstruerer den i utgangslaget, med mål om å generere en utgang som speiler den opprinnelige informasjonen så nært som mulig. Dette oppnås ved matematisk å minimere en parameter som kalles “rekonstruksjonstap”. Inngangen består av et sett med funksjoner, som i søknaden som vises her, vil være protein- og metabolittmengder, og kliniske egenskaper (dvs. kjønn, utdanning og alder ved død). Det latente laget inneholder en komprimert og informasjonsrik representasjon av inngangen, som kan brukes til påfølgende applikasjoner som prediktive modeller17,18.
Denne protokollen presenterer en arbeidsflyt, DeepOmicsAE, som innebærer: 1) forbehandling av proteomikk, metabolomikk og kliniske data (dvs. normalisering, skalering, fjerning av avvik) for å oppnå data med en konsistent skala for maskinlæringsanalyse; 2) velge passende autoencoder-inngangsfunksjoner, siden funksjonsoverbelastning kan skjule relevante sykdomsmønstre; 3) optimalisere og trene autoenkoderen, inkludert å bestemme det optimale antall proteiner og metabolitter å velge, og av nevroner for det latente laget; 4) trekke ut funksjoner fra det latente laget; og 5) utnytte de ekstraherte egenskapene for biologisk tolkning ved å identifisere molekylære signalmoduler og deres forhold til kliniske egenskaper.
Denne protokollen tar sikte på å være enkel og anvendelig av biologer med begrenset beregningserfaring som har en grunnleggende forståelse av programmering med Python. Protokollen fokuserer på å analysere multi-omics data, inkludert proteomikk, metabolomikk og kliniske egenskaper, men bruken kan utvides til andre typer molekylære uttrykksdata, inkludert transkriptomikk. En viktig ny applikasjon introdusert av denne protokollen er å kartlegge viktighetspoengene til originale egenskaper på individuelle nevroner i det latente laget. Som et resultat representerer hver nevron i det latente laget en signalmodul som beskriver samspillet mellom spesifikke molekylære endringer og pasientens kliniske egenskaper. Biologisk tolkning av molekylære signalmoduler oppnås ved hjelp av MetaboAnalyst, et offentlig tilgjengelig verktøy som integrerer gen-/protein- og metabolittdata for å utlede berikede metabolske og cellesignalveier17.
Strukturen til datasettet er avgjørende for protokollens suksess og bør kontrolleres nøye. Dataene skal formateres som angitt i protokollseksjon 1. Riktig tildeling av kolonneposisjoner er også avgjørende for metodens suksess. Proteomikk- og metabolomikkdata er forhåndsbehandlet forskjellig, og funksjonsvalg utføres separat på grunn av dataenes forskjellige natur. Derfor er det viktig å tilordne kolonneposisjoner riktig i protokolltrinn 1.5, 2.3 og 3.3.
Hvis de kliniske dataene inneho…
The authors have nothing to disclose.
Dette arbeidet ble støttet av NIH grant CA201402 og Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. Resultatene som publiseres her er helt eller delvis basert på data hentet fra AD Knowledge Portal (https://adknowledgeportal.org). Studiedata ble gitt gjennom Accelerating Medicine Partnership for AD (U01AG046161 og U01AG061357) basert på prøver levert av Rush Alzheimer’s Disease Center, Rush University Medical Center, Chicago. Datainnsamling ble støttet gjennom finansiering av NIA tilskudd P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health og Translational Genomics Research Institute. Datasettet metabolomics ble generert ved Metabolon og forhåndsbehandlet av ADMC.
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |