Biology

DeepOmicsAE: Repræsenterer signalmoduler i Alzheimers sygdom med dyb læringsanalyse af proteomics, metabolomics og kliniske data

Published: December 15, 2023 doi: 10.3791/65910

¹Department of Molecular Medicine, Cornell University

Summary

DeepOmicsAE er en arbejdsgang centreret om anvendelsen af en dyb læringsmetode (dvs. en autoencoder) for at reducere dimensionaliteten af multi-omics-data, hvilket giver et fundament for prædiktive modeller og signalmoduler, der repræsenterer flere lag af omics-data.

Abstract

Store omics-datasæt bliver i stigende grad tilgængelige for forskning i menneskers sundhed. Dette papir præsenterer DeepOmicsAE, en arbejdsgang optimeret til analyse af multi-omics-datasæt, herunder proteomics, metabolomics og kliniske data. Denne arbejdsproces anvender en type neuralt netværk kaldet autoencoder til at udtrække et kortfattet sæt funktioner fra de højdimensionelle multi-omics-inputdata. Desuden giver arbejdsgangen en metode til at optimere de nøgleparametre, der er nødvendige for at implementere autoencoderen. For at fremvise denne arbejdsgang blev kliniske data analyseret fra en kohorte på 142 personer, der enten var sunde eller diagnosticeret med Alzheimers sygdom sammen med proteomet og metabolomet i deres postmortem hjerneprøver. De funktioner, der ekstraheres fra det latente lag af autokoderen, bevarer den biologiske information, der adskiller raske og syge patienter. Derudover repræsenterer de enkelte ekstraherede træk forskellige molekylære signalmoduler, som hver især interagerer unikt med individernes kliniske egenskaber, hvilket giver et middel til at integrere proteomics, metabolomics og kliniske data.

Introduction

En stadig større del af befolkningen ældes, og byrden af aldersrelaterede sygdomme, såsom neurodegeneration, forventes at stige kraftigt i de kommende årtier¹. Alzheimers sygdom er den mest almindelige type neurodegenerativ sygdom². Fremskridt med at finde en behandling har været langsomme i betragtning af vores dårlige forståelse af de grundlæggende molekylære mekanismer, der driver sygdommens begyndelse og fremskridt. Størstedelen af informationen om Alzheimers sygdom er indhentet post mortem fra undersøgelsen af hjernevæv, hvilket har gjort det vanskeligt at skelne mellem årsager og konsekvenser³. Religious Orders Study / Memory and Aging Project (ROSMAP) er en ambitiøs indsats for at få en bredere forståelse af neurodegeneration, som involverer undersøgelse af tusindvis af personer, der har forpligtet sig til at gennemgå medicinske og psykologiske undersøgelser årligt og bidrage med deres hjerner til forskning efter deres død⁴. Studiet fokuserer på overgangen fra hjernens normale funktion til Alzheimers sygdom². Inden for projektet blev postmortem hjerneprøver analyseret med en overflod af omics tilgange, herunder genomics, epigenomics, transcriptomics, proteomics⁵ og metabolomics.

Omics-teknologier, der tilbyder funktionelle aflæsninger af cellulære tilstande (dvs. proteomics og metabolomics)^6,7 er nøglen til fortolkning af sygdom ^8,9,10,11,12 på grund af det direkte forhold mellem protein- og metabolitoverflod og cellulære aktiviteter. Proteiner er de primære eksekutorer af cellulære processer, mens metabolitter er substrater og produkter til biokemiske reaktioner. Multi-omics dataanalyse giver mulighed for at forstå de komplekse forhold mellem proteomics og metabolomics data i stedet for at værdsætte dem isoleret. Multi-omics er en disciplin, der studerer flere lag af højdimensionelle biologiske data, herunder molekylære data (genomsekvens og mutationer, transkriptom, proteom, metabolom), kliniske billeddannelsesdata og kliniske træk. Multi-omics dataanalyse sigter især mod at integrere sådanne lag af biologiske data, forstå deres gensidige regulering og interaktionsdynamik og levere en holistisk forståelse af sygdomsdebut og progression. Metoderne til integration af multiomikdata befinder sig dog stadig i de tidlige udviklingsstadier¹³.

Autoencodere, en type uovervåget neuralt netværk¹⁴, er et kraftfuldt værktøj til multi-omics dataintegration. I modsætning til overvågede neurale netværk kortlægger autokodere ikke prøver til specifikke målværdier (såsom raske eller syge), og de bruges heller ikke til at forudsige resultater. En af deres primære anvendelser ligger i dimensionalitetsreduktion. Autoencodere tilbyder dog flere fordele i forhold til enklere dimensionalitetsreduktionsmetoder såsom hovedkomponentanalyse (PCA), t-distribueret stokastisk naboindlejring (tSNE) eller ensartet manifoldtilnærmelse og projektion (UMAP). I modsætning til PCA kan autokodere registrere ikke-lineære relationer i dataene. I modsætning til tSNE og UMAP kan de registrere hierarkiske og multimodale relationer inden for dataene, da de er afhængige af flere lag af beregningsenheder, der hver indeholder ikke-lineære aktiveringsfunktioner. Derfor repræsenterer de attraktive modeller til at fange kompleksiteten af multi-omics-data. Endelig, mens den primære anvendelse af PCA, tSNE og UMAP er klyngedannelse af dataene, komprimerer autokodere inputdataene til ekstraherede funktioner, der er velegnede til downstream-prædiktive opgaver^15,16.

Kort fortalt består neurale netværk af flere lag, der hver indeholder flere beregningsenheder eller "neuroner". Det første og sidste lag kaldes henholdsvis input- og outputlagene. Autoencodere er neurale netværk med en timeglasstruktur, der består af et inputlag efterfulgt af et til tre skjulte lag og et lille "latent" lag, der typisk indeholder mellem to og seks neuroner. Denne strukturs første halvdel er kendt som koderen og kombineres med en dekoder, der afspejler koderen. Dekoderen slutter med et outputlag, der indeholder det samme antal neuroner som inputlaget. Autoencodere tager input gennem flaskehalsen og rekonstruerer det i outputlaget med det formål at generere et output, der afspejler den originale information så tæt som muligt. Dette opnås ved matematisk at minimere en parameter kaldet "rekonstruktionstab". Inputtet består af et sæt funktioner, som i applikationen, der vises heri, vil være protein- og metabolitmængder og kliniske egenskaber (dvs. køn, uddannelse og alder ved døden). Det latente lag indeholder en komprimeret og informationsrig repræsentation af inputtet, som kan bruges til efterfølgende applikationer såsom prædiktive modeller^17,18.

Denne protokol præsenterer en arbejdsgang, DeepOmicsAE, som involverer: 1) forbehandling af proteomics, metabolomics og kliniske data (dvs. normalisering, skalering, fjernelse af afvigende værdier) for at opnå data med en ensartet skala til maskinlæringsanalyse; 2) valg af passende autoencoderinputfunktioner, da overbelastning af funktioner kan skjule relevante sygdomsmønstre 3) optimering og træning af autoencoderen, herunder bestemmelse af det optimale antal proteiner og metabolitter, der skal vælges, og af neuroner til det latente lag; 4) ekstraktion af træk fra det latente lag; og 5) udnyttelse af de ekstraherede egenskaber til biologisk fortolkning ved at identificere molekylære signalmoduler og deres forhold til kliniske egenskaber.

Denne protokol sigter mod at være enkel og anvendelig af biologer med begrænset beregningserfaring, der har en grundlæggende forståelse af programmering med Python. Protokollen fokuserer på at analysere multi-omics-data, herunder proteomics, metabolomics og kliniske egenskaber, men dens anvendelse kan udvides til andre typer molekylære ekspressionsdata, herunder transkriptomics. En vigtig ny applikation introduceret af denne protokol er kortlægning af vigtighedsscorerne for originale træk på individuelle neuroner i det latente lag. Som et resultat repræsenterer hver neuron i det latente lag et signalmodul, der beskriver interaktionerne mellem specifikke molekylære ændringer og patienternes kliniske egenskaber. Biologisk fortolkning af de molekylære signalmoduler opnås ved hjælp af MetaboAnalyst, et offentligt tilgængeligt værktøj, der integrerer gen/protein og metabolitdata for at udlede berigede metaboliske og cellesignalveje¹⁷.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

BEMÆRK: De data, der blev brugt her, var ROSMAP-data, der blev downloadet fra AD-vidensportalen. Informeret samtykke er ikke nødvendigt for at downloade og genbruge dataene. Protokollen, der præsenteres heri, bruger dyb læring til at analysere multi-omics-data og identificere signalmoduler, der adskiller specifikke patient- eller prøvegrupper baseret på for eksempel deres diagnose. Protokollen leverer også et lille sæt udtrukne funktioner, der opsummerer de oprindelige store data og kan bruges til yderligere analyse, såsom træning af en prædiktiv model ved hjælp af maskinlæringsalgoritmer (figur 1). Se supplerende fil 1 og materialefortegnelsen for oplysninger om adgang til koden og opsætning af beregningsmiljøet, før du udfører protokollen. Metoderne skal udføres efter nedenstående rækkefølge.

Figur 1: Skematisk oversigt over DeepOmicsAE-arbejdsgangen. Skematisk repræsentation af arbejdsgangen til analyse af multi-omics-data ved hjælp af arbejdsgangen. I autoencoder-afbildningen repræsenterer rektangler lag af det neurale netværk, og cirkler repræsenterer neuroner inden for lag. Klik her for at se en større version af denne figur.

1. Forbehandling af data

BEMÆRK: Målet med dette afsnit er at forbehandle dataene, herunder håndtering af manglende data; normalisering og skalering af proteomiske, metabolomiske ekspression og kliniske data; og fjernelse af afvigende værdier. Protokollen er designet til et datasæt, der indeholder proteomics-data udtrykt som log₂ (forhold); metabolomics-data udtrykt som foldændring; og kliniske træk, herunder kontinuerlige og kategoriske træk. Patienterne eller prøverne skal grupperes baseret på diagnose eller andre lignende parametre. Prøver eller patienter skal være på tværs af rækkerne og funktionerne på tværs af kolonnerne.

Hvis du vil starte en ny forekomst af Jupyter Notebook i browseren, skal du åbne et nyt terminalvindue, skrive følgende og trykke på Enter.
Jupyter notesbog
På Jupyter-hjemmesiden i browseren skal du klikke på notesbogen M01 - ekspressionsdata pre-processing.ipynb for at åbne den i en ny fane (supplerende fil 2, trin 1.1).
I den anden celle i notesbogen skal du skrive navnet på datasætfilen i stedet for your_dataset_name.csv.
I den sidste celle i notesbogen skal du skrive det ønskede navn på outputdatafilen i stedet for M01_output_data.csv.
I notesbogens femte celle skal du angive placeringen af kolonnerne for hver datatype som følger: proteomics-data (cols_prot), metabolomics-data (cols_met), kontinuerlige kliniske data (f.eks. alder) (cols_clin_con), binære kliniske data (f.eks. køn) (cols_clin_bin). Indtast indekset for første kolonne for hver datatype i stedet for col_start og indekset for sidste kolonne i stedet for col_end. For eksempel: cols_prot = skive(0, 8817). Sørg for, at de værdier, der er angivet i udsnitsobjekterne, svarer til indekset i første og sidste kolonne, der svarer til hver datatype. Brug kommandoen i den fjerde celle i den samme notesbog (df.iloc[:, :]) til at bestemme start- og slutpositionen for hver datatype (supplerende fil 2, trin 1.2).
Vælg celle | Kør alt fra menulinjen i Jupyter for at oprette outputdatafilen i den angivne mappe (supplerende fil 2, trin 1.3).
BEMÆRK: Disse data vil blive brugt som input til de protokoller, der er beskrevet i afsnit 2, 3 eller 4.

2. Brugerdefineret optimering af arbejdsgangen (valgfrit)

BEMÆRK: Afsnit 2 er valgfrit, fordi det er computerintensivt. Brugere bør springe direkte til afsnit 4, hvis de beslutter ikke at udføre afsnit 2. Denne protokol vil guide brugeren gennem optimering af arbejdsgangen på en automatiseret måde. Specifikt identificerer metoden de parametre, der leverer autokoderens bedste ydeevne med hensyn til generering af ekstraherede funktioner, der adskiller prøvegrupperne godt. De optimerede parametre, der genereres som output, inkluderer antallet af funktioner, der skal bruges til valg af funktioner (k_prot og k_met) og antallet af neuroner i autoencoderens latente lag (latent). Disse parametre kan derefter bruges i protokollen beskrevet i afsnit 3 til at generere modellen.

På Jupyter-hjemmesiden i browseren skal du klikke på notesbogen M02 - DeepOmicsAE model optimization.ipynb for at åbne den i en ny fane (Supplerende fil 2, trin 2.1).
I den anden celle i notesbogen skal du skrive navnet på inputfilen i stedet for M01_output_data.csv. Indgangen til denne funktion er outputdataene fra afsnit 1.
I notesbogens femte celle skal du angive placeringen af kolonnerne for hver datatype som følger: proteomics data (cols_X_prot), metabolomics data (cols_X_met), kliniske data (cols_clin; omfatter alle de kliniske data), alle molekylære ekspressionsdata, herunder proteomics og metabolomics data (cols_X_expr). Indtast indekset for første kolonne for hver datatype i stedet for col_start og indekset for sidste kolonne i stedet for col_end. For eksempel cols_prot = skive(0, 8817). Sørg for, at de værdier, der er angivet i udsnitsobjekterne, svarer til indekset i første og sidste kolonne, der svarer til hver datatype, og brug kommandoerne i den tredje og fjerde celle i notesbogen til at udforske dataene og bestemme start- og slutpositionerne for hver datatype. Angiv navnet på den kolonne, der indeholder målvariablen, i stedet for y_column_name som y_label (supplerende fil 2, trin 2.2).
BEMÆRK: Værdierne for de indekser, der er angivet i cols_X_prot, cols_X_met, cols_clin og cols_X_expr , vil være forskellige fra dem, der bruges i afsnit 1 på grund af omformningen af datarammen, der sker under dataforbehandling.
I den sjette celle i notesbogen skal du angive, hvor mange optimeringsrunder der skal udføres, ved at tildele en værdi til n_comb. Behandlingstider er ca. 4-5 minutter i 10 runder; 20 min for 50 runder og 40 min for 100 runder (supplerende fil 2, trin 2.3).
Vælg celle | Kør alt fra menulinjen i Jupyter.
BEMÆRK: Outputvariablerne kprot, kmet og latent gemmes og kan tilgås fra de andre notesbøger, som vil blive brugt til at fortsætte den analytiske arbejdsgang. Plottet AE_optimization_plot.pdf genereres og gemmes i den lokale mappe (figur 2).

3. Implementering af arbejdsgange med brugerdefinerede optimerede parametre

BEMÆRK: Udfør kun denne protokol efter metodeoptimering (afsnit 2). Hvis brugerne vælger ikke at udføre metodeoptimering, skal du gå direkte til afsnit 4. Denne protokol guider brugeren gennem generering af en model ved hjælp af de brugerdefinerede optimerede parametre, der er afledt af afsnit 2. Autoencoderen vil 1) generere et sæt ekstraherede funktioner, der rekapitulerer de originale data og 2) identificere de vigtige funktioner, der driver hver neuron i det latente lag, hvilket effektivt repræsenterer unikke signalmoduler. Signalmodulerne fortolkes ved hjælp af protokollen i afsnit 5.

På Jupyter-hjemmesiden i browseren skal du klikke på notebook M03a - DeepOmicsAE-implementering med brugerdefinerede optimerede parameters.ipynb for at åbne den i en ny fane (supplerende fil 2, trin 3.1).
I den anden celle i notesbogen skal du skrive navnet på inputfilen i stedet for M01_output_data.csv. Indgangen til denne funktion er outputdataene fra afsnit 1.
I notesbogens femte celle skal du angive placeringen af kolonnerne for hver datatype som følger: proteomics data (cols_prot), metabolomics data (cols_met), clinical data (cols_clin; omfatter alle de kliniske data). Indtast indekset for første kolonne for hver datatype i stedet for col_start og indekset for sidste kolonne i stedet for col_end. For eksempel: cols_prot = skive(0, 8817). Sørg for, at de værdier, der er angivet i udsnitsobjekterne, svarer til indekset i første og sidste kolonne, der svarer til hver datatype, og brug kommandoerne i den tredje og fjerde celle i notesbogen til at udforske dataene og bestemme start- og slutpositionerne for hver datatype. Angiv navnet på den kolonne, der indeholder målvariablen (f.eks. 0 eller 1, svarende til rask eller syg) i stedet for y_column_name som y_label.
BEMÆRK: Værdien af de indekser, der er angivet i cols_X_prot, cols_X_met, cols_clin og cols_X_expr , vil være forskellig fra dem, der bruges i afsnit 1 på grund af omformningen af datarammen, der sker under dataforbehandling.
Vælg celle | Kør alt fra menulinjen i Jupyter for at generere og gemme plottene PCA_initial_data.pdf, PCA_extracted_features.pdf og distribution_important_feature_scores.pdf i den lokale mappe (figur 3 og supplerende figur S1). Derudover gemmes lister over vigtige funktioner for hvert identificeret signalmodul i tekstfiler i den lokale mappe, navngivet module_n.txt, hvor n erstattes af modulnummeret.

4. Implementering af arbejdsgange med forudindstillede parametre

Se afsnit 3 for detaljerede instruktioner om, hvordan du kører denne metode (supplerende fil 2, trin 4.1). Den eneste forskel mellem disse to protokoller er, at parametrene kprot, kmet og latent (i den syvende celle i notesbogen) er matematisk afledt baseret på resultaterne af den udførte optimering som vist i figur 2.
BEMÆRK: Hvis afsnit 4 leverer en dårlig adskillelse af prøvegrupperne, hvilket indikerer suboptimal modelydeevne, anbefales det at udføre modeloptimering (afsnit 2) ved hjælp af mindst 15 iterationer og om muligt op til 50.

5. Biologisk fortolkning ved hjælp af MetaboAnalyst

Åbn browseren, og naviger til nedenstående link for at få adgang til funktionen Joint Pathway Analysis på MetaboAnalyst-webstedet : https://www.metaboanalyst.ca/MetaboAnalyst/upload/JointUploadView.xhtml.
Få adgang til mappen, hvor outputfilerne fra metode 3 eller metode 4 blev gemt, og åbn de tekstfiler , der er module_n.txt for hvert signalmodul n genereret af metode 3 eller metode 4.
Find proteinerne i tekstfilerne og kopier dem.
Indsæt listen over proteiner i vinduet Gener/proteiner med valgfri foldændringer på MetaboAnalysts webside.
Gentag ovenstående trin for metabolitter og indsæt dem i vinduet Sammensat liste med valgfri foldændringer på samme webside.
Vælg den relevante organisme og id-type, og klik derefter på Send nederst på siden (supplerende fil 2, trin 5.1).
BEMÆRK: Sørg for, at identifikatorerne genkendes af MetaboAnalyst. Anerkendte identifikatorer inkluderer Entrez ID, officielle gensymboler og Uniprot ID for proteiner; sammensat navn, HMDB ID og KEGG ID for metabolitter. Hvis identifikatorerne er andre end disse typer, er passende konvertering nødvendig forud for analysen.
På den følgende side skal du kontrollere id-tilknytningen, før du klikker på Fortsæt for at kontrollere, at id'erne genkendes.
På siden Parameterindstilling skal du vælge Metaboliske veje (integreret) eller Alle veje (integreret) for at visualisere inputtets bidrag til metaboliske veje alene eller til alle signalveje (supplerende fil 2, trin 5.2). I panelet Valg af algoritme skal du vælge Berigelsesanalyse: Hypergeometrisk test, Topologimåling: Gradcentralitet og Integrationsmetode: Kombiner p-værdier (stiniveau). Klik på Send nederst på siden.
Den sidste side er resultatvisningen, som viser resultaterne af forbedringsanalysen. Berigede veje afbildes baseret på deres virkning og betydning, og listen over veje findes også i tabelformat.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

For at fremvise protokollen analyserede vi et datasæt, der omfattede proteom, metabolom og klinisk information afledt af postmortemhjerner fra 142 personer, der enten var sunde eller diagnosticeret med Alzheimers sygdom.

Efter at have udført protokollens afsnit 1 for at forbehandle dataene, omfattede datasættet 6.497 proteiner, 443 metabolitter og tre kliniske træk (køn, alder ved død og uddannelse). Målfunktionen er klinisk konsensusdiagnose af kognitiv status på dødstidspunktet, kodificeret som cogdx, med værdier på 1 for ingen kognitiv svækkelse (CI) og 4 for Alzheimers demens OG en anden årsag til CI. Firs patienter blev diagnosticeret som raske og 62 som havende Alzheimers sygdom. Protokolafsnit 2 blev implementeret for at bestemme de optimale værdier for parametrene kprot, kmet og latent. Optimeringsalgoritmen udfører funktionsvalg og funktionsudtrækning ved hjælp af forskellige kombinationer af modelparametrene. Derefter beregner og returnerer den PCA-silhuetscoren for inputdataene og de udtrukne funktioner. Optimeringsmetoden afslørede, at det nedre interval for de mulige værdier for kprot og kmet resulterer i en højere grad af adskillelse mellem de to grupper af patienter, mens antallet af neuroner i det latente lag ikke har stor indflydelse på modellens ydeevne (figur 2).

Figur 2: Resultater af parameteroptimering. Antallet af iterationer for protokolafsnit 2 blev sat til 212, og graden af adskillelse mellem grupperne med raske og Alzheimers sygdom blev visualiseret baseret på PCA-silhuetscoren (silhuetscore for PCA på ekstraherede funktioner). Antallet af neuroner i det latente lag vises som boblestørrelse (latent), mens antallet af udvalgte funktioner til proteomics data (kprot) og metabolomics data (kmet) er plottet på henholdsvis x- og y-akserne. Forkortelse: PCA = analyse af hovedkomponenter. Klik her for at se en større version af denne figur.

Protokolafsnit 3 blev anvendt til at opnå ekstraherede funktioner og signalmoduler ved hjælp af de optimerede parametre, der blev afledt som beskrevet ovenfor. Kort fortalt blev modellen optimeret til at bruge 804 proteiner, 67 metabolitter og fire neuroner i det latente lag. Diagnosegrupperne blev adskilt af de ekstraherede funktioner (silhuetscore = 0,09) bedre end de var af de originale funktioner (silhuetscore = 0,019), mens de ikke var af de originale funktioner, hvilket viser, at de ekstraherede funktioner fanger de oplysninger, der er nøglen til bestemmelse af sygdomstilstanden (figur 3). Vigtighedsscorerne for de oprindelige funktioner med hensyn til hver neuron i det latente lag vises i supplerende figur S1. De vigtige funktioner, der definerer hver neuron, blev valgt som den øverste 10^. percentil af funktionsscoreværdierne for hver neuron. Overlapningen mellem neuroner og sættet af udvalgte funktioner er begrænset, hvilket viser, at hver neuron i det latente lag fokuserer på forskellige aspekter af signalhændelserne, der fører til Alzheimers sygdom (supplerende figur S2A). Desuden er overlapningen mellem de vigtige funktioner, der er identificeret af DeepOmicsAE, og dem, der er identificeret med PCA, også lav, hvilket understreger vigtigheden af at fange ikke-lineære relationer for at opnå en omfattende forståelse af multi-omics-data (supplerende figur S2B).

Figur 3: De ekstraherede egenskaber, der indeholder de væsentlige oplysninger til adskillelse af sygdomsgrupperne. (A) PCA om inputfunktioner. (B) PCA på udtrukne funktioner. Forkortelse: PCA = analyse af hovedkomponenter. Klik her for at se en større version af denne figur.

Protokolafsnit 5 blev udført for at fortolke de opnåede signalmoduler som beskrevet ovenfor. MetaboAnalyst identificerede en berigelse af forskellige metaboliske og signalveje for hvert signalmodul (figur 4 og supplerende fil 3). Især karakteriserer DeepOmicsAE også interaktionerne mellem kliniske funktioner og signalmoduler. For eksempel er køn og alder ved døden relateret til ændret glycerolipidmetabolisme hos patienter med Alzheimers sygdom (modul 3). Med andre ord er ændringer i denne metaboliske vej mere tilbøjelige til at bestemme sygdom i undergrupper af patienter af et bestemt køn og alder. Omvendt har ændringer af synapser og axonfunktionalitet (modul 2) tendens til at forekomme på tværs af Alzheimers sygdomspatienter uanset deres køn, uddannelsesniveau og levetid. Baseret på resultaterne præsenteret heri kan det konkluderes, at hver neuron i autoencoderens latente lag repræsenterer et særskilt signalmodul, der driver sygdom.

Figur 4: Neuroner i det latente lag svarende til forskellige signalmoduler. Et skema over resultaterne opnået ved analyse ved hjælp af MetaboAnalyst af de vigtige funktioner afledt af hver neuron i det latente lag. Berigede veje blev valgt ud fra at have en effektscore større end 0,25 og FDR lavere end 0,05; Desuden blev der beregnet en "Pathway importance - joint score" som produktet af impact scoren med den negative log₁₀FDR-værdi for hver pathway, og veje med en "joint score" større end 0,55 rapporteres. Endelig vises vigtighedsscoren for individuelle kliniske træk i hvert signalmodul på y-akserne på søjleplottene. Forkortelse: FDR = falsk opdagelsesrate. Klik her for at se en større version af denne figur.

Supplerende fil 1: Oplysninger om adgang til koden og opsætning af beregningsmiljøet, før protokollen udføres. Klik her for at downloade denne fil.

Supplerende fil 2: Skærmbilleder, der giver en visuel beskrivelse af, hvordan protokollen implementeres. Topveje beriget i hvert signalmodul. Klik her for at downloade denne fil.

Supplerende fil 3: Berigelsesanalyseresultater fra MetaboAnalyst. Fane 1: alle forbedrede udtryk. Fane 2: Topveje beriget i hvert signalmodul. Klik her for at downloade denne fil.

Supplerende fil 4: Kodefiler, herunder funktioner og jupyter-notesbøger. Klik her for at downloade denne fil.

Supplerende figur S1: Fordeling af vigtighedsscorerne for funktionerne i hvert signalmodul. Vigtighedsværdier blev skaleret og deres fordeling plottet for hvert modul svarende til en neuron i det latente lag. Klik her for at downloade denne fil.

Supplerende figur S2: Signalmodulerne genereret af DeepOmicsAE bidrager med unik information. (A) Størrelsen af overlapningen mellem de funktioner, der indgår i hvert signalmodul, vises som stængernes højde. Sorte prikker forbundet med linjer angiver, hvilket overlappende sæt der er repræsenteret af hver bjælke i plottet. (B) Venn-diagram, der repræsenterer overlapningen mellem alle funktionerne i de fire signalmoduler, der er afledt med DeepOmicsAE, og de 100 vigtigste funktioner, der er opnået ved hjælp af PCA. Forkortelse: PCA = analyse af hovedkomponenter. Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Datasættets struktur er afgørende for protokollens succes og bør kontrolleres nøje. Dataene skal formateres som angivet i protokolafsnit 1. Den korrekte tildeling af kolonnepositioner er også afgørende for metodens succes. Proteomics og metabolomics data behandles forskelligt, og valg af funktioner udføres separat på grund af dataenes forskellige karakter. Derfor er det vigtigt at tildele kolonnepositioner korrekt i protokoltrin 1.5, 2.3 og 3.3.

Hvis de kliniske data indeholder datatyper, der ikke er numeriske (enten kontinuerlige eller binære værdier), kan brugeren støde på en fejl under kørsel af metoden i protokolafsnit 1. For at løse dette problem kan brugerne ændre deres datasæt, så det kun omfatter numeriske kliniske data. For eksempel kan kategoriske data såsom køn omdannes til binære numeriske data. Et andet problem er en fejl i dataforbehandling, der kan opstå, hvis datasættet ikke bestilles som angivet i protokolafsnit 1-proteomics-data først, derefter metabolomics og derefter klinisk. Målvariablen (f.eks. diagnose, grad, stadium, behandling) bør være indeholdt i den sidste kolonne i datasættet. Omarranger dataene korrekt, før du starter protokollen. Til biologisk fortolkning af signalmodulerne er det også muligt at anvende genontologi eller genberigelsesanalyser. MetaboAnalyst tilbyder dog fordelen ved at integrere de metaboliske data i analysen og giver derfor en omfattende datafortolkning.

Metoden er optimeret til analyse af proteomics data udtrykt som log_{2-transformerede} ratio og metabolomics data udtrykt som fold changes. Dette udgør en potentiel begrænsning af metoden, da den begrænser dens anvendelighed til andre datatyper end dem. Det er dog muligt at indføre ændringer i dataforbehandlingsscriptet (F01_data_preprocessing_function.py; se supplerende fil 4) for at tilpasse det til andre typer molekylære ekspressionsdata, såsom transkriptomiske data. Udførelsen af optimeringsalgoritmen (protokolafsnit 2) er tidskrævende og er muligvis ikke praktisk for mange brugere. En mulig måde at løse dette problem på er at begrænse antallet af iterationer. Hver optimeringsrunde genererer et datapunkt for et plot som det, der er vist i figur 2. Datapunkterne, der svarer til en bedre gruppeadskillelse baseret på PCA (øverste 10^. percentil af PCA-silhuetscoreadskillelsen på de funktioner, der ekstraheres med autokoderen), vælges og bruges til at beregne optimale værdier for kprot, kmet og latent som deres gennemsnitsværdier inden for den valgte delmængde (se "M02 - DeepOmicsAE model optimization.ipynb"). Jo flere datapunkter der bruges til at beregne gennemsnitsværdien, desto mere præcis bliver estimatet af parametrene for optimal modelydelse. Da algoritmen i F02 er designet til at udfylde rækkevidden af mulige værdier for parametrene, der skal optimeres, vil 15-20 iterationer være tilstrækkelige til at opnå et passende skøn for optimale værdier for modelparametrene. En anden mulighed er at springe protokolafsnit 2 over og direkte bruge protokolafsnit 4, hvilket ikke kræver forudgående optimering.

Autoencodere er et værktøj, der i vid udstrækning anvendes til dimensionsreduktion^14,18. DeepOmicsAE giver flere væsentlige forbedringer i forhold til eksisterende tilgange, især med hensyn til fortolkningen af de oplysninger, der ekstraheres fra autoencoderens latente lag^19,20. For det første indeholder arbejdsprocessen et automatiseret optimeringstrin, der sikrer, at der vælges optimale værdier for arbejdsgangsparametrene. For det andet udnytter autokoderen graden af adskillelse mellem raske patienter og patienter med Alzheimers sygdom målt med PCA som et mål for modelydelse (resultatbaseret validering). For det tredje giver det en ny matematisk tilgang til fortolkningen af en dyb læringsmodel ved at beregne betydningen af de originale funktioner med hensyn til hver neuron i det latente lag. For at gøre dette introduceres en lille forstyrrelse for hver funktion, og den resulterende ændring i hver neuron i det latente lag beregnes. Ved at beregne gennemsnittet af de absolutte ændringer på tværs af alle prøver for hver neuron beregner metoden en vigtighedsscore for hver funktion i forhold til en given neuron, hvor en større værdi indebærer en mere indflydelsesrig funktion. Mens andre deep learning-metoder tidligere er blevet anvendt til at analysere molekylære ekspressionsdata i forbindelse med Alzheimers sygdom^21,22, har autokodere haft begrænsede anvendelser. I sammenligning med tidligere metoder kan arbejdsgangen, der præsenteres heri, identificere interaktioner mellem kliniske træk og molekylære signalhændelser. Desuden er DeepOmicsAE, så vidt vi ved, den første arbejdsgang, der fokuserer på integration af proteomiske, metabolomiske og kliniske data for at forstå begyndelsen og udviklingen af Alzheimers sygdom.

Multi-ome af neurodegenerative sygdomme er endnu ikke veletableret. Denne undersøgelse præsenterer en metode designet til at analysere det funktionelle molekylære landskab (dvs. proteomet og metabolomet) og de kliniske egenskaber hos patienter med Alzheimers sygdom. Tidligere undersøgelser har givet fingerpeg om betydningen af metabolisme i neurodegeneration 23,24,25; Der er dog stadig meget, der skal forstås. DeepOmicsAE udgør et kraftfuldt værktøj til at udtrække relevant biologisk information fra højdimensionelle data, da det korrekt identificerer flere biologiske processer, der er etablerede bidragydere til udviklingen af Alzheimers sygdom. Disse omfatter dysregulering af den glutamaterge synaps, aksonal vejledning og langsigtet potensering (figur 4)^26,27. Blandt disse er det glumaterge system et velkendt terapeutisk mål for behandling af sygdommen²⁸. En vigtig anvendelse af metoden er, at den giver et sæt ekstraherede funktioner, der kan bruges til at træne modeller til forudsigelse af sygdomstilstand. Imidlertid er autoencodere iboende ustabile på grund af tilfældig initialisering af vægten af funktionerne indeholdt i neuronerne. Derfor bør det fremtidige arbejde fokusere på at udvikle strategier til forbedring af stabiliteten. Et sådant arbejde ville generere en mere generaliserbar model, der udsender robuste ekstraherede funktioner, som ville være bedre egnet til forudsigelige opgaver. En anden vigtig anvendelse af denne arbejdsgang er, at den kan bruges til at fortolke interaktionerne mellem de proteomiske, metabolomiske og kliniske lag af information (figur 4), hvilket giver indsigt i, hvordan specifikke kliniske træk interagerer med molekylære mønstre. Derfor kan denne arbejdsgang generere ny viden om sygdomsdrivere i subpopulationer med forskellige kliniske træk.

Alt i alt giver DeepOmicsAE en arbejdsgang til analyse af multi-omics-data med særlig vægt på molekylære ekspressionsdata og kliniske funktioner. Arbejdsprocessen kan tilpasses til at analysere transkriptomiske data samt bruges til at studere datasæt fra forskellige sygdomme, herunder kræft, diabetes og hjerte-, lunge- eller nyresygdom.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatteren erklærer, at de ikke har nogen interessekonflikter.

Acknowledgments

Dette arbejde blev støttet af NIH grant CA201402 og Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. De resultater, der offentliggøres her, er helt eller delvist baseret på data fra AD-vidensportalen (https://adknowledgeportal.org). Undersøgelsesdata blev leveret gennem Accelerating Medicine Partnership for AD (U01AG046161 og U01AG061357) baseret på prøver leveret af Rush Alzheimers Disease Center, Rush University Medical Center, Chicago. Dataindsamling blev støttet gennem finansiering af NIA-tilskud P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health og Translational Genomics Research Institute. Metabolomics-datasættet blev genereret ved Metabolon og forbehandlet af ADMC.

Materials

Name	Company	Catalog Number	Comments
Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

DOWNLOAD MATERIALS LIST

References

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
A unified approach to interpreting model predictions. Lundberg, S. M., Allen, P. G., Lee, S. -I. 31st Conference on Neural Information Processing Systems (NIPS 2017), , Long Beach, CA, USA. (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders - Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Biology

DeepOmicsAE: Repræsenterer signalmoduler i Alzheimers sygdom med dyb læringsanalyse af proteomics, metabolomics og kliniske data

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.