Biology

DeepOmicsAE: Representerar signaleringsmoduler i Alzheimers sjukdom med djupinlärningsanalys av proteomik, metabolomik och kliniska data

Published: December 15, 2023 doi: 10.3791/65910

¹Department of Molecular Medicine, Cornell University

Summary

DeepOmicsAE är ett arbetsflöde som är inriktat på tillämpningen av en djupinlärningsmetod (dvs. en autokodare) för att minska dimensionaliteten hos multi-omics-data, vilket ger en grund för prediktiva modeller och signaleringsmoduler som representerar flera lager av omics-data.

Abstract

Stora omics-dataset blir alltmer tillgängliga för forskning om människors hälsa. I det här dokumentet presenteras DeepOmicsAE, ett arbetsflöde som är optimerat för analys av multi-omics-datamängder, inklusive proteomik, metabolomik och kliniska data. Det här arbetsflödet använder en typ av neuralt nätverk som kallas autoencoder för att extrahera en kortfattad uppsättning funktioner från högdimensionella multi-omics-indata. Dessutom tillhandahåller arbetsflödet en metod för att optimera de nyckelparametrar som behövs för att implementera autoencoder. För att demonstrera detta arbetsflöde analyserades kliniska data från en kohort av 142 individer som antingen var friska eller diagnostiserade med Alzheimers sjukdom, tillsammans med proteomet och metabolomet i deras hjärnprover efter döden. Funktionerna som extraheras från det latenta skiktet i autoencoder behåller den biologiska informationen som separerar friska och sjuka patienter. Dessutom representerar de individuella extraherade egenskaperna distinkta molekylära signalmoduler, som var och en interagerar unikt med individernas kliniska egenskaper, vilket ger ett sätt att integrera proteomik, metabolomik och kliniska data.

Introduction

En allt större andel av befolkningen åldras och bördan av åldersrelaterade sjukdomar, såsom neurodegeneration, förväntas öka kraftigt under de kommande decennierna¹. Alzheimers sjukdom är den vanligaste typen av neurodegenerativ sjukdom². Framstegen med att hitta en behandling har varit långsamma på grund av vår dåliga förståelse för de grundläggande molekylära mekanismerna som driver sjukdomens uppkomst och utveckling. Majoriteten av informationen om Alzheimers sjukdom fås i efterhand från undersökning av hjärnvävnad, vilket har gjort det svårt att skilja mellan orsak och konsekvens³. Religious Orders Study/Memory and Aging Project (ROSMAP) är en ambitiös satsning för att få en bredare förståelse för neurodegeneration, vilket innebär studier av tusentals individer som har åtagit sig att genomgå medicinska och psykologiska undersökningar årligen och att bidra med sina hjärnor till forskning efter^{deras bortgång.} Studien fokuserar på övergången från hjärnans normala funktion till Alzheimers sjukdom². Inom projektet analyserades postmortem hjärnprover med en uppsjö av omics-metoder, inklusive genomik, epigenomik, transkriptomik, proteomik⁵ och metabolomik.

Omics-tekniker som erbjuder funktionella avläsningar av cellulära tillstånd (dvs. proteomik och metabolomik)^6,7 är nyckeln till att tolka sjukdom ^8,9,10,11,12, på grund av det direkta förhållandet mellan protein- och metabolitöverflöd och cellulära aktiviteter. Proteiner är de primära exekutorerna av cellulära processer, medan metaboliter är substrat och produkter för biokemiska reaktioner. Multi-omics-dataanalys ger möjlighet att förstå de komplexa sambanden mellan proteomik- och metabolomikdata istället för att uppskatta dem isolerat. Multi-omics är en disciplin som studerar flera lager av högdimensionella biologiska data, inklusive molekylära data (genomsekvens och mutationer, transkriptom, proteom, metabolom), kliniska avbildningsdata och kliniska egenskaper. Multi-omics-dataanalys syftar särskilt till att integrera sådana lager av biologiska data, förstå deras ömsesidiga reglering och interaktionsdynamik och ge en holistisk förståelse för sjukdomens uppkomst och progression. Metoder för att integrera multi-omics-data befinner sig dock fortfarande i ett tidigt utvecklingsskede¹³.

Autoencoders, en typ av oövervakat neuralt nätverk¹⁴, är ett kraftfullt verktyg för multi-omics-dataintegration. Till skillnad från övervakade neurala nätverk mappar autokodare inte prover till specifika målvärden (t.ex. friska eller sjuka), och de används inte heller för att förutsäga resultat. En av deras primära tillämpningar ligger i dimensionsreduktion. Autoencoders erbjuder dock flera fördelar jämfört med enklare metoder för dimensionsreduktion, t.ex. principalkomponentanalys (PCA), t-distribuerad stokastisk granninbäddning (tSNE) eller enhetlig mångfaldsapproximation och projektion (UMAP). Till skillnad från PCA kan autoencoders samla in icke-linjära relationer i data. Till skillnad från tSNE och MUMAP kan de upptäcka hierarkiska och multimodala relationer i data eftersom de förlitar sig på flera lager av beräkningsenheter som var och en innehåller icke-linjära aktiveringsfunktioner. Därför representerar de attraktiva modeller för att fånga komplexiteten i multi-omics-data. Slutligen, medan den primära tillämpningen av PCA, tSNE och UMAP är klustring av data, komprimerar autokodare indata till extraherade funktioner som är väl lämpade för prediktiva uppgifter nedströms ^15,16.

Kortfattat består neurala nätverk av flera lager, som vart och ett innehåller flera beräkningsenheter eller "neuroner". Det första och sista lagret kallas för indata- respektive utdatalager. Autoencoders är neurala nätverk med en timglasstruktur, bestående av ett ingångslager, följt av ett till tre dolda lager och ett litet "latent" lager som vanligtvis innehåller mellan två och sex neuroner. Den här strukturens första halva kallas kodaren och kombineras med en avkodare som speglar kodaren. Avkodaren slutar med ett utgångslager som innehåller samma antal neuroner som indataskiktet. Autokodare tar indata genom flaskhalsen och rekonstruerar dem i utdataskiktet, med målet att generera utdata som speglar den ursprungliga informationen så nära som möjligt. Detta uppnås genom att matematiskt minimera en parameter som kallas "rekonstruktionsförlust". Indata består av en uppsättning egenskaper, som i applikationen som visas här kommer att vara protein- och metabolitöverflöd och kliniska egenskaper (dvs. kön, utbildning och ålder vid döden). Det latenta lagret innehåller en komprimerad och informationsrik representation av indata, som kan användas för efterföljande tillämpningar, t.ex. prediktiva modeller^17,18.

Detta protokoll presenterar ett arbetsflöde, DeepOmicsAE, som omfattar: 1) förbehandling av proteomik, metabolomik och kliniska data (dvs. normalisering, skalning, avlägsnande av extremvärden) för att erhålla data med en konsekvent skala för maskininlärningsanalys; 2) val av lämpliga indatafunktioner för autoencoder, eftersom överbelastning av funktioner kan dölja relevanta sjukdomsmönster; 3) optimering och träning av autoencodern, inklusive bestämning av det optimala antalet proteiner och metaboliter att selektera, och av neuroner för det latenta skiktet; 4) extrahera egenskaper från det latenta skiktet; och 5) utnyttja de extraherade egenskaperna för biologisk tolkning genom att identifiera molekylära signalmoduler och deras relation till kliniska egenskaper.

Detta protokoll syftar till att vara enkelt och tillämpligt av biologer med begränsad beräkningserfarenhet som har en grundläggande förståelse för programmering med Python. Protokollet fokuserar på att analysera multi-omics-data, inklusive proteomik, metabolomik och kliniska egenskaper, men dess användning kan utvidgas till andra typer av molekylära uttrycksdata, inklusive transkriptomik. En viktig ny tillämpning som introduceras av detta protokoll är att kartlägga betydelsen av originalfunktioner på enskilda neuroner i det latenta skiktet. Som ett resultat representerar varje neuron i det latenta skiktet en signalmodul som beskriver interaktionerna mellan specifika molekylära förändringar och patienternas kliniska egenskaper. Biologisk tolkning av de molekylära signalmodulerna erhålls genom att använda MetaboAnalyst, ett allmänt tillgängligt verktyg som integrerar gen-/protein- och metabolitdata för att härleda berikade metaboliska och cellsignalvägar¹⁷.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OBS: De data som används här var ROSMAP-data som laddats ner från AD Knowledge-portalen. Informerat samtycke behövs inte för att ladda ner och återanvända data. Protokollet som presenteras här använder djupinlärning för att analysera multi-omics-data och identifiera signaleringsmoduler som särskiljer specifika patient- eller provgrupper baserat på till exempel deras diagnos. Protokollet levererar också en liten uppsättning extraherade funktioner som sammanfattar de ursprungliga storskaliga data och kan användas för ytterligare analys, till exempel träning av en prediktiv modell med hjälp av maskininlärningsalgoritmer (figur 1). Se Supplemental File 1 och Materialförteckning för information om åtkomst till koden och inställning av beräkningsmiljön innan du utför protokollet. Metoderna bör utföras i den ordning som anges nedan.

Bild 1: Schematisk bild av DeepOmicsAE-arbetsflödet. Schematisk representation av arbetsflödet för analys av multi-omics-data med hjälp av arbetsflödet. I autoencoder-avbildningen representerar rektanglar lager i det neurala nätverket och cirklar representerar neuroner i lager. Klicka här för att se en större version av denna figur.

1. Förbehandling av uppgifter

OBS: Målet med det här avsnittet är att förbearbeta data, inklusive hantering av saknade data; normalisering och skalning av proteomik, metabolomiskt uttryck och kliniska data; och ta bort extremvärden. Protokollet är utformat för en datauppsättning som innehåller proteomikdata uttryckt som log₂(ratio); metabolomikdata uttryckta som veckförändring; och kliniska kännetecken, inklusive kontinuerliga och kategoriska kännetecken. Patienterna eller proverna bör grupperas baserat på diagnos eller andra liknande parametrar. Prover eller patienter ska finnas tvärs över raderna och funktionerna i kolumnerna.

Om du vill starta en ny instans av Jupyter Notebook i webbläsaren öppnar du ett nytt terminalfönster, skriver följande och trycker på Retur.
Jupyter Notebook
På startsidan för Jupyter i webbläsaren klickar du på notebook-filen M01 – expression data pre-processing.ipynb för att öppna den på en ny flik (Kompletterande fil 2, steg 1.1).
I den andra cellen i anteckningsboken skriver du namnet på datauppsättningsfilen i stället för your_dataset_name.csv.
I den sista cellen i anteckningsboken skriver du önskat namn på utdatafilen i stället för M01_output_data.csv.
I den femte cellen i notebook-filen anger du positionen för kolumnerna för varje datatyp enligt följande: proteomikdata (cols_prot), metabolomikdata (cols_met), kontinuerliga kliniska data (t.ex. ålder) (cols_clin_con), binära kliniska data (t.ex. kön) (cols_clin_bin). Ange det första kolumnindexet för varje datatyp i stället för col_start och det sista kolumnindexet i stället för col_end. Till exempel: cols_prot = Slice(0, 8817). Kontrollera att de värden som anges i segmentobjekten motsvarar de första och sista kolumnindexen som motsvarar varje datatyp. Använd kommandot i den fjärde cellen i samma notebook-fil (df.iloc[:, :]) för att fastställa start- och slutpositionen för varje datatyp (Supplemental File 2, Step 1.2).
Välj cell | Kör alla från menyraden i Jupyter för att skapa utdatafilen i den angivna mappen (Tilläggsfil 2, steg 1.3).
OBS: Dessa data kommer att användas som indata för protokollen som beskrivs i avsnitt 2, 3 eller 4.

2. Anpassad optimering av arbetsflödet (valfritt)

OBS: Avsnitt 2 är valfritt eftersom det är datorintensivt. Användare bör hoppa direkt till avsnitt 4 om de bestämmer sig för att inte utföra avsnitt 2. Detta protokoll kommer att vägleda användaren genom att optimera arbetsflödet på ett automatiserat sätt. Mer specifikt identifierar metoden de parametrar som ger bäst prestanda för autoencoder när det gäller att generera extraherade funktioner som separerar samplingsgrupperna väl. De optimerade parametrarna som genereras som utdata inkluderar antalet funktioner som ska användas för funktionsval (k_prot och k_met) och antalet neuroner i autoencoderns latenta lager (latenta). Dessa parametrar kan sedan användas i protokollet som beskrivs i avsnitt 3 för att generera modellen.

På startsidan för Jupyter i webbläsaren klickar du på notebook-filen M02 – DeepOmicsAE model optimization.ipynb för att öppna den på en ny flik (Tilläggsfil 2, steg 2.1).
I den andra cellen i anteckningsboken skriver du namnet på indatafilen i stället för M01_output_data.csv. Indata till denna funktion är utdata från avsnitt 1.
I den femte cellen i notebook-filen anger du positionen för kolumnerna för varje datatyp enligt följande: proteomikdata (cols_X_prot), metabolomikdata (cols_X_met), kliniska data (cols_clin; innehåller alla kliniska data), alla molekylära uttrycksdata, inklusive proteomik- och metabolomikdata (cols_X_expr). Ange det första kolumnindexet för varje datatyp i stället för col_start och det sista kolumnindexet i stället för col_end. Till exempel cols_prot = Segment(0, 8817). Se till att de värden som anges i segmentobjekten motsvarar det första och sista kolumnindexet som motsvarar varje datatyp och använd kommandona i den tredje och fjärde cellen i notebook-filen för att utforska data och fastställa start- och slutpositionerna för varje datatyp. Ange namnet på kolumnen som innehåller målvariabeln i stället för y_column_name som y_label (Kompletterande fil 2, steg 2.2).
Värdena för de index som anges i cols_X_prot, cols_X_met, cols_clin och cols_X_expr skiljer sig från de som används i avsnitt 1 på grund av omformningen av dataramen som sker under förbearbetningen av data.
I den sjätte cellen i anteckningsboken anger du hur många optimeringsrundor som ska utföras genom att tilldela ett värde till n_comb. Tider för bearbetning är cirka 4-5 minuter för 10 omgångar; 20 min för 50 omgångar och 40 min för 100 omgångar (tilläggsfil 2, steg 2.3).
Välj cell | Kör alla från menyraden i Jupyter.
Utdatavariablerna kprot, kmet och latent lagras och kan nås från de andra notebook-filerna, som används för att fortsätta analysarbetsflödet. Diagrammet AE_optimization_plot.pdf kommer att genereras och sparas i den lokala mappen (figur 2).

3. Implementering av arbetsflöde med anpassade optimerade parametrar

OBS: Utför endast detta protokoll efter metodoptimering (avsnitt 2). Om användarna väljer att inte utföra metodoptimering går du direkt till avsnitt 4. Detta protokoll kommer att vägleda användaren genom att generera en modell med hjälp av de anpassade optimerade parametrarna som härletts från avsnitt 2. Autoencodern kommer att 1) generera en uppsättning extraherade funktioner som rekapitulerar originaldata och 2) identifiera de viktiga funktionerna som driver varje neuron i det latenta lagret, vilket effektivt representerar unika signalmoduler. Signalmodulerna kommer att tolkas med hjälp av protokollet i avsnitt 5.

På startsidan för Jupyter i webbläsaren klickar du på implementeringen av notebook-filen M03a – DeepOmicsAE med anpassade optimerade parameters.ipynb för att öppna den på en ny flik (Kompletterande fil 2, steg 3.1).
I den andra cellen i anteckningsboken skriver du namnet på indatafilen i stället för M01_output_data.csv. Indata till denna funktion är utdata från avsnitt 1.
I den femte cellen i notebook-filen anger du positionen för kolumnerna för varje datatyp enligt följande: proteomikdata (cols_prot), metabolomikdata (cols_met), kliniska data (cols_clin; innehåller alla kliniska data). Ange det första kolumnindexet för varje datatyp i stället för col_start och det sista kolumnindexet i stället för col_end. Till exempel: cols_prot = Slice(0, 8817). Se till att de värden som anges i segmentobjekten motsvarar de första och sista kolumnindexen som motsvarar varje datatyp och använd kommandona i den tredje och fjärde cellen i notebook-filen för att utforska data och fastställa start- och slutpositionerna för varje datatyp. Ange namnet på kolumnen som innehåller målvariabeln (t.ex. 0 eller 1, som motsvarar friska eller sjuka) i stället för y_column_name som y_label.
Värdet för de index som anges i cols_X_prot, cols_X_met, cols_clin och cols_X_expr skiljer sig från de som används i avsnitt 1 på grund av omformningen av dataramen som sker under förbearbetningen av data.
Välj cell | Kör alla från menyraden i Jupyter för att generera och spara diagrammen PCA_initial_data.pdf, PCA_extracted_features.pdf och distribution_important_feature_scores.pdf i den lokala mappen (bild 3 och kompletterande bild S1). Dessutom kommer listor över viktiga funktioner för varje identifierad signaleringsmodul att lagras i textfiler i den lokala mappen, med namnet module_n.txt, där n kommer att ersättas av modulnumret.

4. Implementering av arbetsflöde med förinställda parametrar

Se avsnitt 3 för detaljerade instruktioner om hur du kör den här metoden (Tilläggsfil 2, steg 4.1). Den enda skillnaden mellan dessa två protokoll är att parametrarna kprot, kmet och latent (i den sjunde cellen i notebook-filen) härleds matematiskt baserat på resultatet av optimeringen som utförs enligt figur 2.
OBS: Om avsnitt 4 ger en dålig separation av exempelgrupperna, vilket indikerar icke-optimala modellprestanda, rekommenderas att utföra modelloptimering (avsnitt 2) med minst 15 iterationer, och om möjligt upp till 50.

5. Biologisk tolkning med hjälp av MetaboAnalyst

Öppna webbläsaren och navigera till länken nedan för att komma åt funktionen Joint Pathway Analysis på MetaboAnalysts webbplats: https://www.metaboanalyst.ca/MetaboAnalyst/upload/JointUploadView.xhtml.
Öppna mappen där utdatafilerna från metod 3 eller metod 4 sparades och öppna textfilerna module_n.txt för varje signalmodul n som genereras av metod 3 eller av metod 4.
Leta reda på proteinerna i textfilerna och kopiera dem.
Klistra in listan över proteiner i fönstret Gener/proteiner med valfria vikningsändringar på MetaboAnalysts webbsida.
Upprepa ovanstående steg för metaboliter och klistra in dem i fönstret Sammansatta listor med valfria vikningsändringar på samma webbsida.
Välj lämplig organism och ID-typ och klicka sedan på Skicka längst ned på sidan (Supplemental File 2, Step 5.1).
OBS: Se till att identifierarna känns igen av MetaboAnalyst. Erkända identifierare inkluderar Entrez ID, officiella gensymboler och Uniprot ID för proteiner; substansnamn, HMDB-ID och KEGG-ID för metaboliter. Om identifierarna är andra än dessa typer krävs lämplig konvertering före analysen.
På följande sida kontrollerar du ID-mappningen innan du klickar på Fortsätt för att kontrollera att identifierarna identifieras.
På sidan Parameterinställning väljer du Metaboliska vägar (integrerade) eller Alla vägar (integrerade) för att visualisera ingångens bidrag till endast metaboliska vägar eller till alla signalvägar (Kompletterande File 2, steg 5.2). I urvalspanelen Algoritm väljer du Berikningsanalys: Hypergeometriskt test, Topologimått: Gradcentralitet och Integreringsmetod: Kombinera p-värden (vägnivå). Klicka på Skicka längst ner på sidan.
Den sista sidan är resultatvyn, som visar resultatet av berikningsanalysen. Berikade vägar plottas baserat på deras inverkan och betydelse, och listan över vägar finns också i tabellformat.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

För att visa upp protokollet analyserade vi en datauppsättning som består av proteom, metabolom och klinisk information som härrör från postmortem-hjärnor från 142 individer som antingen var friska eller diagnostiserade med Alzheimers sjukdom.

Efter att ha utfört protokollavsnitt 1 för att förbehandla data inkluderade datauppsättningen 6 497 proteiner, 443 metaboliter och tre kliniska egenskaper (kön, ålder vid dödsfall och utbildning). Målfunktionen är klinisk konsensusdiagnos av kognitiv status vid dödstillfället, kodifierad som cogdx, med värden på 1 för ingen kognitiv funktionsnedsättning (CI) och 4 för Alzheimers demens OCH en annan orsak till CI. Åttio patienter diagnostiserades som friska och 62 som Alzheimers sjukdom. Protokollavsnitt 2 implementerades för att bestämma de optimala värdena för parametrarna kprot, kmet och latent. Optimeringsalgoritmen utför funktionsval och extrahering av funktioner med hjälp av olika kombinationer av modellparametrarna. Sedan beräknar och returnerar den PCA-silhuettpoängen för indata och de extraherade funktionerna. Optimeringsmetoden visade att det lägre intervallet av möjliga värden för kprot och kmet resulterar i en högre grad av separation mellan de två grupperna av patienter, medan antalet neuroner i det latenta lagret inte har någon större inverkan på modellens prestanda (Figur 2).

Bild 2: Resultat av parameteroptimering. Antalet iterationer för protokollsektion 2 sattes till 212, och graden av separation mellan grupperna med frisk och Alzheimers sjukdom visualiserades baserat på PCA-silhuettpoängen (silhuettpoäng för PCA på extraherade funktioner). Antalet neuroner i det latenta skiktet visas som bubbelstorlek (latent), medan antalet valda funktioner för proteomikdata (kprot) och metabolomikdata (kmet) plottas på x- respektive y-axlarna. Förkortning: PCA = principalkomponentanalys. Klicka här för att se en större version av denna figur.

Protokollavsnitt 3 tillämpades för att erhålla extraherade funktioner och signalmoduler med hjälp av de optimerade parametrar som härletts enligt beskrivningen ovan. I korthet optimerades modellen för att använda 804 proteiner, 67 metaboliter och fyra nervceller i det latenta lagret. De diagnostiska grupperna separerades av de extraherade egenskaperna (silhuettpoäng = 0,09) bättre än de var av de ursprungliga egenskaperna (silhuettpoäng = 0,019), medan de inte separerades av de ursprungliga egenskaperna, vilket visar att de extraherade egenskaperna fångar den information som är nyckeln till att bestämma sjukdomstillståndet (Figur 3). Prioritetspoängen för de ursprungliga funktionerna med avseende på varje neuron i det latenta skiktet visas i kompletterande figur S1. De viktiga funktioner som definierar varje neuron valdes som den översta 10:^e percentilen av funktionspoängvärdena för varje neuron. Överlappningen mellan neuroner och uppsättningen av utvalda funktioner är begränsad, vilket visar att varje neuron i det latenta lagret fokuserar på distinkta aspekter av de signalhändelser som leder till Alzheimers sjukdom (kompletterande figur S2A). Dessutom är överlappningen mellan de viktiga egenskaper som identifierats av DeepOmicsAE och de som identifierats med PCA också låg, vilket understryker vikten av att fånga icke-linjära samband för att uppnå en omfattande förståelse av multi-omics-data (kompletterande figur S2B).

Figur 3: De extraherade egenskaper som innehåller den information som är väsentlig för att skilja sjukdomsgrupperna åt. (A) PCA för ingångsfunktioner. (B) PCA för extraherade objekt. Förkortning: PCA = principalkomponentanalys. Klicka här för att se en större version av denna figur.

Protokollavsnitt 5 utfördes för att tolka de erhållna signalmodulerna enligt beskrivningen ovan. MetaboAnalyst identifierade en anrikning av distinkta metaboliska och signalvägar för varje signalmodul (figur 4 och kompletterande fil 3). Noterbart är att DeepOmicsAE också karakteriserar de interaktioner som sker mellan kliniska funktioner och signalmoduler. Till exempel är kön och ålder vid dödsfall relaterade till förändrad glycerolipidmetabolism hos patienter med Alzheimers sjukdom (modul 3). Med andra ord är det mer sannolikt att förändringar i denna metaboliska väg bestämmer sjukdom i undergrupper av patienter av ett visst kön och en viss ålder. Omvänt tenderar förändringar av synapser och axonfunktionalitet (modul 2) att inträffa hos patienter med Alzheimers sjukdom oavsett kön, utbildningsnivå och livslängd. Baserat på de resultat som presenteras här kan man dra slutsatsen att varje neuron i autoencoderns latenta skikt representerar en distinkt signalmodul som driver sjukdom.

Figur 4: Neuroner i det latenta lagret som motsvarar distinkta signalmoduler. En schematisk bild av resultaten från analysen med hjälp av MetaboAnalyst av de viktiga egenskaper som härrör från varje neuron i det latenta skiktet. Berikade vägar valdes baserat på att de hade en effektpoäng större än 0,25 och FDR lägre än 0,05; Dessutom beräknades en "Pathway Importance - Joint Score" som produkten av effektpoängen med det negativa log₁₀FDR-värdet för varje väg, och vägar med en "gemensam poäng" större än 0,55 rapporteras. Slutligen visas prioritetspoängen för enskilda kliniska funktioner i varje signalmodul på y-axlarna i stapeldiagrammen. Förkortning: FDR = falsk upptäcktsfrekvens. Klicka här för att se en större version av denna figur.

Kompletterande fil 1: Information för åtkomst till koden och inställning av beräkningsmiljön innan protokollet utförs. Klicka här för att ladda ner den här filen.

Kompletterande fil 2: Skärmbilder som ger en visuell beskrivning av hur du implementerar protokollet. De främsta vägarna berikade i varje signalmodul. Klicka här för att ladda ner den här filen.

Kompletterande fil 3: Resultat från anrikningsanalys från MetaboAnalyst. Flik 1: alla berikade termer. Flik 2: De främsta vägarna som är berikade i varje signalmodul. Klicka här för att ladda ner den här filen.

Tilläggsfil 4: Kodfiler, inklusive funktioner och jupyter notebooks. Klicka här för att ladda ner den här filen.

Kompletterande figur S1: Fördelning av prioritetspoängen för funktionerna i varje signalmodul. Prioritetsvärden skalades och deras fördelning plottades för varje modul som motsvarar en neuron i det latenta lagret. Klicka här för att ladda ner den här filen.

Kompletterande figur S2: Signalmodulerna som genereras av DeepOmicsAE bidrar med unik information. (A) Storleken på överlappningen mellan de funktioner som ingår i varje signalmodul visas som höjden på staplarna. Svarta punkter som är sammankopplade med linjer anger vilken överlappande uppsättning som representeras av varje stapel i diagrammet. (B) Venndiagram som representerar överlappningen mellan alla funktioner som ingår i de fyra signalmodulerna som härletts med DeepOmicsAE och de 100 viktigaste funktionerna som erhållits med PCA. Förkortning: PCA = principalkomponentanalys. Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Datauppsättningens struktur är avgörande för protokollets framgång och bör kontrolleras noggrant. Uppgifterna ska formateras enligt vad som anges i avsnitt 1 i protokollet. Korrekt tilldelning av kolumnpositioner är också avgörande för metodens framgång. Proteomik- och metabolomikdata förbehandlas på olika sätt och funktionsval utförs separat på grund av datans olika karaktär. Därför är det viktigt att tilldela kolumnpositioner korrekt i protokollsteg 1.5, 2.3 och 3.3.

Om kliniska data innehåller datatyper som inte är numeriska (antingen kontinuerliga eller binära värden) kan användaren stöta på ett fel när metoden körs i protokollavsnitt 1. För att åtgärda det här problemet kan användare ändra sin datauppsättning så att den endast innehåller numeriska kliniska data. Till exempel kan kategoriska data som kön omvandlas till binära numeriska data. Ett annat problem är ett fel i förbehandlingen av data som kan uppstå om datauppsättningen inte beställs enligt vad som anges i protokollavsnitt 1 - proteomikdata först, sedan metabolomik, sedan klinisk. Målvariabeln (t.ex. diagnos, grad, stadium, behandling) ska finnas i den sista kolumnen i datauppsättningen. Ordna om data på lämpligt sätt innan du startar protokollet. För den biologiska tolkningen av signalmodulerna är det också möjligt att använda genontologi eller genuppsättningsanrikningsanalyser. MetaboAnalyst erbjuder dock fördelen att integrera metaboliska data i analysen, vilket ger en omfattande datatolkning.

Metoden är optimerad för analys av proteomikdata uttryckta som log_{2-transformerade} förhållanden och metabolomikdata uttryckta som veckförändringar. Detta utgör en potentiell begränsning av metoden, eftersom den begränsar dess tillämplighet till andra datatyper än dessa. Det är dock möjligt att införa modifieringar av dataförbehandlingsskriptet (F01_data_preprocessing_function.py; se Supplemental File 4) för att anpassa det för andra typer av molekylära uttrycksdata, såsom transkriptomikdata. Körningen av optimeringsalgoritmen (protokollavsnitt 2) är tidskrävande och kanske inte är praktiskt för många användare. Ett möjligt sätt att lösa det här problemet är att begränsa antalet iterationer. Varje optimeringsomgång genererar en datapunkt för ett diagram som det som visas i figur 2. De datapunkter som motsvarar en bättre gruppseparation baserat på PCA (översta 10:^e percentilen av PCA-silhuettpoängseparationen på de funktioner som extraheras med autoencoder) väljs ut och används för att beräkna optimala värden för kprot, kmet och latent som deras medelvärden inom den valda delmängden (se "M02 - DeepOmicsAE model optimization.ipynb"). Ju fler datapunkter som används för att beräkna medelvärdet, desto mer exakt blir uppskattningen av parametrarna för optimal modellprestanda. Eftersom algoritmen i F02 är utformad för att fylla i intervallet med möjliga värden för parametrarna som ska optimeras, räcker det med 15–20 iterationer för att få en adekvat uppskattning av optimala värden för modellparametrarna. En annan möjlighet är att hoppa över protokollavsnitt 2 och direkt använda protokollavsnitt 4, som inte kräver föregående optimering.

Autoencoders är ett verktyg som ofta används för att minska dimensionaliteten^14,18. DeepOmicsAE ger flera betydande förbättringar jämfört med befintliga metoder, särskilt när det gäller tolkningsbarheten av den information som extraheras från autoencoderns latenta lager ^19,20. För det första tillhandahåller arbetsflödet ett automatiserat optimeringssteg som säkerställer att optimala värden för arbetsflödesparametrarna väljs. För det andra använder autoencodern graden av separation mellan friska patienter och patienter med Alzheimers sjukdom mätt med PCA som ett mått på modellens prestanda (resultatbaserad validering). För det tredje ger det ett nytt matematiskt tillvägagångssätt för tolkning av en djupinlärningsmodell genom att beräkna betydelsen av de ursprungliga egenskaperna med avseende på varje neuron i det latenta lagret. För att göra det introduceras en liten störning för varje funktion och den resulterande förändringen i varje neuron i det latenta lagret beräknas. Genom att beräkna medelvärdet av de absoluta förändringarna i alla prover för varje neuron beräknar metoden en prioritetspoäng för varje funktion i förhållande till en viss neuron, där ett större värde innebär en mer inflytelserik funktion. Medan andra djupinlärningsmetoder tidigare har använts för att analysera molekylära uttrycksdata i samband med Alzheimers sjukdom ^21,22, har autoencoders haft begränsade tillämpningar. I jämförelse med tidigare metoder kan arbetsflödet som presenteras här identifiera interaktioner mellan kliniska egenskaper och molekylära signalhändelser. Dessutom är DeepOmicsAE, så vitt vi vet, det första arbetsflödet som fokuserar på integration av proteomiska, metabolomiska och kliniska data för att förstå uppkomsten och utvecklingen av Alzheimers sjukdom.

Mångfalden av neurodegenerativa sjukdomar är ännu inte väl etablerad. Denna studie presenterar en metod som är utformad för att analysera det funktionella molekylära landskapet (dvs. proteomet och metabolomet) och de kliniska egenskaperna hos patienter med Alzheimers sjukdom. Tidigare studier har gett ledtrådar om metabolismens betydelse vid neurodegeneration 23,24,25; Men mycket återstår att förstå. DeepOmicsAE utgör ett kraftfullt verktyg för att extrahera relevant biologisk information från högdimensionella data eftersom det korrekt identifierar flera biologiska processer som är etablerade bidragsgivare till utvecklingen av Alzheimers sjukdom. Dessa inkluderar dysreglering av den glutamaterga synapsen, axonal vägledning och långsiktig potentiering (Figur 4)^26,27. Bland dessa är det glumaterga systemet ett välkänt terapeutiskt mål för behandling av sjukdomen²⁸. En viktig tillämpning av metoden är att den tillhandahåller en uppsättning extraherade funktioner som kan användas för att träna modeller för att förutsäga sjukdomstillstånd. Autokodare är dock i sig instabila på grund av slumpmässig initiering av vikterna för de funktioner som finns i neuronerna. Därför bör det framtida arbetet inriktas på att utveckla strategier för att öka stabiliteten. Sådant arbete skulle generera en mer generaliserbar modell som matar ut robusta extraherade funktioner som skulle vara bättre lämpade för prediktiva uppgifter. En annan viktig tillämpning av detta arbetsflöde är att det kan användas för att tolka interaktionerna mellan de proteomiska, metabolomiska och kliniska informationslagren (figur 4), vilket ger insikter i hur specifika kliniska egenskaper interagerar med molekylära mönster. Därför kan detta arbetsflöde generera ny kunskap om drivkrafter för sjukdomar i subpopulationer med distinkta kliniska egenskaper.

Sammanfattningsvis tillhandahåller DeepOmicsAE ett arbetsflöde för att analysera multi-omics-data med särskild tonvikt på molekylära uttrycksdata och kliniska egenskaper. Arbetsflödet kan anpassas för att analysera transkriptomikdata samt användas för att studera dataset från olika sjukdomar, inklusive cancer, diabetes och hjärt-, lung- eller njursjukdomar.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författaren förklarar att de inte har några intressekonflikter.

Acknowledgments

Detta arbete stöddes av NIH-anslag CA201402 och Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. De resultat som publiceras här är helt eller delvis baserade på data som hämtats från AD Knowledge Portal (https://adknowledgeportal.org). Studiedata tillhandahölls genom Accelerating Medicine Partnership for AD (U01AG046161 och U01AG061357) baserat på prover från Rush Alzheimer's Disease Center, Rush University Medical Center, Chicago. Datainsamlingen stöddes genom finansiering av NIA-anslag P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health och Translational Genomics Research Institute. Metabolomikdatasetet genererades vid Metabolon och förbehandlades av ADMC.

Materials

Name	Company	Catalog Number	Comments
Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

DOWNLOAD MATERIALS LIST

References

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
A unified approach to interpreting model predictions. Lundberg, S. M., Allen, P. G., Lee, S. -I. 31st Conference on Neural Information Processing Systems (NIPS 2017), , Long Beach, CA, USA. (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders - Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Biology

DeepOmicsAE: Representerar signaleringsmoduler i Alzheimers sjukdom med djupinlärningsanalys av proteomik, metabolomik och kliniska data

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.