Biology

DeepOmicsAE: weergave van signaalmodules bij de ziekte van Alzheimer met Deep Learning-analyse van proteomics, metabolomics en klinische gegevens

Published: December 15, 2023 doi: 10.3791/65910

¹Department of Molecular Medicine, Cornell University

Summary

DeepOmicsAE is een workflow die is gericht op de toepassing van een deep learning-methode (d.w.z. een auto-encoder) om de dimensionaliteit van multi-omics-gegevens te verminderen en een basis te leggen voor voorspellende modellen en signaleringsmodules die meerdere lagen omics-gegevens vertegenwoordigen.

Abstract

Grote omics-datasets komen steeds meer beschikbaar voor onderzoek naar de menselijke gezondheid. Dit artikel presenteert DeepOmicsAE, een workflow die is geoptimaliseerd voor de analyse van multi-omics-datasets, waaronder proteomics, metabolomics en klinische gegevens. Deze workflow maakt gebruik van een type neuraal netwerk, auto-encoder genaamd, om een beknopte set functies te extraheren uit de hoogdimensionale multi-omics-invoergegevens. Bovendien biedt de workflow een methode om de belangrijkste parameters te optimaliseren die nodig zijn om de auto-encoder te implementeren. Om deze workflow te demonstreren, werden klinische gegevens geanalyseerd van een cohort van 142 personen die gezond waren of gediagnosticeerd waren met de ziekte van Alzheimer, samen met het proteoom en metaboloom van hun postmortale hersenmonsters. De kenmerken die uit de latente laag van de auto-encoder worden gehaald, behouden de biologische informatie die gezonde en zieke patiënten scheidt. Bovendien vertegenwoordigen de individueel geëxtraheerde kenmerken verschillende moleculaire signaalmodules, die elk op unieke wijze interageren met de klinische kenmerken van de individuen, waardoor een middel wordt geboden om de proteomics, metabolomics en klinische gegevens te integreren.

Introduction

Een steeds groter deel van de bevolking vergrijst en de verwachting is dat de last van ouderdomsziekten, zoals neurodegeneratie, de komende decennia sterk zal^toenemen1. De ziekte van Alzheimer is de meest voorkomende vorm van neurodegeneratieve ziekte². De vooruitgang bij het vinden van een behandeling is traag geweest, gezien ons slechte begrip van de fundamentele moleculaire mechanismen die het begin en de voortgang van de ziekte veroorzaken. De meeste informatie over de ziekte van Alzheimer wordt postmortaal verkregen uit het onderzoek van hersenweefsel, waardoor het onderscheiden van oorzaken en gevolgen een moeilijke taak is^geworden3. Het Religious Orders Study/Memory and Aging Project (ROSMAP) is een ambitieuze poging om een breder begrip te krijgen van neurodegeneratie, waarbij duizenden personen worden bestudeerd die zich ertoe hebben verbonden jaarlijks medische en psychologische onderzoeken te ondergaan en hun hersenen bij te dragen aan onderzoek na^{hun overlijden.} De studie richt zich op de overgang van de normale werking van de hersenen naar de ziekte van Alzheimer². Binnen het project werden postmortale hersenmonsters geanalyseerd met een overvloed aan omics-benaderingen, waaronder genomics, epigenomics, transcriptomics, proteomics⁵ en metabolomics.

Omics-technologieën die functionele uitlezingen van cellulaire toestanden bieden (d.w.z. proteomics en metabolomics)^6,7 zijn de sleutel tot het interpreteren van ziekte ^8,9,10,11,12, vanwege de directe relatie tussen de overvloed aan eiwitten en metabolieten en cellulaire activiteiten. Eiwitten zijn de primaire uitvoerders van cellulaire processen, terwijl metabolieten de substraten en producten zijn voor biochemische reacties. Multi-omics data-analyse biedt de mogelijkheid om de complexe relaties tussen proteomics- en metabolomics-data te begrijpen in plaats van ze afzonderlijk te waarderen. Multi-omics is een discipline die meerdere lagen van hoogdimensionale biologische gegevens bestudeert, waaronder moleculaire gegevens (genoomsequentie en mutaties, transcriptoom, proteoom, metaboloom), klinische beeldvormingsgegevens en klinische kenmerken. Multi-omics-data-analyse is met name gericht op het integreren van dergelijke lagen van biologische gegevens, het begrijpen van hun wederzijdse regulatie en interactiedynamiek, en het leveren van een holistisch begrip van het ontstaan en de progressie van ziekten. Methoden voor de integratie van multi-omics-gegevens bevinden zich echter nog in de beginfase van ontwikkeling¹³.

Auto-encoders, een soort neuraal netwerk zonder toezicht¹⁴, zijn een krachtig hulpmiddel voor multi-omics-gegevensintegratie. In tegenstelling tot gesuperviseerde neurale netwerken, wijzen auto-encoders monsters niet toe aan specifieke doelwaarden (zoals gezond of ziek), noch worden ze gebruikt om resultaten te voorspellen. Een van hun belangrijkste toepassingen ligt in dimensionaliteitsreductie. Auto-encoders bieden echter verschillende voordelen ten opzichte van eenvoudigere methoden voor dimensionaliteitsreductie, zoals principal component analysis (PCA), t-distributed stochastic neighbor embedding (tSNE) of uniform manifold approximation and projection (UMAP). In tegenstelling tot PCA kunnen auto-encoders niet-lineaire relaties in de gegevens vastleggen. In tegenstelling tot tSNE en UMAP kunnen ze hiërarchische en multimodale relaties binnen de gegevens detecteren, omdat ze afhankelijk zijn van meerdere lagen van rekeneenheden die elk niet-lineaire activeringsfuncties bevatten. Daarom zijn het aantrekkelijke modellen om de complexiteit van multi-omics-gegevens vast te leggen. Ten slotte, terwijl de primaire toepassing van PCA, tSNE en UMAP die van het clusteren van de gegevens is, comprimeren auto-encoders de invoergegevens tot geëxtraheerde functies die zeer geschikt zijn voor downstream voorspellende taken^15,16.

In het kort bestaan neurale netwerken uit verschillende lagen, die elk meerdere rekeneenheden of 'neuronen' bevatten. De eerste en laatste laag worden respectievelijk de invoer- en uitvoerlaag genoemd. Auto-encoders zijn neurale netwerken met een zandloperstructuur, bestaande uit een invoerlaag, gevolgd door één tot drie verborgen lagen en een kleine "latente" laag die meestal tussen de twee en zes neuronen bevat. De eerste helft van deze structuur staat bekend als de encoder en wordt gecombineerd met een decoder die de encoder spiegelt. De decoder eindigt met een uitvoerlaag met hetzelfde aantal neuronen als de invoerlaag. Auto-encoders nemen de input door het knelpunt en reconstrueren deze in de uitvoerlaag, met als doel een output te genereren die de oorspronkelijke informatie zo goed mogelijk weerspiegelt. Dit wordt bereikt door een parameter die 'reconstructieverlies' wordt genoemd, wiskundig te minimaliseren. De input bestaat uit een reeks kenmerken, die in de hierin getoonde aanvraag eiwit- en metabolietabundanties en klinische kenmerken (d.w.z. geslacht, opleiding en leeftijd bij overlijden) zullen zijn. De latente laag bevat een gecomprimeerde en informatierijke weergave van de input, die kan worden gebruikt voor volgende toepassingen zoals voorspellende modellen^17,18.

Dit protocol presenteert een workflow, DeepOmicsAE, die het volgende omvat: 1) voorverwerking van proteomics, metabolomics en klinische gegevens (d.w.z. normalisatie, schaalvergroting, verwijdering van uitschieters) om gegevens te verkrijgen met een consistente schaal voor machine learning-analyse; 2) het selecteren van de juiste invoerfuncties voor auto-encoders, aangezien overbelasting van functies relevante ziektepatronen kan verdoezelen; 3) het optimaliseren en trainen van de auto-encoder, inclusief het bepalen van het optimale aantal te selecteren eiwitten en metabolieten, en van neuronen voor de latente laag; 4) het extraheren van kenmerken uit de latente laag; en 5) het gebruik van de geëxtraheerde kenmerken voor biologische interpretatie door moleculaire signaleringsmodules en hun relatie met klinische kenmerken te identificeren.

Dit protocol is bedoeld om eenvoudig en toepasbaar te zijn door biologen met beperkte rekenervaring die een basiskennis hebben van programmeren met Python. Het protocol richt zich op het analyseren van multi-omics-gegevens, waaronder proteomics, metabolomics en klinische kenmerken, maar het gebruik ervan kan worden uitgebreid naar andere soorten moleculaire expressiegegevens, waaronder transcriptomics. Een belangrijke nieuwe toepassing die door dit protocol wordt geïntroduceerd, is het in kaart brengen van de belangrijkheidsscores van originele kenmerken op individuele neuronen in de latente laag. Als gevolg hiervan vertegenwoordigt elk neuron in de latente laag een signaalmodule, die de interacties tussen specifieke moleculaire veranderingen en de klinische kenmerken van de patiënt beschrijft. Biologische interpretatie van de moleculaire signaleringsmodules wordt verkregen door gebruik te maken van MetaboAnalyst, een openbaar beschikbaar hulpmiddel dat gen-/eiwit- en metabolietgegevens integreert om verrijkte metabole en celsignaleringsroutes af te leiden¹⁷.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OPMERKING: De gegevens die hier worden gebruikt, zijn ROSMAP-gegevens die zijn gedownload van de AD Knowledge-portal. Geïnformeerde toestemming is niet nodig om de gegevens te downloaden en te hergebruiken. Het hierin gepresenteerde protocol maakt gebruik van deep learning om multi-omics-gegevens te analyseren en signaleringsmodules te identificeren die specifieke patiënt- of steekproefgroepen onderscheiden op basis van bijvoorbeeld hun diagnose. Het protocol levert ook een kleine set geëxtraheerde functies die de oorspronkelijke grootschalige gegevens samenvatten en kunnen worden gebruikt voor verdere analyse, zoals het trainen van een voorspellend model met behulp van machine learning-algoritmen (Afbeelding 1). Raadpleeg Aanvullend bestand 1 en de Materiaaltabel voor informatie over toegang tot de code en het instellen van de rekenomgeving voordat het protocol wordt uitgevoerd. De methoden moeten worden uitgevoerd in de onderstaande volgorde.

Figuur 1: Schema van de DeepOmicsAE workflow. Schematische weergave van de workflow voor het analyseren van multi-omics-gegevens met behulp van de workflow. In de weergave van de auto-encoder vertegenwoordigen rechthoeken lagen van het neurale netwerk en cirkels neuronen binnen lagen. Klik hier om een grotere versie van deze figuur te bekijken.

1. Voorbewerking van de gegevens

OPMERKING: Het doel van deze sectie is om de gegevens voor te verwerken, inclusief het verwerken van ontbrekende gegevens; normaliseren en schalen van proteomische, metabolomische expressie en klinische gegevens; en het verwijderen van uitschieters. Het protocol is ontworpen voor een dataset die proteomics-gegevens bevat, uitgedrukt als log₂(ratio); metabolomics-gegevens uitgedrukt als vouwverandering; en klinische kenmerken, waaronder continue en categorische kenmerken. De patiënten of monsters moeten worden gegroepeerd op basis van diagnose of andere vergelijkbare parameters. Monsters of patiënten moeten zich in de rijen bevinden en kenmerken in de kolommen.

Als u een nieuw exemplaar van Jupyter Notebook in de browser wilt starten, opent u een nieuw terminalvenster, typt u het volgende en drukt u op Enter.
Jupyter Notebook
Klik op de startpagina van Jupyter in de browser op het notitieblok M01 - expressiegegevens pre-processing.ipynb om het in een nieuw tabblad te openen (aanvullend bestand 2, stap 1.1).
Typ in de tweede cel van het notitieblok de naam van het gegevenssetbestand in plaats van your_dataset_name.csv.
Typ in de laatste cel van het notitieblok de gewenste naam van het uitvoergegevensbestand in plaats van M01_output_data.csv.
Geef in de vijfde cel van het notitieblok de positie van de kolommen voor elk gegevenstype als volgt op: proteomics-gegevens (cols_prot), metabolomics-gegevens (cols_met), continue klinische gegevens (bijv. leeftijd) (cols_clin_con), binaire klinische gegevens (bijv. geslacht) (cols_clin_bin). Voer de index van de eerste kolom in voor elk gegevenstype in plaats van col_start en de index van de laatste kolom in plaats van col_end; Bijvoorbeeld: cols_prot = plak(0, 8817). Zorg ervoor dat de waarden die zijn opgegeven in de segmentobjecten overeenkomen met de indexen van de eerste en laatste kolom die overeenkomen met elk gegevenstype. Gebruik de opdracht in de vierde cel van hetzelfde notitieblok (df.iloc[:, :]) om de begin- en eindpositie voor elk gegevenstype te bepalen (aanvullend bestand 2, stap 1.2).
Cel selecteren | Voer alles uit vanuit de menubalk in Jupyter om het uitvoergegevensbestand in de opgegeven map te maken (aanvullend bestand 2, stap 1.3).
OPMERKING: Deze gegevens worden gebruikt als input voor de protocollen die worden beschreven in secties 2, 3 of 4.

2. Aangepaste optimalisatie van de workflow (optioneel)

OPMERKING: Sectie 2 is optioneel omdat het computerintensief is. Gebruikers moeten direct naar sectie 4 gaan als ze besluiten sectie 2 niet uit te voeren. Dit protocol begeleidt de gebruiker bij het op een geautomatiseerde manier optimaliseren van de workflow. In het bijzonder identificeert de methode de parameters die de beste prestaties van de auto-encoder leveren in termen van het genereren van geëxtraheerde functies die de steekproefgroepen goed scheiden. De geoptimaliseerde parameters die als uitvoer worden gegenereerd, omvatten het aantal functies dat moet worden gebruikt voor functieselectie (k_prot en k_met) en het aantal neuronen in de latente laag van de auto-encoder (latent). Deze parameters kunnen vervolgens worden gebruikt in het protocol dat in sectie 3 wordt beschreven om het model te genereren.

Klik op de startpagina van Jupyter in de browser op het notitieblok M02 - DeepOmicsAE model optimization.ipynb om het in een nieuw tabblad te openen (aanvullend bestand 2, stap 2.1).
Typ in de tweede cel van het notitieblok de naam van het invoerbestand in plaats van M01_output_data.csv. De invoer van deze functie zijn de uitvoergegevens uit sectie 1.
Geef in de vijfde cel van het notitieblok de positie van de kolommen voor elk gegevenstype als volgt op: proteomics-gegevens (cols_X_prot), metabolomics-gegevens (cols_X_met), klinische gegevens (cols_clin; bevat alle klinische gegevens), alle moleculaire expressiegegevens, inclusief proteomics- en metabolomics-gegevens (cols_X_expr). Voer de index van de eerste kolom in voor elk gegevenstype in plaats van col_start en de index van de laatste kolommen in plaats van col_end; Bijvoorbeeld: cols_prot = slice(0, 8817). Zorg ervoor dat de waarden die zijn opgegeven in de segmentobjecten overeenkomen met de index van de eerste en laatste kolom die overeenkomen met elk gegevenstype en gebruik de opdrachten in de derde en vierde cel van het notitieblok om de gegevens te verkennen en de begin- en eindposities voor elk gegevenstype te bepalen. Geef de naam op van de kolom met de doelvariabele in plaats van y_column_name als y_label (Aanvullend bestand 2, stap 2.2).
OPMERKING: De waarden van de indexen die zijn opgegeven in cols_X_prot, cols_X_met, cols_clin en cols_X_expr zullen verschillen van de waarden die worden gebruikt in sectie 1 vanwege de herschikking van het gegevensframe die optreedt tijdens de voorverwerking van gegevens.
Geef in de zesde cel van het notitieblok op hoeveel optimalisatierondes u wilt uitvoeren door een waarde toe te wijzen aan n_comb. De verwerkingstijden zijn ongeveer 4-5 minuten voor 10 rondes; 20 min voor 50 ronden en 40 min voor 100 ronden (aanvullend bestand 2, stap 2.3).
Cel selecteren | Voer alles uit vanuit de menubalk in Jupyter.
OPMERKING: De uitvoervariabelen kprot, kmet en latent worden opgeslagen en zijn toegankelijk vanuit de andere notebooks, die worden gebruikt om de analytische workflow voort te zetten. De plot AE_optimization_plot.pdf wordt gegenereerd en opgeslagen in de lokale map (Figuur 2).

3. Workflow-implementatie met op maat geoptimaliseerde parameters

OPMERKING: Voer dit protocol alleen uit na methode-optimalisatie (sectie 2). Als gebruikers ervoor kiezen om geen methodeoptimalisatie uit te voeren, gaat u direct naar sectie 4. Dit protocol begeleidt de gebruiker bij het genereren van een model met behulp van de op maat geoptimaliseerde parameters die zijn afgeleid van sectie 2. De auto-encoder genereert 1) een reeks geëxtraheerde functies die de originele gegevens samenvatten en 2) identificeert de belangrijke kenmerken die elk neuron in de latente laag aansturen, waardoor unieke signaalmodules effectief worden weergegeven. De signaleringsmodules worden geïnterpreteerd met behulp van het protocol in sectie 5.

Klik op de startpagina van Jupyter in de browser op de notebook M03a - DeepOmicsAE-implementatie met op maat geoptimaliseerde parameters.ipynb om deze in een nieuw tabblad te openen (aanvullend bestand 2, stap 3.1).
Typ in de tweede cel van het notitieblok de naam van het invoerbestand in plaats van M01_output_data.csv. De invoer van deze functie zijn de uitvoergegevens uit sectie 1.
Geef in de vijfde cel van het notitieblok de positie van de kolommen voor elk gegevenstype als volgt op: proteomics-gegevens (cols_prot), metabolomics-gegevens (cols_met), klinische gegevens (cols_clin; bevat alle klinische gegevens). Voer de index van de eerste kolom in voor elk gegevenstype in plaats van col_start en de index van de laatste kolom in plaats van col_end; Bijvoorbeeld: cols_prot = Slice(0, 8817). Zorg ervoor dat de waarden die zijn opgegeven in de segmentobjecten overeenkomen met de indexen van de eerste en laatste kolom die overeenkomen met elk gegevenstype en gebruik de opdrachten in de derde en vierde cel van het notitieblok om de gegevens te verkennen en de begin- en eindposities voor elk gegevenstype te bepalen. Geef de naam op van de kolom met de doelvariabele (bijv. 0 of 1, overeenkomend met gezond of ziek) in plaats van y_column_name als y_label.
OPMERKING: De waarde van de indexen die zijn opgegeven in cols_X_prot, cols_X_met, cols_clin en cols_X_expr zal verschillen van de indexen die worden gebruikt in sectie 1 vanwege de herschikking van het gegevensframe die optreedt tijdens de voorverwerking van gegevens.
Cel selecteren | Voer alles uit vanuit de menubalk in Jupyter om de plots PCA_initial_data.pdf, PCA_extracted_features.pdf en distribution_important_feature_scores.pdf te genereren en op te slaan in de lokale map (Figuur 3 en aanvullende afbeelding S1). Bovendien worden lijsten met belangrijke functies voor elke geïdentificeerde signaleringsmodule opgeslagen in tekstbestanden in de lokale map, genaamd module_n.txt, waarbij n wordt vervangen door het modulenummer.

4. Workflow-implementatie met vooraf ingestelde parameters

Raadpleeg sectie 3 voor gedetailleerde instructies over het uitvoeren van deze methode (aanvullend bestand 2, stap 4.1). Het enige verschil tussen deze twee protocollen is dat de parameters kprot, kmet en latent (in de zevende cel van het notitieboekje) wiskundig worden afgeleid op basis van de resultaten van de uitgevoerde optimalisatie zoals weergegeven in figuur 2.
OPMERKING: Als sectie 4 een slechte scheiding van de steekproefgroepen oplevert, wat wijst op suboptimale modelprestaties, wordt aanbevolen om modeloptimalisatie (sectie 2) uit te voeren met ten minste 15 iteraties en, indien mogelijk, maximaal 50.

5. Biologische interpretatie met behulp van MetaboAnalyst

Open de browser en navigeer naar de onderstaande link om toegang te krijgen tot de Joint Pathway Analysis-functionaliteit op de website van MetaboAnalyst : https://www.metaboanalyst.ca/MetaboAnalyst/upload/JointUploadView.xhtml.
Open de map waar de uitvoerbestanden van methode 3 of methode 4 zijn opgeslagen en open de tekstbestanden module_n.txt voor elke signaleringsmodule n die zijn gegenereerd door methode 3 of door methode 4.
Zoek de eiwitten in de tekstbestanden en kopieer ze.
Plak de lijst met eiwitten in het venster Genen/eiwitten met optionele vouwveranderingen op de MetaboAnalyst-webpagina.
Herhaal de bovenstaande stap voor metabolieten en plak ze in het venster Samengestelde lijst met optionele vouwwijzigingen op dezelfde webpagina.
Selecteer het juiste organisme en ID-type en klik vervolgens op Verzenden onder aan de pagina (Aanvullend bestand 2, stap 5.1).
OPMERKING: Zorg ervoor dat de identificatoren door MetaboAnalyst worden herkend. Erkende identificatiemiddelen zijn onder meer Entrez-ID, officiële gensymbolen en Uniprot-ID voor eiwitten; samengestelde naam, HMDB ID en KEGG-ID voor metabolieten. Als de identificatoren van andere aard zijn dan deze typen, is een passende conversie nodig voorafgaand aan de analyse.
Controleer op de volgende pagina de ID-toewijzing voordat u op Doorgaan klikt om te controleren of de ID's worden herkend.
Selecteer op de pagina Parameterinstelling de optie Metabole routes (geïntegreerd) of Alle routes (geïntegreerd) om respectievelijk de bijdrage van de invoer aan alleen metabole routes of aan alle signaalroutes te visualiseren (aanvullend bestand 2, stap 5.2). Kies in het deelvenster Algoritmeselectie de optie Verrijkingsanalyse: hypergeometrische test, Topologiemeting: Mate centraliteit en Integratiemethode: p-waarden combineren (padniveau). Klik op Verzenden onderaan de pagina.
De laatste pagina is de resultatenweergave, die de resultaten van de verrijkingsanalyse presenteert. Verrijkte trajecten worden uitgezet op basis van hun impact en betekenis, en de lijst met trajecten wordt ook in tabelvorm weergegeven.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Om het protocol te demonstreren, analyseerden we een dataset bestaande uit het proteoom, metaboloom en klinische informatie afkomstig van postmortale hersenen van 142 personen die gezond waren of gediagnosticeerd waren met de ziekte van Alzheimer.

Na het uitvoeren van het protocolsectie 1 om de gegevens voor te verwerken, omvatte de dataset 6.497 eiwitten, 443 metabolieten en drie klinische kenmerken (geslacht, leeftijd bij overlijden en opleiding). Het doelkenmerk is klinische consensusdiagnose van cognitieve status op het moment van overlijden, gecodificeerd als cogdx, met waarden van 1 voor geen cognitieve stoornis (CI) en 4 voor de ziekte van Alzheimer dementie EN een andere oorzaak van CI. Tachtig patiënten werden gediagnosticeerd als gezond en 62 als met de ziekte van Alzheimer. Protocolsectie 2 werd geïmplementeerd om de optimale waarden voor de parameters kprot, kmet en latent te bepalen. Het optimalisatie-algoritme voert functieselectie en functie-extractie uit met behulp van verschillende combinaties van de modelparameters. Vervolgens berekent en retourneert het de PCA-silhouetscore voor de invoergegevens en de geëxtraheerde functies. Uit de optimalisatiemethode bleek dat het lagere bereik van de mogelijke waarden voor kprot en kmet resulteert in een hogere mate van scheiding tussen de twee groepen patiënten, terwijl het aantal neuronen in de latente laag geen grote invloed heeft op de prestaties van het model (Figuur 2).

Figuur 2: Resultaten van parameteroptimalisatie. Het aantal iteraties voor protocolsectie 2 werd ingesteld op 212 en de mate van scheiding tussen de gezonde groep en de groep met de ziekte van Alzheimer werd gevisualiseerd op basis van de PCA-silhouetscore (silhouetscore voor PCA op geëxtraheerde kenmerken). Het aantal neuronen in de latente laag wordt weergegeven als belgrootte (latent), terwijl het aantal geselecteerde kenmerken voor proteomics-gegevens (kprot) en metabolomics-gegevens (kmet) respectievelijk op de x- en y-as wordt uitgezet. Afkorting: PCA = principal component analysis. Klik hier om een grotere versie van deze figuur te bekijken.

Protocolsectie 3 werd toegepast om geëxtraheerde functies en signaleringsmodules te verkrijgen met behulp van de geoptimaliseerde parameters die zijn afgeleid zoals hierboven beschreven. In het kort was het model geoptimaliseerd om 804 eiwitten, 67 metabolieten en vier neuronen in de latente laag te gebruiken. De diagnostische groepen werden beter gescheiden door de geëxtraheerde kenmerken (silhouetscore = 0,09) dan door de oorspronkelijke kenmerken (silhouetscore = 0,019), terwijl ze dat niet waren door de oorspronkelijke kenmerken, wat aantoont dat de geëxtraheerde kenmerken de informatie vastleggen die essentieel is voor het bepalen van de ziektetoestand (Figuur 3). De belangrijkheidsscores van de oorspronkelijke kenmerken met betrekking tot elk neuron in de latente laag worden weergegeven in aanvullende figuur S1. De belangrijke kenmerken die elk neuron definiëren, werden geselecteerd als het bovenste 10e^percentiel van de functiescorewaarden voor elk neuron. De overlap tussen neuronen en de set geselecteerde kenmerken is beperkt, wat aantoont dat elk neuron in de latente laag zich richt op verschillende aspecten van de signaalgebeurtenissen die leiden tot de ziekte van Alzheimer (aanvullende figuur S2A). Bovendien is de overlap tussen de belangrijke kenmerken die door DeepOmicsAE zijn geïdentificeerd en die met PCA ook laag, wat het belang onderstreept van het vastleggen van niet-lineaire relaties om een alomvattend begrip van multi-omics-gegevens te verkrijgen (aanvullende figuur S2B).

Figuur 3: De geëxtraheerde kenmerken die de essentiële informatie bevatten voor het scheiden van de ziektegroepen. (A) PCA over inputfuncties. (B) PCA op geëxtraheerde objecten. Afkorting: PCA = principal component analysis. Klik hier om een grotere versie van deze figuur te bekijken.

Protocolsectie 5 werd uitgevoerd om de verkregen signaleringsmodules te interpreteren zoals hierboven beschreven. MetaboAnalyst identificeerde een verrijking van verschillende metabole en signaleringsroutes voor elke signaleringsmodule (Figuur 4 en Supplemental File 3). Met name DeepOmicsAE karakteriseert ook de interacties die optreden tussen klinische kenmerken en signaleringsmodules. Geslacht en leeftijd bij overlijden zijn bijvoorbeeld gerelateerd aan een veranderd glycerolipidenmetabolisme bij patiënten met de ziekte van Alzheimer (module 3). Met andere woorden, veranderingen in deze metabole route hebben meer kans om de ziekte te bepalen in subgroepen van patiënten van een bepaald geslacht en een bepaalde leeftijd. Omgekeerd komen veranderingen van synapsen en axonfunctionaliteit (module 2) meestal voor bij patiënten met de ziekte van Alzheimer, ongeacht hun geslacht, opleidingsniveau en levensduur. Op basis van de hierin gepresenteerde resultaten kan worden geconcludeerd dat elk neuron in de latente laag van de auto-encoder een afzonderlijke signaalmodule vertegenwoordigt die de ziekte veroorzaakt.

Figuur 4: Neuronen in de latente laag die overeenkomen met verschillende signaalmodules. Een schema van de resultaten verkregen uit de analyse met behulp van MetaboAnalyst van de belangrijke kenmerken die zijn afgeleid van elk neuron in de latente laag. Verrijkte trajecten werden geselecteerd op basis van een impactscore van meer dan 0,25 en FDR van minder dan 0,05; bovendien werd een "pathway importance - joint score" berekend als het product van de impactscore met de negatieve log₁₀FDR-waarde voor elk pathway, en pathways met een "joint score" groter dan 0,55 worden gerapporteerd. Ten slotte wordt de belangrijkheidsscore van individuele klinische kenmerken in elke signaleringsmodule weergegeven op de y-assen van de staafplots. Afkorting: FDR = false discovery rate. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullend dossier 1: Informatie voor toegang tot de code en het instellen van de rekenomgeving voorafgaand aan het uitvoeren van het protocol. Klik hier om dit bestand te downloaden.

Aanvullend bestand 2: Screenshots met een visuele beschrijving van de implementatie van het protocol. Toppaden verrijkt in elke signaleringsmodule. Klik hier om dit bestand te downloaden.

Aanvullend bestand 3: Resultaten van de verrijkingsanalyse van MetaboAnalyst. Tabblad 1: alle verrijkte termen. Tabblad 2: Toppaden verrijkt in elke signaleringsmodule. Klik hier om dit bestand te downloaden.

Aanvullend bestand 4: Codebestanden inclusief functies en jupyter-notebooks. Klik hier om dit bestand te downloaden.

Aanvullende figuur S1: Verdeling van de belangrijkheidsscores voor de kenmerken in elke signaleringsmodule. Belangrijkheidswaarden werden geschaald en hun verdeling werd uitgezet voor elke module die overeenkomt met een neuron in de latente laag. Klik hier om dit bestand te downloaden.

Aanvullende afbeelding S2: De signaleringsmodules die door DeepOmicsAE worden gegenereerd, dragen unieke informatie bij. (A) De grootte van de overlapping tussen de elementen die in elke seinmodule zijn opgenomen, wordt weergegeven als de hoogte van de balken. Zwarte stippen verbonden door lijnen geven aan welke overlappende verzameling wordt vertegenwoordigd door elke balk in de grafiek. (B) Venndiagram dat de overlap weergeeft tussen alle kenmerken in de vier signaleringsmodules die zijn afgeleid van DeepOmicsAE, en de top 100 van belangrijke kenmerken die zijn verkregen met behulp van PCA. Afkorting: PCA = principal component analysis. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

De structuur van de dataset is van cruciaal belang voor het succes van het protocol en moet zorgvuldig worden gecontroleerd. De gegevens moeten worden opgemaakt zoals aangegeven in punt 1 van het protocol. De juiste toewijzing van kolomposities is ook van cruciaal belang voor het succes van de methode. Proteomics- en metabolomics-gegevens worden anders voorverwerkt en de selectie van functies wordt afzonderlijk uitgevoerd vanwege de verschillende aard van de gegevens. Daarom is het van cruciaal belang om kolomposities correct toe te wijzen in protocolstappen 1.5, 2.3 en 3.3.

Als de klinische gegevens gegevenstypen bevatten die niet numeriek zijn (continue of binaire waarden), kan de gebruiker een fout tegenkomen bij het uitvoeren van de methode in protocolsectie 1. Om dit probleem op te lossen, kunnen gebruikers hun gegevensset wijzigen om alleen numerieke klinische gegevens op te nemen. Categorische gegevens zoals geslacht kunnen bijvoorbeeld worden omgezet in binaire numerieke gegevens. Een ander probleem is een fout in de voorverwerking van gegevens die kan optreden als de dataset niet is geordend zoals gespecificeerd in protocolsectie 1 - proteomics-gegevens eerst, dan metabolomics en vervolgens klinisch. De doelvariabele (bv. diagnose, graad, stadium, behandeling) moet in de laatste kolom van de dataset worden opgenomen. Herschik de gegevens op de juiste manier voordat u het protocol start. Voor de biologische interpretatie van de signaleringsmodules is het ook mogelijk om genontologie of gensetverrijkingsanalyses te gebruiken. MetaboAnalyst biedt echter het voordeel dat de metabole gegevens in de analyse worden geïntegreerd, waardoor een uitgebreide gegevensinterpretatie mogelijk is.

De methode is geoptimaliseerd voor de analyse van proteomics-gegevens uitgedrukt als log 2-getransformeerde ratio's en metabolomics-gegevens uitgedrukt als vouwveranderingen. Dit vormt een mogelijke beperking van de methode, aangezien de toepasbaarheid ervan wordt beperkt tot andere gegevenstypen dan deze. Het is echter mogelijk om wijzigingen aan te brengen in het script voor de voorbewerking van gegevens (F01_data_preprocessing_function.py; zie aanvullend bestand 4) om het aan te passen voor andere soorten moleculaire expressiegegevens, zoals transcriptomics-gegevens. De uitvoering van het optimalisatie-algoritme (protocolsectie 2) is tijdrovend en voor veel gebruikers misschien niet praktisch. Een mogelijke manier om dit probleem op te lossen, is door het aantal iteraties te beperken. Elke optimalisatieronde genereert één datapunt voor een plot zoals weergegeven in figuur 2. De datapunten die overeenkomen met een betere groepsscheiding op basis van PCA (top 10^e percentiel van de PCA-silhouetscorescheiding op de kenmerken die met de auto-encoder zijn geëxtraheerd) worden geselecteerd en gebruikt om optimale waarden voor kprot, kmet en latent te berekenen als hun gemiddelde waarden binnen de geselecteerde subset (zie "M02 - DeepOmicsAE model optimization.ipynb"). Hoe meer datapunten worden gebruikt om de gemiddelde waarde te berekenen, hoe nauwkeuriger de schatting van de parameters voor optimale modelprestaties zal zijn. Aangezien het algoritme in F02 is ontworpen om het bereik van mogelijke waarden voor de te optimaliseren parameters te vullen, zijn 15-20 iteraties voldoende om een adequate schatting te krijgen voor optimale waarden voor de modelparameters. Een andere mogelijkheid is om protocolsectie 2 over te slaan en direct protocolsectie 4 te gebruiken, waarvoor geen voorafgaande optimalisatie nodig is.

Auto-encoders zijn een hulpmiddel dat veel wordt gebruikt voor dimensionaliteitsreductie^14,18. DeepOmicsAE biedt een aantal belangrijke verbeteringen ten opzichte van bestaande benaderingen, met name wat betreft de interpreteerbaarheid van de informatie die wordt geëxtraheerd uit de latente laag van de auto-encoder^19,20. Ten eerste biedt de workflow een geautomatiseerde optimalisatiestap die ervoor zorgt dat optimale waarden voor de workflowparameters worden geselecteerd. Ten tweede gebruikt de auto-encoder de mate van scheiding tussen gezonde patiënten en patiënten met de ziekte van Alzheimer, gemeten met PCA, als maatstaf voor modelprestaties (op uitkomsten gebaseerde validatie). Ten derde biedt het een nieuwe wiskundige benadering voor de interpretatie van een deep learning-model door het belang van de oorspronkelijke kenmerken met betrekking tot elk neuron in de latente laag te berekenen. Om dit te doen, wordt voor elk kenmerk een kleine verstoring geïntroduceerd en wordt de resulterende verandering in elk neuron van de latente laag berekend. Door het gemiddelde te nemen van de absolute veranderingen in alle steekproeven voor elk neuron, berekent de methode een belangrijkheidsscore voor elk kenmerk ten opzichte van een bepaald neuron, waarbij een grotere waarde een meer invloedrijk kenmerk impliceert. Hoewel andere deep learning-methoden eerder zijn gebruikt om moleculaire expressiegegevens te analyseren in de context van de ziekte van Alzheimer^21,22, hebben auto-encoders beperkte toepassingen gehad. In vergelijking met eerdere methoden kan de hierin gepresenteerde workflow interacties tussen klinische kenmerken en moleculaire signaleringsgebeurtenissen identificeren. Bovendien is DeepOmicsAE, voor zover wij weten, de eerste workflow die zich richt op de integratie van proteomische, metabolomische en klinische gegevens om het begin en de progressie van de ziekte van Alzheimer te begrijpen.

De multi-ome van neurodegeneratieve ziekten is nog niet goed vastgesteld. Deze studie presenteert een methode die is ontworpen om het functionele moleculaire landschap (d.w.z. het proteoom en het metaboloom) en de klinische kenmerken van patiënten met de ziekte van Alzheimer te analyseren. Eerdere studies hebben aanwijzingen gegeven over het belang van metabolisme bij neurodegeneratie 23,24,25; Er is echter nog veel te begrijpen. DeepOmicsAE vormt een krachtig hulpmiddel om relevante biologische informatie uit hoogdimensionale gegevens te extraheren, aangezien het meerdere biologische processen correct identificeert die een bijdrage leveren aan de progressie van de ziekte van Alzheimer. Die omvatten ontregeling van de glutamaterge synaps, axonale geleiding en potentiëring op lange termijn (Figuur 4)^26,27. Daarvan is het glumaterge systeem een bekend therapeutisch doelwit voor de behandeling van de ziekte²⁸. Een belangrijke toepassing van de methode is dat het een reeks geëxtraheerde kenmerken biedt die kunnen worden gebruikt om modellen te trainen voor het voorspellen van de ziektetoestand. Auto-encoders zijn echter intrinsiek onstabiel vanwege de willekeurige initialisatie van de gewichten van de functies in de neuronen. Daarom moeten de toekomstige werkzaamheden gericht zijn op het ontwikkelen van strategieën om de stabiliteit te vergroten. Dergelijk werk zou een meer generaliseerbaar model genereren dat robuuste geëxtraheerde functies uitvoert die beter geschikt zouden zijn voor voorspellende taken. Een tweede belangrijke toepassing van deze workflow is dat het kan worden gebruikt om de interacties tussen de proteomische, metabolomische en klinische informatielagen te interpreteren (Figuur 4), waardoor inzicht wordt verkregen in hoe specifieke klinische kenmerken interageren met moleculaire patronen. Daarom kan deze workflow nieuwe kennis genereren over ziekteoorzaken in subpopulaties met verschillende klinische kenmerken.

Kortom, DeepOmicsAE biedt een workflow voor het analyseren van multi-omics-gegevens met bijzondere nadruk op moleculaire expressiegegevens en klinische kenmerken. De workflow kan worden aangepast om transcriptomics-gegevens te analyseren en kan worden gebruikt om datasets van verschillende ziekten te bestuderen, waaronder kanker, diabetes en hart-, long- of nieraandoeningen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteur verklaart dat ze geen belangenconflicten hebben.

Acknowledgments

Dit werk werd ondersteund door NIH-subsidie CA201402 en de Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. De hier gepubliceerde resultaten zijn geheel of gedeeltelijk gebaseerd op gegevens verkregen uit het AD Kennisportaal (https://adknowledgeportal.org). Studiegegevens werden verstrekt via het Accelerating Medicine Partnership for AD (U01AG046161 en U01AG061357) op basis van monsters die werden verstrekt door het Rush Alzheimer's Disease Center, Rush University Medical Center, Chicago. Het verzamelen van gegevens werd ondersteund door financiering door NIA-subsidies P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, het Illinois Department of Public Health en het Translational Genomics Research Institute. De metabolomics-dataset is gegenereerd bij Metabolon en voorbewerkt door de ADMC.

Materials

Name	Company	Catalog Number	Comments
Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

DOWNLOAD MATERIALS LIST

References

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
A unified approach to interpreting model predictions. Lundberg, S. M., Allen, P. G., Lee, S. -I. 31st Conference on Neural Information Processing Systems (NIPS 2017), , Long Beach, CA, USA. (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders - Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Biology

DeepOmicsAE: weergave van signaalmodules bij de ziekte van Alzheimer met Deep Learning-analyse van proteomics, metabolomics en klinische gegevens

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.