DeepOmicsAE is een workflow die is gericht op de toepassing van een deep learning-methode (d.w.z. een auto-encoder) om de dimensionaliteit van multi-omics-gegevens te verminderen en een basis te leggen voor voorspellende modellen en signaleringsmodules die meerdere lagen omics-gegevens vertegenwoordigen.
Grote omics-datasets komen steeds meer beschikbaar voor onderzoek naar de menselijke gezondheid. Dit artikel presenteert DeepOmicsAE, een workflow die is geoptimaliseerd voor de analyse van multi-omics-datasets, waaronder proteomics, metabolomics en klinische gegevens. Deze workflow maakt gebruik van een type neuraal netwerk, auto-encoder genaamd, om een beknopte set functies te extraheren uit de hoogdimensionale multi-omics-invoergegevens. Bovendien biedt de workflow een methode om de belangrijkste parameters te optimaliseren die nodig zijn om de auto-encoder te implementeren. Om deze workflow te demonstreren, werden klinische gegevens geanalyseerd van een cohort van 142 personen die gezond waren of gediagnosticeerd waren met de ziekte van Alzheimer, samen met het proteoom en metaboloom van hun postmortale hersenmonsters. De kenmerken die uit de latente laag van de auto-encoder worden gehaald, behouden de biologische informatie die gezonde en zieke patiënten scheidt. Bovendien vertegenwoordigen de individueel geëxtraheerde kenmerken verschillende moleculaire signaalmodules, die elk op unieke wijze interageren met de klinische kenmerken van de individuen, waardoor een middel wordt geboden om de proteomics, metabolomics en klinische gegevens te integreren.
Een steeds groter deel van de bevolking vergrijst en de verwachting is dat de last van ouderdomsziekten, zoals neurodegeneratie, de komende decennia sterk zaltoenemen1. De ziekte van Alzheimer is de meest voorkomende vorm van neurodegeneratieve ziekte2. De vooruitgang bij het vinden van een behandeling is traag geweest, gezien ons slechte begrip van de fundamentele moleculaire mechanismen die het begin en de voortgang van de ziekte veroorzaken. De meeste informatie over de ziekte van Alzheimer wordt postmortaal verkregen uit het onderzoek van hersenweefsel, waardoor het onderscheiden van oorzaken en gevolgen een moeilijke taak isgeworden3. Het Religious Orders Study/Memory and Aging Project (ROSMAP) is een ambitieuze poging om een breder begrip te krijgen van neurodegeneratie, waarbij duizenden personen worden bestudeerd die zich ertoe hebben verbonden jaarlijks medische en psychologische onderzoeken te ondergaan en hun hersenen bij te dragen aan onderzoek nahun overlijden. De studie richt zich op de overgang van de normale werking van de hersenen naar de ziekte van Alzheimer2. Binnen het project werden postmortale hersenmonsters geanalyseerd met een overvloed aan omics-benaderingen, waaronder genomics, epigenomics, transcriptomics, proteomics5 en metabolomics.
Omics-technologieën die functionele uitlezingen van cellulaire toestanden bieden (d.w.z. proteomics en metabolomics)6,7 zijn de sleutel tot het interpreteren van ziekte 8,9,10,11,12, vanwege de directe relatie tussen de overvloed aan eiwitten en metabolieten en cellulaire activiteiten. Eiwitten zijn de primaire uitvoerders van cellulaire processen, terwijl metabolieten de substraten en producten zijn voor biochemische reacties. Multi-omics data-analyse biedt de mogelijkheid om de complexe relaties tussen proteomics- en metabolomics-data te begrijpen in plaats van ze afzonderlijk te waarderen. Multi-omics is een discipline die meerdere lagen van hoogdimensionale biologische gegevens bestudeert, waaronder moleculaire gegevens (genoomsequentie en mutaties, transcriptoom, proteoom, metaboloom), klinische beeldvormingsgegevens en klinische kenmerken. Multi-omics-data-analyse is met name gericht op het integreren van dergelijke lagen van biologische gegevens, het begrijpen van hun wederzijdse regulatie en interactiedynamiek, en het leveren van een holistisch begrip van het ontstaan en de progressie van ziekten. Methoden voor de integratie van multi-omics-gegevens bevinden zich echter nog in de beginfase van ontwikkeling13.
Auto-encoders, een soort neuraal netwerk zonder toezicht14, zijn een krachtig hulpmiddel voor multi-omics-gegevensintegratie. In tegenstelling tot gesuperviseerde neurale netwerken, wijzen auto-encoders monsters niet toe aan specifieke doelwaarden (zoals gezond of ziek), noch worden ze gebruikt om resultaten te voorspellen. Een van hun belangrijkste toepassingen ligt in dimensionaliteitsreductie. Auto-encoders bieden echter verschillende voordelen ten opzichte van eenvoudigere methoden voor dimensionaliteitsreductie, zoals principal component analysis (PCA), t-distributed stochastic neighbor embedding (tSNE) of uniform manifold approximation and projection (UMAP). In tegenstelling tot PCA kunnen auto-encoders niet-lineaire relaties in de gegevens vastleggen. In tegenstelling tot tSNE en UMAP kunnen ze hiërarchische en multimodale relaties binnen de gegevens detecteren, omdat ze afhankelijk zijn van meerdere lagen van rekeneenheden die elk niet-lineaire activeringsfuncties bevatten. Daarom zijn het aantrekkelijke modellen om de complexiteit van multi-omics-gegevens vast te leggen. Ten slotte, terwijl de primaire toepassing van PCA, tSNE en UMAP die van het clusteren van de gegevens is, comprimeren auto-encoders de invoergegevens tot geëxtraheerde functies die zeer geschikt zijn voor downstream voorspellende taken15,16.
In het kort bestaan neurale netwerken uit verschillende lagen, die elk meerdere rekeneenheden of ‘neuronen’ bevatten. De eerste en laatste laag worden respectievelijk de invoer- en uitvoerlaag genoemd. Auto-encoders zijn neurale netwerken met een zandloperstructuur, bestaande uit een invoerlaag, gevolgd door één tot drie verborgen lagen en een kleine “latente” laag die meestal tussen de twee en zes neuronen bevat. De eerste helft van deze structuur staat bekend als de encoder en wordt gecombineerd met een decoder die de encoder spiegelt. De decoder eindigt met een uitvoerlaag met hetzelfde aantal neuronen als de invoerlaag. Auto-encoders nemen de input door het knelpunt en reconstrueren deze in de uitvoerlaag, met als doel een output te genereren die de oorspronkelijke informatie zo goed mogelijk weerspiegelt. Dit wordt bereikt door een parameter die ‘reconstructieverlies’ wordt genoemd, wiskundig te minimaliseren. De input bestaat uit een reeks kenmerken, die in de hierin getoonde aanvraag eiwit- en metabolietabundanties en klinische kenmerken (d.w.z. geslacht, opleiding en leeftijd bij overlijden) zullen zijn. De latente laag bevat een gecomprimeerde en informatierijke weergave van de input, die kan worden gebruikt voor volgende toepassingen zoals voorspellende modellen17,18.
Dit protocol presenteert een workflow, DeepOmicsAE, die het volgende omvat: 1) voorverwerking van proteomics, metabolomics en klinische gegevens (d.w.z. normalisatie, schaalvergroting, verwijdering van uitschieters) om gegevens te verkrijgen met een consistente schaal voor machine learning-analyse; 2) het selecteren van de juiste invoerfuncties voor auto-encoders, aangezien overbelasting van functies relevante ziektepatronen kan verdoezelen; 3) het optimaliseren en trainen van de auto-encoder, inclusief het bepalen van het optimale aantal te selecteren eiwitten en metabolieten, en van neuronen voor de latente laag; 4) het extraheren van kenmerken uit de latente laag; en 5) het gebruik van de geëxtraheerde kenmerken voor biologische interpretatie door moleculaire signaleringsmodules en hun relatie met klinische kenmerken te identificeren.
Dit protocol is bedoeld om eenvoudig en toepasbaar te zijn door biologen met beperkte rekenervaring die een basiskennis hebben van programmeren met Python. Het protocol richt zich op het analyseren van multi-omics-gegevens, waaronder proteomics, metabolomics en klinische kenmerken, maar het gebruik ervan kan worden uitgebreid naar andere soorten moleculaire expressiegegevens, waaronder transcriptomics. Een belangrijke nieuwe toepassing die door dit protocol wordt geïntroduceerd, is het in kaart brengen van de belangrijkheidsscores van originele kenmerken op individuele neuronen in de latente laag. Als gevolg hiervan vertegenwoordigt elk neuron in de latente laag een signaalmodule, die de interacties tussen specifieke moleculaire veranderingen en de klinische kenmerken van de patiënt beschrijft. Biologische interpretatie van de moleculaire signaleringsmodules wordt verkregen door gebruik te maken van MetaboAnalyst, een openbaar beschikbaar hulpmiddel dat gen-/eiwit- en metabolietgegevens integreert om verrijkte metabole en celsignaleringsroutes af te leiden17.
De structuur van de dataset is van cruciaal belang voor het succes van het protocol en moet zorgvuldig worden gecontroleerd. De gegevens moeten worden opgemaakt zoals aangegeven in punt 1 van het protocol. De juiste toewijzing van kolomposities is ook van cruciaal belang voor het succes van de methode. Proteomics- en metabolomics-gegevens worden anders voorverwerkt en de selectie van functies wordt afzonderlijk uitgevoerd vanwege de verschillende aard van de gegevens. Daarom is het van cruciaal belang om kolomposities co…
The authors have nothing to disclose.
Dit werk werd ondersteund door NIH-subsidie CA201402 en de Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. De hier gepubliceerde resultaten zijn geheel of gedeeltelijk gebaseerd op gegevens verkregen uit het AD Kennisportaal (https://adknowledgeportal.org). Studiegegevens werden verstrekt via het Accelerating Medicine Partnership for AD (U01AG046161 en U01AG061357) op basis van monsters die werden verstrekt door het Rush Alzheimer’s Disease Center, Rush University Medical Center, Chicago. Het verzamelen van gegevens werd ondersteund door financiering door NIA-subsidies P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, het Illinois Department of Public Health en het Translational Genomics Research Institute. De metabolomics-dataset is gegenereerd bij Metabolon en voorbewerkt door de ADMC.
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |