Summary

DeepOmicsAE: Darstellung von Signalmodulen bei der Alzheimer-Krankheit mit Deep-Learning-Analyse von Proteomik, Metabolomik und klinischen Daten

Published: December 15, 2023
doi:

Summary

DeepOmicsAE ist ein Workflow, der sich auf die Anwendung einer Deep-Learning-Methode (d. h. eines Autoencoders) konzentriert, um die Dimensionalität von Multi-Omics-Daten zu reduzieren, und bietet eine Grundlage für Vorhersagemodelle und Signalisierungsmodule, die mehrere Schichten von Omics-Daten darstellen.

Abstract

Große Omics-Datensätze werden zunehmend für die Erforschung der menschlichen Gesundheit verfügbar. In diesem Artikel wird DeepOmicsAE vorgestellt, ein Workflow, der für die Analyse von Multi-Omics-Datensätzen, einschließlich Proteomik, Metabolomik und klinischer Daten, optimiert ist. Dieser Workflow verwendet eine Art neuronales Netzwerk namens Autoencoder, um einen präzisen Satz von Features aus den hochdimensionalen Multi-Omics-Eingabedaten zu extrahieren. Darüber hinaus bietet der Workflow eine Methode zur Optimierung der Schlüsselparameter, die für die Implementierung des Autoencoders erforderlich sind. Um diesen Arbeitsablauf zu veranschaulichen, wurden klinische Daten aus einer Kohorte von 142 Personen analysiert, die entweder gesund waren oder bei denen Alzheimer diagnostiziert wurde, zusammen mit dem Proteom und Metabolom ihrer postmortalen Gehirnproben. Die aus der latenten Schicht des Autoencoders extrahierten Merkmale behalten die biologischen Informationen bei, die gesunde und kranke Patienten trennen. Darüber hinaus stellen die einzelnen extrahierten Merkmale unterschiedliche molekulare Signalmodule dar, von denen jedes einzigartig mit den klinischen Merkmalen der Individuen interagiert und ein Mittel zur Integration der Proteomik, Metabolomik und klinischen Daten bietet.

Introduction

Ein immer größerer Teil der Bevölkerung altert und die Belastung durch altersbedingte Krankheiten wie Neurodegeneration wird in den kommenden Jahrzehnten voraussichtlich stark zunehmen1. Die Alzheimer-Krankheit ist die häufigste Form der neurodegenerativen Erkrankung2. Der Fortschritt bei der Suche nach einer Behandlung war langsam, da wir die grundlegenden molekularen Mechanismen, die den Ausbruch und das Fortschreiten der Krankheit bestimmen, nur unzureichend verstehen. Der Großteil der Informationen über die Alzheimer-Krankheit wird post mortem aus der Untersuchung von Hirngewebe gewonnen, was die Unterscheidung von Ursachen und Folgen zu einer schwierigen Aufgabe gemacht hat3. Das Religious Orders Study/Memory and Aging Project (ROSMAP) ist ein ehrgeiziges Vorhaben, ein breiteres Verständnis der Neurodegeneration zu erlangen, das die Untersuchung von Tausenden von Personen beinhaltet, die sich verpflichtet haben, sich jährlich medizinischen und psychologischen Untersuchungen zu unterziehen und ihr Gehirn nach ihrem Tod für die Forschung zur Verfügung zu stellen4. Die Studie konzentriert sich auf den Übergang von der normalen Funktion des Gehirns zur Alzheimer-Krankheit2. Im Rahmen des Projekts wurden postmortale Gehirnproben mit einer Vielzahl von Omics-Ansätzen analysiert, darunter Genomik, Epigenomik, Transkriptomik, Proteomik5 und Metabolomik.

Omics-Technologien, die funktionelle Auslesungen zellulärer Zustände ermöglichen (d. h. Proteomik und Metabolomik)6,7 sind aufgrund des direkten Zusammenhangs zwischen Protein- und Metabolitenhäufigkeit und zellulären Aktivitäten der Schlüssel zur Interpretation von Krankheiten 8,9,10,11,12. Proteine sind die primären Exekutoren zellulärer Prozesse, während Metaboliten die Substrate und Produkte für biochemische Reaktionen sind. Die Multi-Omics-Datenanalyse bietet die Möglichkeit, die komplexen Zusammenhänge zwischen Proteomics- und Metabolomics-Daten zu verstehen, anstatt sie isoliert zu betrachten. Multi-Omics ist eine Disziplin, die mehrere Schichten hochdimensionaler biologischer Daten untersucht, einschließlich molekularer Daten (Genomsequenz und Mutationen, Transkriptom, Proteom, Metabolom), klinischer Bildgebungsdaten und klinischer Merkmale. Insbesondere zielt die Multi-Omics-Datenanalyse darauf ab, solche Schichten biologischer Daten zu integrieren, ihre wechselseitige Regulation und Interaktionsdynamik zu verstehen und ein ganzheitliches Verständnis des Auftretens und Fortschreitens von Krankheiten zu liefern. Methoden zur Integration von Multi-Omics-Daten befinden sich jedoch noch in einem frühen Entwicklungsstadium13.

Autoencoder, eine Art unüberwachtes neuronales Netzwerk14, sind ein leistungsfähiges Werkzeug für die Multi-Omics-Datenintegration. Im Gegensatz zu überwachten neuronalen Netzen ordnen Autoencoder Proben weder bestimmten Zielwerten (z. B. gesund oder krank) zu, noch werden sie zur Vorhersage von Ergebnissen verwendet. Eine ihrer Hauptanwendungen liegt in der Dimensionalitätsreduktion. Autoencoder bieten jedoch mehrere Vorteile gegenüber einfacheren Methoden zur Dimensionalitätsreduktion wie Hauptkomponentenanalyse (PCA), t-verteilter stochastischer Nachbareinbettung (tSNE) oder gleichmäßiger Mannigfaltigkeitsapproximation und Projektion (UMAP). Im Gegensatz zu PCA können Autoencoder nichtlineare Beziehungen innerhalb der Daten erfassen. Im Gegensatz zu tSNE und UMAP können sie hierarchische und multimodale Beziehungen innerhalb der Daten erkennen, da sie auf mehreren Schichten von Recheneinheiten beruhen, die jeweils nichtlineare Aktivierungsfunktionen enthalten. Daher stellen sie attraktive Modelle dar, um die Komplexität von Multi-Omics-Daten zu erfassen. Während die primäre Anwendung von PCA, tSNE und UMAP das Clustering der Daten ist, komprimieren Autoencoder die Eingabedaten in extrahierte Merkmale, die sich gut für nachgelagerte Vorhersageaufgaben eignen15,16.

Kurz gesagt, neuronale Netze bestehen aus mehreren Schichten, die jeweils mehrere Recheneinheiten oder “Neuronen” enthalten. Die erste und letzte Schicht werden als Eingabe- bzw. Ausgabeschicht bezeichnet. Autoencoder sind neuronale Netze mit einer Sanduhrstruktur, bestehend aus einer Eingabeschicht, gefolgt von ein bis drei versteckten Schichten und einer kleinen “latenten” Schicht, die typischerweise zwischen zwei und sechs Neuronen enthält. Die erste Hälfte dieser Struktur wird als Encoder bezeichnet und ist mit einem Decoder kombiniert, der den Encoder spiegelt. Der Decoder endet mit einer Ausgabeschicht, die die gleiche Anzahl von Neuronen wie die Eingabeschicht enthält. Autoencoder nehmen die Eingabe durch den Flaschenhals und rekonstruieren sie in der Ausgabeschicht, mit dem Ziel, eine Ausgabe zu erzeugen, die die ursprünglichen Informationen so genau wie möglich widerspiegelt. Dies wird durch die mathematische Minimierung eines Parameters erreicht, der als “Rekonstruktionsverlust” bezeichnet wird. Die Eingabe besteht aus einer Reihe von Merkmalen, die in der hier gezeigten Anwendung Protein- und Metabolitenhäufigkeiten und klinische Merkmale (d. h. Geschlecht, Bildung und Alter zum Zeitpunkt des Todes) sein werden. Die latente Schicht enthält eine komprimierte und informationsreiche Darstellung der Eingabe, die für nachfolgende Anwendungen wie Vorhersagemodelle verwendet werden kann17,18.

Dieses Protokoll stellt einen Workflow, DeepOmicsAE, dar, der Folgendes umfasst: 1) Vorverarbeitung von Proteomik-, Metabolomik- und klinischen Daten (d. h. Normalisierung, Skalierung, Entfernung von Ausreißern), um Daten mit einer konsistenten Skala für die Analyse des maschinellen Lernens zu erhalten; 2) Auswahl geeigneter Autoencoder-Eingangsmerkmale, da eine Überlastung der Merkmale relevante Krankheitsmuster verschleiern kann; 3) Optimierung und Training des Autoencoders, einschließlich der Bestimmung der optimalen Anzahl von Proteinen und Metaboliten für die Selektion und von Neuronen für die latente Schicht; 4) Extrahieren von Merkmalen aus der latenten Schicht; und 5) Nutzung der extrahierten Merkmale für die biologische Interpretation durch Identifizierung molekularer Signalmodule und ihrer Beziehung zu klinischen Merkmalen.

Dieses Protokoll soll einfach und für Biologen mit begrenzter Computererfahrung anwendbar sein, die über ein grundlegendes Verständnis der Programmierung mit Python verfügen. Das Protokoll konzentriert sich auf die Analyse von Multi-Omics-Daten, einschließlich Proteomik, Metabolomik und klinischer Merkmale, aber seine Verwendung kann auf andere Arten von molekularen Expressionsdaten, einschließlich Transkriptomik, ausgeweitet werden. Eine wichtige neue Anwendung, die durch dieses Protokoll eingeführt wurde, ist die Zuordnung der Wichtigkeitswerte ursprünglicher Merkmale auf einzelne Neuronen in der latenten Schicht. Infolgedessen stellt jedes Neuron in der latenten Schicht ein Signalmodul dar, das die Wechselwirkungen zwischen spezifischen molekularen Veränderungen und den klinischen Merkmalen der Patienten detailliert beschreibt. Die biologische Interpretation der molekularen Signalmodule erfolgt mit MetaboAnalyst, einem öffentlich zugänglichen Werkzeug, das Gen-/Protein- und Metabolitendaten integriert, um angereicherte Stoffwechsel- und Zellsignalwege abzuleiten17.

Protocol

HINWEIS: Bei den hier verwendeten Daten handelt es sich um ROSMAP-Daten, die vom AD Knowledge-Portal heruntergeladen wurden. Für das Herunterladen und Wiederverwenden der Daten ist keine Einwilligung nach Aufklärung erforderlich. Das hierin vorgestellte Protokoll verwendet Deep Learning, um Multi-Omics-Daten zu analysieren und Signalmodule zu identifizieren, die bestimmte Patienten- oder Stichprobengruppen beispielsweise basierend auf ihrer Diagnose unterscheiden. Das Protokoll liefert auch einen kleinen Satz extrahier…

Representative Results

Um das Protokoll zu präsentieren, analysierten wir einen Datensatz, der das Proteom, das Metabolom und klinische Informationen aus postmortalen Gehirnen von 142 Personen umfasste, die entweder gesund waren oder bei denen Alzheimer diagnostiziert wurde. Nach Durchführung des Protokollabschnitts 1 zur Vorverarbeitung der Daten enthielt der Datensatz 6.497 Proteine, 443 Metaboliten und drei klinische Merkmale (Geschlecht, Sterbealter und Bildung). Das Zielmerkmal ist die klinische Konse…

Discussion

Die Struktur des Datensatzes ist entscheidend für den Erfolg des Protokolls und sollte sorgfältig überprüft werden. Die Daten sollten wie in Protokollabschnitt 1 angegeben formatiert sein. Auch die korrekte Zuordnung von Spaltenpositionen ist entscheidend für den Erfolg der Methode. Proteomik- und Metabolomik-Daten werden unterschiedlich vorverarbeitet und die Merkmalsauswahl wird aufgrund der unterschiedlichen Art der Daten separat durchgeführt. Daher ist es wichtig, die Spaltenpositionen in den Protokollschritten…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde durch NIH Grant CA201402 und den Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award unterstützt. Die hier veröffentlichten Ergebnisse basieren ganz oder teilweise auf Daten aus dem AD Knowledge Portal (https://adknowledgeportal.org). Die Studiendaten wurden von der Accelerating Medicine Partnership for AD (U01AG046161 und U01AG061357) auf der Grundlage von Proben bereitgestellt, die vom Rush Alzheimer’s Disease Center, Rush University Medical Center, Chicago, zur Verfügung gestellt wurden. Die Datenerhebung wurde durch NIA-Zuschüsse P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, das Illinois Department of Public Health und das Translational Genomics Research Institute unterstützt. Der Metabolomics-Datensatz wurde bei Metabolon generiert und vom ADMC vorverarbeitet.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/kr/65910?article_type=t

Play Video

Cite This Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video