Summary

DeepOmicsAE:通过蛋白质组学、代谢组学和临床数据的深度学习分析来表示阿尔茨海默病中的信号转导模块

Published: December 15, 2023
doi:

Summary

DeepOmicsAE是一个以应用深度学习方法(即自动编码器)为中心的工作流程,以降低多组学数据的维度,为代表多层组学数据的预测模型和信号转导模块提供基础。

Abstract

大型组学数据集正越来越多地用于人类健康研究。本文介绍了 DeepOmicsAE,这是一种针对多组学数据集分析(包括蛋白质组学、代谢组学和临床数据)进行优化的工作流程。该工作流程采用一种称为自动编码器的神经网络,从高维多组学输入数据中提取一组简洁的特征。此外,该工作流还提供了一种优化实现自动编码器所需的关键参数的方法。为了展示这一工作流程,分析了142名健康或被诊断患有阿尔茨海默病的个体的临床数据,以及他们死后大脑样本的蛋白质组和代谢组。从自动编码器的潜在层提取的特征保留了区分健康和患病患者的生物信息。此外,单个提取的特征代表了不同的分子信号转导模块,每个模块都与个体的临床特征相互作用,为整合蛋白质组学、代谢组学和临床数据提供了一种手段。

Introduction

老龄化人口的比例越来越大,预计未来几十年神经退行性疾病等与年龄相关的疾病的负担将急剧增加1。阿尔茨海默病是最常见的神经退行性疾病类型 2.鉴于我们对驱动疾病发作和进展的基本分子机制知之甚少,寻找治疗方法的进展缓慢。关于阿尔茨海默病的大部分信息都是在死后通过脑组织检查获得的,这使得区分病因和后果成为一项艰巨的任务3.宗教秩序研究/记忆和衰老项目 (ROSMAP) 是一项雄心勃勃的努力,旨在更广泛地了解神经退行性疾病,其中包括对数千名致力于每年接受医学和心理检查并在他们去世后为研究贡献大脑的人的研究 4.该研究的重点是从大脑正常功能到阿尔茨海默病的过渡 2.在该项目中,使用多种组学方法分析了死后脑样本,包括基因组学、表观基因组学、转录组学、蛋白质组学5 和代谢组学。

由于蛋白质和代谢物丰度与细胞活性之间的直接关系,提供细胞状态功能读数的组学技术(即蛋白质组学和代谢组学)6,7是解释疾病8,9,10,11,12的关键。蛋白质是细胞过程的主要执行者,而代谢物是生化反应的底物和产物。多组学数据分析提供了理解蛋白质组学和代谢组学数据之间复杂关系的可能性,而不是孤立地理解它们。多组学是一门研究多层高维生物数据的学科,包括分子数据(基因组序列和突变、转录组、蛋白质组、代谢组)、临床影像数据和临床特征。特别是,多组学数据分析旨在整合这些生物数据层,了解它们的相互调控和相互作用动态,并提供对疾病发生和进展的整体理解。然而,整合多组学数据的方法仍处于开发的早期阶段13

自动编码器是一种无监督神经网络14,是多组学数据集成的强大工具。与监督神经网络不同,自动编码器不会将样本映射到特定的目标值(例如健康或患病),也不会用于预测结果。它们的主要应用之一在于降维。然而,与主成分分析 (PCA)、t 分布随机邻域嵌入 (tSNE) 或均匀流形近似和投影 (UMAP) 等更简单的降维方法相比,自动编码器具有多项优势。与 PCA 不同,自动编码器可以捕获数据中的非线性关系。与 tSNE 和 UMAP 不同,它们可以检测数据中的分层和多模态关系,因为它们依赖于多层计算单元,每个单元都包含非线性激活函数。因此,它们代表了捕捉多组学数据复杂性的有吸引力的模型。最后,虽然 PCA、tSNE 和 UMAP 的主要应用是对数据进行聚类,但自动编码器将输入数据压缩为非常适合下游预测任务的提取特征15,16

简而言之,神经网络由几层组成,每层包含多个计算单元或“神经元”。第一层和最后一层分别称为输入层和输出层。自动编码器是具有沙漏结构的神经网络,由一个输入层组成,然后是一到三个隐藏层和一个通常包含两到六个神经元的小“潜在”层。这种结构的前半部分称为编码器,并与镜像编码器的解码器结合使用。解码器以输出层结束,输出层包含与输入层相同数量的神经元。自动编码器将输入通过瓶颈,并在输出层中重建它,目的是生成尽可能接近原始信息的输出。这是通过数学上最小化称为“重建损失”的参数来实现的。输入由一组特征组成,在此展示的应用程序中,这些特征将是蛋白质和代谢物丰度,以及临床特征(即性别、教育和死亡年龄)。潜在层包含输入的压缩和信息丰富的表示,可用于后续应用,例如预测模型17,18

该协议提出了一个工作流程 DeepOmicsAE,它涉及:1) 蛋白质组学、代谢组学和临床数据(即归一化、缩放、异常值去除)的预处理,以获得具有一致规模的数据,用于机器学习分析;2)选择适当的自动编码器输入特征,因为特征过载可能会掩盖相关的疾病模式;3)优化和训练自动编码器,包括确定要选择的蛋白质和代谢物的最佳数量,以及潜伏层的神经元数量;4)从潜层中提取特征;5)通过识别分子信号转导模块及其与临床特征的关系,利用提取的特征进行生物学解释。

该协议旨在简单易行,适用于计算经验有限且对 Python 编程有基本了解的生物学家。该协议侧重于分析多组学数据,包括蛋白质组学、代谢组学和临床特征,但其用途可以扩展到其他类型的分子表达数据,包括转录组学。该协议引入的一个重要新应用是将原始特征的重要性分数映射到潜伏层中的单个神经元上。因此,潜伏层中的每个神经元都代表一个信号模块,详细说明了特定分子改变与患者临床特征之间的相互作用。分子信号转导模块的生物学解释是通过使用 MetaboAnalyst 获得的,MetaboAnalyst 是一种公开可用的工具,它集成了基因/蛋白质和代谢物数据以推导富集的代谢和细胞信号通路17

Protocol

注意:此处使用的数据是从 AD 知识门户下载的 ROSMAP 数据。下载和重复使用数据不需要知情同意。本文介绍的方案利用深度学习来分析多组学数据并识别信号转导模块,这些模块根据例如他们的诊断来区分特定的患者或样本组。该协议还提供了一小组提取的特征,这些特征汇总了原始的大规模数据,可用于进一步分析,例如使用机器学习算法训练预测模型(图 1)。有关在?…

Representative Results

为了展示该协议,我们分析了一个数据集,该数据集包括蛋白质组、代谢组和来自 142 名健康或被诊断患有阿尔茨海默病的个体的死后大脑的临床信息。 在执行协议第 1 部分对数据进行预处理后,数据集包括 6,497 种蛋白质、443 种代谢物和三个临床特征(性别、死亡年龄和教育程度)。目标特征是死亡时认知状态的临床共识诊断,编码为 cogdx,?…

Discussion

数据集的结构对于协议的成功至关重要,应仔细检查。数据的格式应如协议第 1 节所示。正确分配列位置对于该方法的成功也至关重要。蛋白质组学和代谢组学数据的预处理方式不同,由于数据性质不同,特征选择是分开进行的。因此,在协议步骤 1.5、2.3 和 3.3 中正确分配色谱柱位置至关重要。

如果临床数据包含非数值(连续值或二进制值)的数据类型,则用户在运行协议?…

Divulgations

The authors have nothing to disclose.

Acknowledgements

这项工作得到了美国国立卫生研究院CA201402资助和康奈尔大学脊椎动物基因组学中心(CVG)杰出学者奖的支持。此处发布的结果全部或部分基于从 AD 知识门户 (https://adknowledgeportal.org) 获得的数据。研究数据是通过AD加速医学伙伴关系(U01AG046161和U01AG061357)提供的,基于芝加哥拉什大学医学中心拉什阿尔茨海默病中心提供的样本。数据收集得到了NIA赠款的支持,P30AG10161、R01AG15819、R01AG17917、R01AG30146、R01AG36836、U01AG32984、U01AG46152、伊利诺伊州公共卫生部和转化基因组学研究所。代谢组学数据集在 Metabolon 生成,并由 ADMC 进行预处理。

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/fr/65910?article_type=t

Play Video

Citer Cet Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video