Summary

DeepOmicsAE: 단백질체학, 대사체학 및 임상 데이터의 딥러닝 분석을 통한 알츠하이머병의 신호 모듈 표현

Published: December 15, 2023
doi:

Summary

DeepOmicsAE는 다중 오믹스 데이터의 차원을 줄이기 위해 딥 러닝 방법(즉, 오토인코더)을 적용하는 데 중점을 둔 워크플로우로, 여러 계층의 오믹스 데이터를 나타내는 예측 모델 및 신호 모듈을 위한 기반을 제공합니다.

Abstract

대규모 오믹스 데이터 세트는 인간 건강 연구에 점점 더 많이 사용되고 있습니다. 이 논문에서는 단백질체학, 대사체학 및 임상 데이터를 포함한 다중 오믹스 데이터 세트 분석에 최적화된 워크플로우인 DeepOmicsAE를 제시합니다. 이 워크플로는 오토인코더라는 일종의 신경망을 사용하여 고차원 다중 오믹스 입력 데이터에서 간결한 특징 세트를 추출합니다. 또한 워크플로는 오토인코더를 구현하는 데 필요한 주요 파라미터를 최적화하는 방법을 제공합니다. 이 워크플로우를 보여주기 위해 건강하거나 알츠하이머병 진단을 받은 142명의 코호트에서 사후 뇌 샘플의 단백질체 및 대사체와 함께 임상 데이터를 분석했습니다. 오토인코더의 잠복층에서 추출된 특징은 건강한 환자와 질병이 있는 환자를 구분하는 생물학적 정보를 유지합니다. 또한 추출된 개별 특징은 별개의 분자 신호 전달 모듈을 나타내며, 각 모듈은 개인의 임상 특징과 고유하게 상호 작용하여 단백질체학, 대사체학 및 임상 데이터를 통합할 수 있는 수단을 제공합니다.

Introduction

인구의 점점 더 많은 비율이 고령화되고 있으며 신경 퇴행과 같은 노화 관련 질병의 부담은 향후 수십 년 동안 급격히 증가할 것으로 예상됩니다1. 알츠하이머병은 신경퇴행성 질환의 가장 흔한 유형이다2. 치료법을 찾는 진전은 질병의 발병과 진행을 유도하는 근본적인 분자 메커니즘에 대한 우리의 부족한 이해를 감안할 때 더뎠습니다. 알츠하이머병에 대한 대부분의 정보는 뇌 조직 검사를 통해 사후에 얻어지는데, 이로 인해 원인과 결과를 구별하는 것이 어려운 과제가 되었다3. ROSMAP(Religious Orders Study/Memory and Aging Project)는 신경 퇴행에 대한 더 넓은 이해를 얻기 위한 야심 찬 노력으로, 매년 의료 및 심리 검사를 받고 사망 후 연구를 위해 뇌를 기증하기로 약속한 수천 명의 개인에 대한 연구를 포함합니다4. 이 연구는 뇌의 정상적인 기능에서 알츠하이머병으로의 전환에 초점을 맞추고있다 2. 이 프로젝트 내에서 사후 뇌 샘플은 유전체학, 후성유전체학, 전사체학, 단백질체학5 및 대사체학을 포함한 다양한 오믹스 접근법으로 분석되었습니다.

세포 상태(즉, 단백질체학 및 대사체학)의 기능적 판독을 제공하는 오믹스 기술6,7은 단백질과 대사 산물 풍부도와 세포 활동 사이의 직접적인 관계로 인해 질병 8,9,10,11,12을 해석하는 데 핵심입니다. 단백질은 세포 과정의 주요 실행자이며, 대사 산물은 생화학 반응의 기질이자 생성물입니다. 다중 오믹스 데이터 분석은 단백질체학과 대사체학 데이터를 단독으로 평가하는 대신 이들의 복잡한 관계를 이해할 수 있는 가능성을 제공합니다. 멀티오믹스는 분자 데이터(게놈 염기서열 및 돌연변이, 전사체, 단백질체, 대사체), 임상 영상 데이터 및 임상 특징을 포함한 여러 계층의 고차원 생물학적 데이터를 연구하는 분야입니다. 특히, 다중 오믹스 데이터 분석은 이러한 생물학적 데이터 계층을 통합하고, 상호 조절 및 상호 작용 역학을 이해하고, 질병 발병 및 진행에 대한 전체적인 이해를 제공하는 것을 목표로 합니다. 그러나 다중 오믹스 데이터를 통합하는 방법은 개발 초기 단계에 머물러 있다13.

비지도 신경망(unsupervised neural network)(14)의 일종인 오토인코더(Autoencoder)는 멀티오믹스 데이터 통합을 위한 강력한 도구이다. 지도 신경망과 달리, 오토인코더는 샘플을 특정 목표값(예: 정상 또는 질병)에 매핑하지 않으며 결과를 예측하는 데 사용되지도 않습니다. 주요 응용 프로그램 중 하나는 차원 축소에 있습니다. 그러나 오토인코더는 주성분 분석(PCA), t-분산 확률적 이웃 임베딩(tSNE) 또는 균일 매니폴드 근사 및 투영(UMAP)과 같은 단순한 차원 축소 방법에 비해 몇 가지 이점을 제공합니다. PCA와 달리, 오토인코더는 데이터 내에서 비선형 관계를 캡처할 수 있습니다. tSNE 및 UMAP와 달리 각각 비선형 활성화 함수를 포함하는 여러 계층의 계산 단위에 의존하기 때문에 데이터 내에서 계층적 및 다중 모드 관계를 감지할 수 있습니다. 따라서 다중 오믹스 데이터의 복잡성을 포착할 수 있는 매력적인 모델을 나타냅니다. 마지막으로, PCA, tSNE 및 UMAP의 주요 응용 분야는 데이터를 클러스터링하는 것이지만, 오토인코더는 입력 데이터를 다운스트림 예측 작업에 적합한 추출된 특징으로 압축합니다15,16.

간단히 말해서 신경망은 여러 계층으로 구성되며 각 계층에는 여러 계산 단위 또는 “뉴런”이 포함되어 있습니다. 첫 번째 계층과 마지막 계층은 각각 입력 계층과 출력 계층이라고 합니다. 오토인코더는 모래시계 구조를 가진 신경망으로, 입력 계층과 그 뒤에 1-3개의 은닉층, 그리고 일반적으로 2개에서 6개의 뉴런을 포함하는 작은 “잠재” 계층으로 구성됩니다. 이 구조의 전반부는 인코더라고 하며 인코더를 미러링하는 디코더와 결합됩니다. 디코더는 입력 계층과 동일한 개수의 뉴런을 포함하는 출력 계층으로 끝납니다. 오토인코더는 병목 현상을 통해 입력을 받아 출력 계층에서 재구성하며, 원래 정보를 최대한 가깝게 미러링하는 출력을 생성하는 것을 목표로 합니다. 이는 “재구성 손실”이라는 매개변수를 수학적으로 최소화함으로써 달성됩니다. 입력은 일련의 특징들로 구성되며, 본 명세서에 소개된 응용 프로그램에서는 단백질 및 대사 산물 풍부도, 그리고 임상적 특성(즉, 성별, 교육 및 사망 시 연령)이 될 것이다. 잠재층은 입력의 압축되고 정보가 풍부한 표현을 포함하며, 이는 예측 모델(17,18)과 같은 후속 응용에 사용될 수 있다.

이 프로토콜은 다음을 포함하는 워크플로우인 DeepOmicsAE를 제공합니다: 1) 기계 학습 분석을 위한 일관된 규모의 데이터를 얻기 위해 단백질체학, 대사체학 및 임상 데이터의 전처리(즉, 정규화, 스케일링, 이상치 제거); 2) 기능 과부하가 관련 질병 패턴을 모호하게 할 수 있으므로 적절한 오토인코더 입력 기능을 선택합니다. 3) 선택할 단백질 및 대사 산물의 최적 수와 잠복층에 대한 뉴런의 수를 결정하는 것을 포함하여 오토인코더를 최적화하고 훈련합니다. 4) 잠재층으로부터 특징을 추출하는 단계; 5) 분자 신호 전달 모듈 및 임상 특징과의 관계를 식별하여 추출된 특징을 생물학적 해석에 활용합니다.

이 프로토콜은 Python을 사용한 프로그래밍에 대한 기본적인 이해가 있는 계산 경험이 제한된 생물학자가 간단하고 적용할 수 있도록 하는 것을 목표로 합니다. 이 프로토콜은 단백질체학, 대사체학 및 임상적 특징을 포함한 다중 오믹스 데이터 분석에 중점을 두지만, 전사체학을 포함한 다른 유형의 분자 발현 데이터로 사용을 확장할 수 있습니다. 이 프로토콜에 의해 도입된 한 가지 중요한 새로운 응용 프로그램은 원래 특징의 중요도 점수를 잠재층의 개별 뉴런에 매핑하는 것입니다. 그 결과, 잠복층의 각 뉴런은 특정 분자 변화와 환자의 임상적 특성 간의 상호 작용을 자세히 설명하는 신호 전달 모듈을 나타냅니다. 분자 신호전달 모듈의 생물학적 해석은 유전자/단백질 및 대사산물 데이터를 통합하여 농축된 대사 및 세포 신호전달 경로를 유도하는 공개적으로 이용 가능한 도구인 MetaboAnalyst를 사용하여 얻어진다17.

Protocol

참고: 여기에 사용된 데이터는 AD Knowledge 포털에서 다운로드한 ROSMAP 데이터입니다. 데이터를 다운로드하고 재사용하는 데 정보에 입각한 동의가 필요하지 않습니다. 여기에 제시된 프로토콜은 딥 러닝을 활용하여 다중 오믹스 데이터를 분석하고 예를 들어 진단을 기반으로 특정 환자 또는 샘플 그룹을 구별하는 신호 모듈을 식별합니다. 또한 이 프로토콜은 원래의 대규모 데이터를 요약하고 기계…

Representative Results

프로토콜을 선보이기 위해 건강하거나 알츠하이머병 진단을 받은 142명의 사후 뇌에서 파생된 단백질체, 대사체 및 임상 정보로 구성된 데이터 세트를 분석했습니다. 데이터를 전처리하기 위해 프로토콜 섹션 1을 수행한 후 데이터 세트에는 6,497개의 단백질, 443개의 대사 산물 및 3가지 임상 특징(성별, 사망 연령 및 교육)이 포함되었습니다. 표적 특징은 사망 시 인지 상?…

Discussion

데이터 세트의 구조는 프로토콜의 성공에 매우 중요하며 주의 깊게 확인해야 합니다. 데이터는 프로토콜 섹션 1에 표시된 대로 형식이 지정되어야 합니다. 컬럼 위치의 올바른 할당도 방법의 성공에 매우 중요합니다. 단백질체학 및 대사체학 데이터는 서로 다른 방식으로 전처리되며, 데이터의 특성이 다르기 때문에 특징 선택이 별도로 수행됩니다. 따라서 프로토콜 단계 1.5, 2.3 및 3.3에서 열 위?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 연구는 NIH 보조금 CA201402와 코넬 척추동물 유전체학 센터(CVG) 우수 학자 상(Distinguished Scholar Award)의 지원을 받았습니다. 여기에 게시된 결과는 전체 또는 일부가 AD 지식 포털(https://adknowledgeportal.org)에서 얻은 데이터를 기반으로 합니다. 연구 데이터는 시카고 러시 대학 메디컬 센터(Rush University Medical Center)의 러시 알츠하이머병 센터(Rush Alzheimer’s Disease Center)에서 제공한 샘플을 기반으로 AD를 위한 가속 의학 파트너십(Accelerating Medicine Partnership for AD, U01AG046161 and U01AG061357)을 통해 제공되었습니다. 데이터 수집은 NIA 보조금 P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health 및 Translational Genomics Research Institute의 자금 지원을 통해 지원되었습니다. 대사체학 데이터 세트는 Metabolon에서 생성되었으며 ADMC에 의해 전처리되었습니다.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/65910?article_type=t

Play Video

Cite This Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video