Biology

DeepOmicsAE: 단백질체학, 대사체학 및 임상 데이터의 딥러닝 분석을 통한 알츠하이머병의 신호 모듈 표현

Published: December 15, 2023 doi: 10.3791/65910

¹Department of Molecular Medicine, Cornell University

Summary

DeepOmicsAE는 다중 오믹스 데이터의 차원을 줄이기 위해 딥 러닝 방법(즉, 오토인코더)을 적용하는 데 중점을 둔 워크플로우로, 여러 계층의 오믹스 데이터를 나타내는 예측 모델 및 신호 모듈을 위한 기반을 제공합니다.

Abstract

대규모 오믹스 데이터 세트는 인간 건강 연구에 점점 더 많이 사용되고 있습니다. 이 논문에서는 단백질체학, 대사체학 및 임상 데이터를 포함한 다중 오믹스 데이터 세트 분석에 최적화된 워크플로우인 DeepOmicsAE를 제시합니다. 이 워크플로는 오토인코더라는 일종의 신경망을 사용하여 고차원 다중 오믹스 입력 데이터에서 간결한 특징 세트를 추출합니다. 또한 워크플로는 오토인코더를 구현하는 데 필요한 주요 파라미터를 최적화하는 방법을 제공합니다. 이 워크플로우를 보여주기 위해 건강하거나 알츠하이머병 진단을 받은 142명의 코호트에서 사후 뇌 샘플의 단백질체 및 대사체와 함께 임상 데이터를 분석했습니다. 오토인코더의 잠복층에서 추출된 특징은 건강한 환자와 질병이 있는 환자를 구분하는 생물학적 정보를 유지합니다. 또한 추출된 개별 특징은 별개의 분자 신호 전달 모듈을 나타내며, 각 모듈은 개인의 임상 특징과 고유하게 상호 작용하여 단백질체학, 대사체학 및 임상 데이터를 통합할 수 있는 수단을 제공합니다.

Introduction

인구의 점점 더 많은 비율이 고령화되고 있으며 신경 퇴행과 같은 노화 관련 질병의 부담은 향후 수십 년 동안 급격히 증가할 것으로 예상됩니다¹. 알츠하이머병은 신경퇴행성 질환의 가장 흔한 유형이다². 치료법을 찾는 진전은 질병의 발병과 진행을 유도하는 근본적인 분자 메커니즘에 대한 우리의 부족한 이해를 감안할 때 더뎠습니다. 알츠하이머병에 대한 대부분의 정보는 뇌 조직 검사를 통해 사후에 얻어지는데, 이로 인해 원인과 결과를 구별하는 것이 어려운 과제가 되었다³. ROSMAP(Religious Orders Study/Memory and Aging Project)는 신경 퇴행에 대한 더 넓은 이해를 얻기 위한 야심 찬 노력으로, 매년 의료 및 심리 검사를 받고 사망 후 연구를 위해 뇌를 기증하기로 약속한 수천 명의 개인에 대한 연구를 포함합니다⁴. 이 연구는 뇌의 정상적인 기능에서 알츠하이머병으로의 전환에 초점을 맞추고^{있다 2}. 이 프로젝트 내에서 사후 뇌 샘플은 유전체학, 후성유전체학, 전사체학, 단백질체학⁵ 및 대사체학을 포함한 다양한 오믹스 접근법으로 분석되었습니다.

세포 상태(즉, 단백질체학 및 대사체^학)의 기능적 판독을 제공하는 오믹스 기술^6,7은 단백질과 대사 산물 풍부도와 세포 활동 사이의 직접적인 관계로 인해 질병 ^8,9,10,11,12을 해석하는 데 핵심입니다. 단백질은 세포 과정의 주요 실행자이며, 대사 산물은 생화학 반응의 기질이자 생성물입니다. 다중 오믹스 데이터 분석은 단백질체학과 대사체학 데이터를 단독으로 평가하는 대신 이들의 복잡한 관계를 이해할 수 있는 가능성을 제공합니다. 멀티오믹스는 분자 데이터(게놈 염기서열 및 돌연변이, 전사체, 단백질체, 대사체), 임상 영상 데이터 및 임상 특징을 포함한 여러 계층의 고차원 생물학적 데이터를 연구하는 분야입니다. 특히, 다중 오믹스 데이터 분석은 이러한 생물학적 데이터 계층을 통합하고, 상호 조절 및 상호 작용 역학을 이해하고, 질병 발병 및 진행에 대한 전체적인 이해를 제공하는 것을 목표로 합니다. 그러나 다중 오믹스 데이터를 통합하는 방법은 개발 초기 단계에 머물러 있다¹³.

비지도 신경망(unsupervised neural network)(¹⁴)의 일종인 오토인코더(Autoencoder)는 멀티오믹스 데이터 통합을 위한 강력한 도구이다. 지도 신경망과 달리, 오토인코더는 샘플을 특정 목표값(예: 정상 또는 질병)에 매핑하지 않으며 결과를 예측하는 데 사용되지도 않습니다. 주요 응용 프로그램 중 하나는 차원 축소에 있습니다. 그러나 오토인코더는 주성분 분석(PCA), t-분산 확률적 이웃 임베딩(tSNE) 또는 균일 매니폴드 근사 및 투영(UMAP)과 같은 단순한 차원 축소 방법에 비해 몇 가지 이점을 제공합니다. PCA와 달리, 오토인코더는 데이터 내에서 비선형 관계를 캡처할 수 있습니다. tSNE 및 UMAP와 달리 각각 비선형 활성화 함수를 포함하는 여러 계층의 계산 단위에 의존하기 때문에 데이터 내에서 계층적 및 다중 모드 관계를 감지할 수 있습니다. 따라서 다중 오믹스 데이터의 복잡성을 포착할 수 있는 매력적인 모델을 나타냅니다. 마지막으로, PCA, tSNE 및 UMAP의 주요 응용 분야는 데이터를 클러스터링하는 것이지만, 오토인코더는 입력 데이터를 다운스트림 예측 작업에 적합한 추출된 특징으로 압축합니다^15,16.

간단히 말해서 신경망은 여러 계층으로 구성되며 각 계층에는 여러 계산 단위 또는 "뉴런"이 포함되어 있습니다. 첫 번째 계층과 마지막 계층은 각각 입력 계층과 출력 계층이라고 합니다. 오토인코더는 모래시계 구조를 가진 신경망으로, 입력 계층과 그 뒤에 1-3개의 은닉층, 그리고 일반적으로 2개에서 6개의 뉴런을 포함하는 작은 "잠재" 계층으로 구성됩니다. 이 구조의 전반부는 인코더라고 하며 인코더를 미러링하는 디코더와 결합됩니다. 디코더는 입력 계층과 동일한 개수의 뉴런을 포함하는 출력 계층으로 끝납니다. 오토인코더는 병목 현상을 통해 입력을 받아 출력 계층에서 재구성하며, 원래 정보를 최대한 가깝게 미러링하는 출력을 생성하는 것을 목표로 합니다. 이는 "재구성 손실"이라는 매개변수를 수학적으로 최소화함으로써 달성됩니다. 입력은 일련의 특징들로 구성되며, 본 명세서에 소개된 응용 프로그램에서는 단백질 및 대사 산물 풍부도, 그리고 임상적 특성(즉, 성별, 교육 및 사망 시 연령)이 될 것이다. 잠재층은 입력의 압축되고 정보가 풍부한 표현을 포함하며, 이는 예측 모델^(17,18)과 같은 후속 응용에 사용될 수 있다.

이 프로토콜은 다음을 포함하는 워크플로우인 DeepOmicsAE를 제공합니다: 1) 기계 학습 분석을 위한 일관된 규모의 데이터를 얻기 위해 단백질체학, 대사체학 및 임상 데이터의 전처리(즉, 정규화, 스케일링, 이상치 제거); 2) 기능 과부하가 관련 질병 패턴을 모호하게 할 수 있으므로 적절한 오토인코더 입력 기능을 선택합니다. 3) 선택할 단백질 및 대사 산물의 최적 수와 잠복층에 대한 뉴런의 수를 결정하는 것을 포함하여 오토인코더를 최적화하고 훈련합니다. 4) 잠재층으로부터 특징을 추출하는 단계; 5) 분자 신호 전달 모듈 및 임상 특징과의 관계를 식별하여 추출된 특징을 생물학적 해석에 활용합니다.

이 프로토콜은 Python을 사용한 프로그래밍에 대한 기본적인 이해가 있는 계산 경험이 제한된 생물학자가 간단하고 적용할 수 있도록 하는 것을 목표로 합니다. 이 프로토콜은 단백질체학, 대사체학 및 임상적 특징을 포함한 다중 오믹스 데이터 분석에 중점을 두지만, 전사체학을 포함한 다른 유형의 분자 발현 데이터로 사용을 확장할 수 있습니다. 이 프로토콜에 의해 도입된 한 가지 중요한 새로운 응용 프로그램은 원래 특징의 중요도 점수를 잠재층의 개별 뉴런에 매핑하는 것입니다. 그 결과, 잠복층의 각 뉴런은 특정 분자 변화와 환자의 임상적 특성 간의 상호 작용을 자세히 설명하는 신호 전달 모듈을 나타냅니다. 분자 신호전달 모듈의 생물학적 해석은 유전자/단백질 및 대사산물 데이터를 통합하여 농축된 대사 및 세포 신호전달 경로를 유도하는 공개적으로 이용 가능한 도구인 MetaboAnalyst를 사용하여 얻어진다¹⁷.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

참고: 여기에 사용된 데이터는 AD Knowledge 포털에서 다운로드한 ROSMAP 데이터입니다. 데이터를 다운로드하고 재사용하는 데 정보에 입각한 동의가 필요하지 않습니다. 여기에 제시된 프로토콜은 딥 러닝을 활용하여 다중 오믹스 데이터를 분석하고 예를 들어 진단을 기반으로 특정 환자 또는 샘플 그룹을 구별하는 신호 모듈을 식별합니다. 또한 이 프로토콜은 원래의 대규모 데이터를 요약하고 기계 학습 알고리즘을 사용한 예측 모델 학습과 같은 추가 분석에 사용할 수 있는 추출된 작은 기능 집합을 제공합니다(그림 1). 프로토콜을 수행하기 전에 코드 액세스 및 계산 환경 설정에 대한 정보는 보충 파일 1 및 자료 표를 참조하십시오. 방법은 아래에 지정된 순서에 따라 수행해야 합니다.

그림 1: DeepOmicsAE 워크플로우의 개략도. 워크플로우를 사용하여 다중 오믹스 데이터를 분석하기 위한 워크플로우의 개략적 표현. 오토인코더 묘사에서 사각형은 신경망의 계층을 나타내고 원은 계층 내의 뉴런을 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

1. 데이터 전처리

참고: 이 섹션의 목표는 누락된 데이터 처리를 포함하여 데이터를 전처리하는 것입니다. 단백질체, 대사체 발현 및 임상 데이터를 정규화하고 확장합니다. 이상치 제거. 이 프로토콜은 로그₂(비율)로 표현되는 단백질체학 데이터를 포함하는 데이터 세트를 위해 설계되었습니다. 접힘 변화로 표현되는 대사체학 데이터; 연속적이고 범주적인 특징을 포함한 임상적 특징. 환자 또는 샘플은 진단 또는 기타 유사한 매개변수를 기반으로 그룹화해야 합니다. 표본 또는 환자는 행에 걸쳐 있어야 하고 특징은 열에 걸쳐 있어야 합니다.

브라우저에서 Jupyter Notebook의 새 인스턴스를 시작하려면 새 터미널 창을 열고 다음을 입력한 다음 Enter 키를 누릅니다.
jupyter 노트북
브라우저의 Jupyter 홈페이지에서 Notebook M01 - expression data pre-processing.ipynb 를 클릭하여 새 탭에서 엽니다(보충 파일 2, 1.1단계).
Notebook의 두 번째 셀 에 your_dataset_name.csv 대신 데이터 세트 파일의 이름을 입력합니다.
Notebook의 마지막 셀 에서 M01_output_data.csv 대신 원하는 출력 데이터 파일 이름을 입력합니다.
Notebook의 다섯 번째 셀 에서 단백질체학 데이터(cols_prot), 대사체학 데이터(cols_met), 연속 임상 데이터(예: 나이)(cols_clin_con), 이진 임상 데이터(예: 성별)(cols_clin_bin)와 같이 각 데이터 유형에 대한 열의 위치를 지정합니다. 각 데이터 유형에 대한 첫 번째 열 인덱스를 col_start 대신 입력하고 마지막 열 인덱스를 col_end 대신 입력합니다. 예: cols_prot = slice(0, 8817). slice 객체에 지정된 값이 각 데이터 유형에 해당하는 첫 번째 열 및 마지막 열 인덱스에 해당하는지 확인합니다. 동일한 Notebook의 네 번째 셀(df.iloc[:, :])에 있는 명령을 사용하여 각 데이터 유형의 시작 및 끝 위치를 결정합니다(보충 파일 2, 1.2단계).
셀 선택 | Jupyter의 메뉴 모음에서 all을 실행하여 지정된 폴더에 출력 데이터 파일을 만듭니다(추가 파일 2, 1.3단계).
참고: 이 데이터는 섹션 2, 3 또는 4에 설명된 프로토콜에 대한 입력으로 사용됩니다.

2. 워크플로우의 사용자 지정 최적화(선택 사항)

참고: 섹션 2는 컴퓨터를 많이 사용하기 때문에 선택 사항입니다. 사용자는 섹션 2를 수행하지 않기로 결정한 경우 섹션 4로 바로 건너뛰어야 합니다. 이 프로토콜은 자동화된 방식으로 워크플로를 최적화하는 과정을 안내합니다. 구체적으로, 이 방법은 표본 그룹을 잘 분리하는 추출된 특징을 생성하는 측면에서 오토인코더의 최상의 성능을 제공하는 파라미터를 식별합니다. 출력값으로 생성되는 최적화된 파라미터에는 특징 선택에 사용할 특징 개수(k_prot 및 k_met)와 오토인코더 잠재 계층의 뉴런 개수(latent)가 포함됩니다. 그런 다음 섹션 3에 설명된 프로토콜에서 이러한 매개변수를 사용하여 모델을 생성할 수 있습니다.

브라우저의 Jupyter 홈페이지에서 노트북 M02 - DeepOmicsAE model optimization.ipynb 를 클릭하여 새 탭(보충 파일 2, 2.1단계)에서 엽니다.
Notebook의 두 번째 셀에 M01_output_data.csv 대신 입력 파일의 이름을 입력합니다. 이 함수에 대한 입력은 섹션 1의 출력 데이터입니다.
Notebook의 다섯 번째 셀에서 단백질체학 데이터(cols_X_prot), 대사체학 데이터(cols_X_met), 임상 데이터(cols_clin, 모든 임상 데이터 포함), 단백질체학 및 대사체학 데이터를 포함한 모든 분자 발현 데이터(cols_X_expr)와 같이 각 데이터 유형에 대한 열 위치를 지정합니다. 각 데이터 유형에 대한 첫 번째 열 인덱스를 col_start 대신 입력하고 마지막 열 인덱스를 col_end 대신 입력합니다. 예를 들어 , cols_prot = slice(0, 8817)입니다. slice 객체에 지정된 값이 각 데이터 유형에 해당하는 첫 번째 및 마지막 열 인덱스에 해당하는지 확인하고, Notebook의 세 번째 및 네 번째 셀에 있는 명령을 사용하여 데이터를 탐색하고 각 데이터 유형의 시작 및 끝 위치를 결정합니다. y_column_name 대신 대상 변수를 포함하는 열의 이름을 y_label 로 지정합니다(보충 파일 2, 2.2단계).
참고: cols_X_prot, cols_X_met, cols_clin 및 cols_X_expr 에 지정된 인덱스의 값은 데이터 전처리 중에 발생하는 데이터 프레임의 재구성으로 인해 섹션 1에서 사용된 값과 다릅니다.
Notebook의 여섯 번째 셀에서 n_comb에 값을 할당하여 수행할 최적화 라운드 수를 지정합니다. 처리 시간은 10 라운드에 대해 약 4-5 분입니다. 50 라운드의 경우 20 분, 100 라운드의 경우 40 분입니다 (보충 파일 2, 2.3 단계).
셀 선택 | Jupyter의 메뉴 모음에서 모두 실행합니다.
참고: 출력 변수 kprot, kmet 및 latent 가 저장되고 분석 워크플로를 계속하는 데 사용되는 다른 Notebook에서 액세스할 수 있습니다. 플롯 AE_optimization_plot.pdf 가 생성되어 로컬 폴더에 저장됩니다(그림 2).

3. 맞춤형으로 최적화된 매개변수를 사용한 워크플로우 구현

참고: 이 프로토콜은 Method Optimization(섹션 2)에 따라서만 수행하십시오. 사용자가 분석법 최적화를 수행하지 않기로 선택한 경우 섹션 4로 바로 건너뜁니다. 이 프로토콜은 섹션 2에서 파생된 사용자 지정 최적화 매개변수를 사용하여 모델을 생성하는 과정을 안내합니다. 오토인코더는 1) 원본 데이터를 요약하는 추출된 특징 세트를 생성하고 2) 잠재 계층의 각 뉴런을 구동하는 중요한 특징을 식별하여 고유한 신호 모듈을 효과적으로 나타냅니다. 시그널링 모듈은 섹션 5에 제공된 프로토콜을 사용하여 해석됩니다.

브라우저의 Jupyter 홈페이지에서 노트북 M03a - 사용자 지정 최적화된 parameters.ipynb가 포함된 DeepOmicsAE 구현 을 클릭하여 새 탭에서 엽니다(보충 파일 2, 3.1단계).
Notebook의 두 번째 셀에 M01_output_data.csv 대신 입력 파일의 이름을 입력합니다. 이 함수에 대한 입력은 섹션 1의 출력 데이터입니다.
Notebook의 다섯 번째 셀에서 단백질체학 데이터(cols_prot), 대사체학 데이터(cols_met), 임상 데이터(cols_clin, 모든 임상 데이터 포함)와 같이 각 데이터 유형에 대한 열의 위치를 지정합니다. 각 데이터 유형에 대한 첫 번째 열 인덱스를 col_start 대신 입력하고 마지막 열 인덱스를 col_end 대신 입력합니다. 예: cols_prot = slice(0, 8817). slice 객체에 지정된 값이 각 데이터 유형에 해당하는 첫 번째 열 및 마지막 열 인덱스에 해당하는지 확인하고, Notebook의 세 번째 및 네 번째 셀에 있는 명령을 사용하여 데이터를 탐색하고 각 데이터 유형의 시작 및 끝 위치를 결정합니다. 목표 변수를 포함하는 열의 이름(예: 0 또는 1, healthy 또는 diseased에 해당)을 y_column_name 대신 y_label로 지정합니다.
참고: cols_X_prot, cols_X_met, cols_clin 및 cols_X_expr 에 지정된 인덱스의 값은 데이터 전처리 중에 발생하는 데이터 프레임의 재구성으로 인해 섹션 1에서 사용된 값과 다릅니다.
셀 선택 | Jupyter의 메뉴 모음에서 모두 실행하여 플롯 PCA_initial_data.pdf, PCA_extracted_features.pdf 및 distribution_important_feature_scores.pdf를 생성하고 로컬 폴더에 저장합니다(그림 3 및 추가 그림 S1). 또한, 식별된 각 시그널링 모듈에 대한 중요한 기능 목록은 module_n.txt라는 로컬 폴더의 텍스트 파일에 저장되며, 여기서 n은 모듈 번호로 대체됩니다.

4. 사전 설정된 매개변수를 사용한 워크플로우 구현

이 방법을 실행하는 방법에 대한 자세한 지침은 섹션 3을 참조하십시오(보충 파일 2, 4.1단계). 이 두 프로토콜의 유일한 차이점은 매개 변수 kprot, kmet 및 latent (노트북의 일곱 번째 셀에 있음)가 그림 2와 같이 수행된 최적화 결과를 기반으로 수학적으로 파생된다는 것입니다.
참고: 섹션 4에서 샘플 그룹을 제대로 분리하지 못하여 최적이 아닌 모델 성능을 나타내는 경우 최소 15회, 가능한 경우 최대 50회까지 반복하여 모델 최적화(섹션 2)를 실행하는 것이 좋습니다.

5. MetaboAnalyst를 이용한 생물학적 해석

브라우저를 열고 아래 링크로 이동하여 MetaboAnalyst 웹 사이트(https://www.metaboanalyst.ca/MetaboAnalyst/upload/JointUploadView.xhtml)의 공동 경로 분석 기능에 액세스합니다.
Method 3 또는 Method 4의 출력 파일이 저장된 폴더에 액세스하고 Method 3 또는 Method 4에 의해 생성된 각 시그널링 모듈 n에 대해 module_n.txt 텍스트 파일을 엽니다.
텍스트 파일에서 단백질을 찾아 복사합니다.
MetaboAnalyst 웹 페이지의 Genes/proteins with optional fold changes 창에 단백질 목록을 붙여넣습니다.
대사 산물에 대해 위의 단계를 반복하고 동일한 웹 페이지에서 선택적 접기 변경 사항이 있는 복합 목록에 붙여넣습니다.
적절한 유기체 및 ID 유형을 선택한 다음 페이지 하단의 제출 을 클릭합니다(보충 파일 2, 5.1단계).
참고: MetaboAnalyst에서 식별자를 인식하는지 확인합니다. 인식된 식별자에는 Entrez ID, 공식 유전자 기호 및 단백질에 대한 Uniprot ID가 포함됩니다. 대사 산물에 대한 화합물 이름, HMDB ID 및 KEGG ID. 식별자가 이러한 형식이 아닌 경우 분석 전에 적절한 변환이 필요합니다.
다음 페이지에서 진행 을 클릭하기 전에 ID 매핑을 확인하여 식별자가 인식되고 있는지 확인합니다.
파라미터 설정 페이지에서 대사 경로(통합) 또는 모든 경로(통합)를 선택하여 대사 경로에만 또는 모든 신호 경로에 대한 입력의 기여도를 각각 시각화합니다(보충 파일 2, 5.2단계). 알고리즘 선택 패널에서 보강 분석: 초기하학적 테스트, 토폴로지 측정: 차수 중심성 및 적분 방법: p 값 결합(경로 수준)을 선택합니다. 페이지 하단의 Submit(제출)을 클릭합니다.
마지막 페이지는 보강 분석의 결과를 제공하는 결과 보기입니다. 강화된 경로는 영향과 중요성에 따라 표시되며 경로 목록도 표 형식으로 제공됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

프로토콜을 선보이기 위해 건강하거나 알츠하이머병 진단을 받은 142명의 사후 뇌에서 파생된 단백질체, 대사체 및 임상 정보로 구성된 데이터 세트를 분석했습니다.

데이터를 전처리하기 위해 프로토콜 섹션 1을 수행한 후 데이터 세트에는 6,497개의 단백질, 443개의 대사 산물 및 3가지 임상 특징(성별, 사망 연령 및 교육)이 포함되었습니다. 표적 특징은 사망 시 인지 상태에 대한 임상적 합의 진단으로, 인지 장애(CI)가 없는 경우 1, 알츠하이머 치매 및 CI의 다른 원인에 대해 4의 값을 갖는 cogdx로 코드화됩니다. 80명의 환자는 건강한 상태였고 62명은 알츠하이머병에 걸린 것으로 진단되었습니다. 프로토콜 섹션 2는 매개변수 kprot, kmet 및 latent에 대한 최적 값을 결정하기 위해 구현되었습니다. 최적화 알고리즘은 모델 파라미터의 다양한 조합을 사용하여 특징 선택 및 특징 추출을 수행합니다. 그런 다음 입력 데이터와 추출된 특징에 대한 PCA 실루엣 점수를 계산하고 반환합니다. 최적화 방법을 통해 kprot 및 kmet에 대해 가능한 값의 범위가 낮을수록 두 환자 그룹 간의 분리 정도가 높아지는 반면, 잠복층의 뉴런 수는 모델의 성능에 큰 영향을 미치지 않는 것으로 나타났습니다(그림 2).

그림 2: 파라미터 최적화 결과. 프로토콜 섹션 2에 대한 반복 횟수는 212로 설정하고, 건강한 그룹과 알츠하이머병 그룹 간의 분리 정도를 PCA 실루엣 점수(추출된 특징에 대한 PCA에 대한 실루엣 점수)를 기반으로 시각화했습니다. 잠재 계층의 뉴런 수는 거품 크기(잠재)로 표시되고, 단백질체학 데이터(kprot)와 대사체학 데이터(kmet)에 대해 선택된 특징의 개수는 각각 x축과 y축에 플로팅됩니다. 약어: PCA = 주성분 분석. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

프로토콜 섹션 3은 상술한 바와 같이 도출된 최적화된 파라미터들을 이용하여 추출된 특징들과 시그널링 모듈들을 획득하기 위해 적용되었다. 간단히 말해서, 이 모델은 잠복층에서 804개의 단백질, 67개의 대사 산물 및 4개의 뉴런을 사용하도록 최적화되었습니다. 진단 그룹은 원래 특징(실루엣 점수 = 0.019)보다 추출된 특징(실루엣 점수 = 0.019)으로 더 잘 구분되었지만, 원래 특징으로는 분리되지 않았으며, 이는 추출된 특징이 질병 상태를 결정하는 데 중요한 정보를 포착한다는 것을 보여줍니다(그림 3). 잠재 계층의 각 뉴런에 대한 원래 특징의 중요도 점수는 보충 그림 S1에 표시되어 있습니다. 각 뉴런을 정의하는 중요한 특징은 각 뉴런에 대한 특징 점수 값의 상위 10^번째 백분위수로 선택되었습니다. 뉴런과 선택된 특징 세트 사이의 겹침은 제한되어 있으며, 이는 잠복층의 각 뉴런이 알츠하이머병을 유발하는 신호 전달 사건의 뚜렷한 측면에 초점을 맞추고 있음을 보여줍니다(보충 그림 S2A). 또한 DeepOmicsAE로 식별된 중요한 특징과 PCA로 식별된 특징 간의 중복도 낮기 때문에 다중 오믹스 데이터를 포괄적으로 이해하기 위해 비선형 관계를 캡처하는 것이 중요합니다(보충 그림 S2B).

그림 3: 질병 그룹을 분리하기 위한 필수 정보를 포함하는 추출된 특징. (A) 입력 특징에 대한 PCA. (B) 추출된 특징에 대한 PCA. 약어: PCA = 주성분 분석. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

프로토콜 섹션 5는 상술한 바와 같이 얻어진 시그널링 모듈들을 해석하기 위해 수행되었다. MetaboAnalyst는 각 신호 전달 모듈에 대해 뚜렷한 대사 및 신호 전달 경로의 농축을 확인했습니다(그림 4 및 보충 파일 3). 특히, DeepOmicsAE는 임상 특징과 신호 모듈 사이에서 발생하는 상호 작용을 특성화합니다. 예를 들어, 사망 시 성별과 나이는 알츠하이머병 환자의 글리세로지질 대사 변화와 관련이 있습니다(모듈 3). 즉, 이 대사 경로의 변화는 특정 성별 및 연령의 환자 하위 그룹에서 질병을 결정할 가능성이 더 높습니다. 반대로, 시냅스와 축삭돌기 기능의 변화(모듈 2)는 성별, 교육 수준 및 수명에 관계없이 알츠하이머병 환자에서 발생하는 경향이 있습니다. 본 명세서에 제시된 결과에 기초하여, 오토인코더 잠재층의 각 뉴런은 질병을 유발하는 뚜렷한 신호전달 모듈을 나타낸다는 결론을 내릴 수 있다.

그림 4: 뚜렷한 신호 모듈에 해당하는 잠재층의 뉴런. 잠재층의 각 뉴런에서 파생된 중요한 특징에 대한 MetaboAnalyst를 사용한 분석에서 얻은 결과의 개략도입니다. 농축 경로는 0.25 이상의 영향 점수와 0.05 미만의 FDR을 기준으로 선택되었습니다. 또한, "경로 중요도 - 공동 점수"는 각 경로에 대해 음의 로그₁₀FDR 값을 갖는 영향 점수의 곱으로 계산되었으며, "공동 점수"가 0.55 이상인 경로가 보고되었습니다. 마지막으로, 각 신호 전달 모듈에서 개별 임상 특징의 중요도 점수가 막대 플롯의 y축에 표시됩니다. 약어: FDR = false discovery rate. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 파일 1: 프로토콜을 수행하기 전에 코드에 액세스하고 계산 환경을 설정하기 위한 정보입니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

추가 파일 2: 프로토콜 구현 방법에 대한 시각적 설명을 제공하는 스크린샷. 각 신호 모듈에 풍부한 상위 경로. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 3: MetaboAnalyst의 보강 분석 결과. 탭 1: 모든 보강된 용어. 탭 2: 각 신호 모듈에서 보강된 상위 경로. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 4: 함수 및 jupyter Notebook을 포함한 코드 파일. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 S1: 각 신호 모듈의 기능에 대한 중요도 점수 분포. 중요도 값은 스케일링되고 잠재 계층의 뉴런에 해당하는 각 모듈에 대해 분포가 표시되었습니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 S2: DeepOmicsAE에 의해 생성된 신호 모듈은 고유한 정보를 제공합니다. (A) 각 시그널링 모듈에 포함된 특징들 간의 중첩 크기는 철근들의 높이로 표시된다. 선으로 연결된 검은색 점은 플롯의 각 막대로 표시되는 중첩 집합을 나타냅니다. (B) DeepOmicsAE로 도출된 4개의 시그널링 모듈에 포함된 모든 특징과 PCA를 사용하여 얻은 상위 100개의 중요한 특징 간의 중첩을 나타내는 벤 다이어그램. 약어: PCA = 주성분 분석. 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

데이터 세트의 구조는 프로토콜의 성공에 매우 중요하며 주의 깊게 확인해야 합니다. 데이터는 프로토콜 섹션 1에 표시된 대로 형식이 지정되어야 합니다. 컬럼 위치의 올바른 할당도 방법의 성공에 매우 중요합니다. 단백질체학 및 대사체학 데이터는 서로 다른 방식으로 전처리되며, 데이터의 특성이 다르기 때문에 특징 선택이 별도로 수행됩니다. 따라서 프로토콜 단계 1.5, 2.3 및 3.3에서 열 위치를 올바르게 할당하는 것이 중요합니다.

임상 데이터에 숫자가 아닌 데이터 유형(연속 또는 이진 값)이 포함된 경우 프로토콜 섹션 1의 메서드를 실행하는 동안 오류가 발생할 수 있습니다. 이 문제를 해결하기 위해 사용자는 수치 임상 데이터만 포함하도록 데이터 세트를 수정할 수 있습니다. 예를 들어, 성별과 같은 범주형 데이터는 이진 숫자 데이터로 변환될 수 있습니다. 또 다른 문제는 데이터 세트가 프로토콜 섹션 1-단백질체학 데이터, 대사체학, 임상에 지정된 대로 정렬되지 않은 경우 발생할 수 있는 데이터 전처리 오류입니다. 목표 변수(예: 진단, 등급, 병기, 치료)는 데이터 세트의 마지막 열에 포함되어야 합니다. 프로토콜을 시작하기 전에 데이터를 적절하게 재정렬하십시오. 신호 전달 모듈의 생물학적 해석을 위해 유전자 온톨로지 또는 유전자 세트 농축 분석을 활용하는 것도 가능합니다. 그러나 MetaboAnalyst는 대사 데이터를 분석에 통합하여 포괄적인 데이터 해석을 제공하는 이점을 제공합니다.

이 방법은 log_{2-transformed} ratio로 표현되는 단백질체학 데이터와 fold 변화로 표현되는 대사체학 데이터의 분석에 최적화되어 있습니다. 이는 다른 데이터 유형에 대한 적용 가능성을 제한하기 때문에 방법의 잠재적인 제한을 구성합니다. 그러나 데이터 전처리 스크립트(F01_data_preprocessing_function.py, 보충 파일 4 참조)에 수정을 도입하여 전사체학 데이터와 같은 다른 유형의 분자 발현 데이터에 맞게 조정할 수 있습니다. 최적화 알고리즘(프로토콜 섹션 2)의 실행은 시간이 많이 걸리고 많은 사용자에게 실용적이지 않을 수 있습니다. 이 문제를 해결할 수 있는 방법은 반복 횟수를 제한하는 것입니다. 각 최적화 라운드는 그림 2에 표시된 것과 같은 플롯에 대해 하나의 데이터 포인트를 생성합니다. PCA(오토인코더로 추출한 특징에 대한 PCA 실루엣 점수 분리의 상위 10^번째 백분위수)를 기반으로 더 나은 그룹 분리에 해당하는 데이터 점을 선택하고 선택한 하위 집합 내의 평균값으로 kprot, kmet 및 latent에 대한 최적 값을 계산하는 데 사용합니다("M02 - DeepOmicsAE model optimization.ipynb" 참조). 평균값을 계산하는 데 사용되는 데이터 포인트가 많을수록 최적의 모델 성능을 위한 매개변수 추정치가 더 정확해집니다. F02의 알고리즘은 최적화할 매개변수에 사용할 수 있는 값의 범위를 채우도록 설계되었으므로 15-20번의 반복으로 모델 매개변수의 최적 값에 대한 적절한 추정치를 얻을 수 있습니다. 또 다른 가능성은 프로토콜 섹션 2를 건너뛰고 사전 최적화가 필요하지 않은 프로토콜 섹션 4를 직접 사용하는 것입니다.

오토인코더는 차원 축소에 널리 사용되는 도구입니다^14,18. DeepOmicsAE는 특히 오토인코더 잠재층(^19,20)에서 추출된 정보의 해석 가능성 측면에서 기존 접근법에 비해 몇 가지 중요한 개선을 제공합니다. 첫째, 워크플로우는 워크플로우 매개변수에 대한 최적 값이 선택되도록 하는 자동화된 최적화 단계를 제공합니다. 둘째, 오토인코더는 PCA로 측정한 건강한 환자와 알츠하이머병 환자 간의 분리 정도를 모델 성능의 척도로 활용합니다(결과 기반 검증). 셋째, 잠재층의 각 뉴런에 대한 원래 특징의 중요성을 계산하여 딥러닝 모델을 해석하기 위한 새로운 수학적 접근 방식을 제공합니다. 이를 위해 모든 특징에 대해 약간의 섭동이 발생하고 잠재 계층의 각 뉴런에서 발생하는 결과 변화가 계산됩니다. 이 방법은 각 뉴런에 대한 모든 샘플의 절대 변화를 평균화하여 주어진 뉴런을 기준으로 각 특징에 대한 중요도 점수를 계산하며, 여기서 값이 클수록 더 영향력 있는 특징을 의미합니다. 알츠하이^머병의 맥락에서 분자 발현 데이터를 분석하기 위해 이전에 다른 딥러닝 방법이 사용^{되었지만, 오토}인코더는 응용 분야가 제한적이었습니다. 이전 방법과 비교하여, 본원에 제시된 워크플로우는 임상적 특징과 분자 신호전달 사건 사이의 상호작용을 식별할 수 있다. 또한 DeepOmicsAE는 알츠하이머병의 발병과 진행을 이해하기 위해 단백질체, 중수염체 및 임상 데이터의 통합에 중점을 둔 최초의 워크플로우입니다.

신경퇴행성 질환의 다중질환은 아직 잘 확립되지 않았습니다. 이 연구는 알츠하이머병 환자의 기능적 분자 환경(즉, 단백질체 및 대사체)과 임상적 특성을 분석하기 위해 고안된 방법을 제시합니다. 이전 연구는 신경 퇴행에서 신진 대사의 중요성에 대한 단서를 제공했습니다 23,24,25; 그러나 아직도 이해해야 할 것이 많습니다. DeepOmicsAE는 알츠하이머병의 진행에 기여하는 여러 생물학적 과정을 정확하게 식별하므로 고차원 데이터에서 관련 생물학적 정보를 추출하는 강력한 도구입니다. 여기에는 글루타마테르성 시냅스의 조절 장애, 축삭 유도 및 장기 강화가 포함됩니다(그림 4)^26,27. 그 중에서도 글루마테르 시스템은 질병 치료를 위한 잘 알려진 치료 표적이다²⁸. 이 방법의 중요한 응용 프로그램 중 하나는 질병 상태를 예측하기 위한 모델을 학습하는 데 사용할 수 있는 추출된 기능 집합을 제공한다는 것입니다. 그러나 오토인코더는 뉴런 내에 포함된 함수의 가중치가 무작위로 초기화되기 때문에 본질적으로 불안정합니다. 따라서 앞으로의 작업은 안정성을 높이기 위한 전략을 개발하는 데 중점을 두어야 합니다. 이러한 작업은 예측 작업에 더 적합한 강력한 추출된 기능을 출력하는 보다 일반화 가능한 모델을 생성합니다. 이 워크플로우의 두 번째 주요 응용 분야는 단백질체, 중태생물학 및 임상 정보 계층 간의 상호 작용을 해석하는 데 사용할 수 있으며(그림 4) 특정 임상 특징이 분자 패턴과 상호 작용하는 방식에 대한 통찰력을 제공한다는 것입니다. 따라서 이 워크플로우는 뚜렷한 임상적 특징을 가진 하위 모집단의 질병 동인에 대한 새로운 지식을 생성할 수 있습니다.

요약하자면, DeepOmicsAE는 분자 발현 데이터 및 임상 특징에 특히 중점을 둔 다중 오믹스 데이터 분석을 위한 워크플로우를 제공합니다. 워크플로우는 전사체학 데이터를 분석하는 데 적용할 수 있을 뿐만 아니라 암, 당뇨병, 심장, 폐 또는 신장 질환을 포함한 다양한 질병의 데이터 세트를 연구하는 데 활용할 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 이해 상충이 없다고 선언합니다.

Acknowledgments

이 연구는 NIH 보조금 CA201402와 코넬 척추동물 유전체학 센터(CVG) 우수 학자 상(Distinguished Scholar Award)의 지원을 받았습니다. 여기에 게시된 결과는 전체 또는 일부가 AD 지식 포털(https://adknowledgeportal.org)에서 얻은 데이터를 기반으로 합니다. 연구 데이터는 시카고 러시 대학 메디컬 센터(Rush University Medical Center)의 러시 알츠하이머병 센터(Rush Alzheimer's Disease Center)에서 제공한 샘플을 기반으로 AD를 위한 가속 의학 파트너십(Accelerating Medicine Partnership for AD, U01AG046161 and U01AG061357)을 통해 제공되었습니다. 데이터 수집은 NIA 보조금 P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Department of Public Health 및 Translational Genomics Research Institute의 자금 지원을 통해 지원되었습니다. 대사체학 데이터 세트는 Metabolon에서 생성되었으며 ADMC에 의해 전처리되었습니다.

Materials

Name	Company	Catalog Number	Comments
Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

DOWNLOAD MATERIALS LIST

References

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
A unified approach to interpreting model predictions. Lundberg, S. M., Allen, P. G., Lee, S. -I. 31st Conference on Neural Information Processing Systems (NIPS 2017), , Long Beach, CA, USA. (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders - Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Biology

DeepOmicsAE: 단백질체학, 대사체학 및 임상 데이터의 딥러닝 분석을 통한 알츠하이머병의 신호 모듈 표현

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.