DeepOmicsAE: Representing Signaling Modules in Alzheimer's Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data

Elena Panizza

doi:10.3791/65910

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biologia

DeepOmicsAE: प्रोटिओमिक्स, मेटाबोलॉमिक्स और क्लिनिकल डेटा के गहन शिक्षण विश्लेषण के साथ अल्जाइमर रोग में सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करना

Published: December 15, 2023

doi:

10.3791/65910

Elena Panizza

¹Department of Molecular Medicine,Cornell University

Summary

DeepOmicsAE मल्टी-ओमिक्स डेटा की आयामीता को कम करने के लिए एक गहरी सीखने की विधि (यानी, एक ऑटोएन्कोडर) के अनुप्रयोग पर केंद्रित एक वर्कफ़्लो है, जो भविष्य कहनेवाला मॉडल और सिग्नलिंग मॉड्यूल के लिए एक आधार प्रदान करता है जो ओमिक्स डेटा की कई परतों का प्रतिनिधित्व करता है।

Abstract

मानव स्वास्थ्य में अनुसंधान के लिए बड़े ओमिक्स डेटासेट तेजी से उपलब्ध हो रहे हैं। यह पेपर डीपओमिक्सएई प्रस्तुत करता है, जो प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा सहित मल्टी-ओमिक्स डेटासेट के विश्लेषण के लिए अनुकूलित वर्कफ़्लो है। यह वर्कफ़्लो उच्च-आयामी मल्टी-ओमिक्स इनपुट डेटा से सुविधाओं का एक संक्षिप्त सेट निकालने के लिए ऑटोएन्कोडर नामक एक प्रकार के तंत्रिका नेटवर्क को नियोजित करता है। इसके अलावा, वर्कफ़्लो ऑटोएन्कोडर को लागू करने के लिए आवश्यक प्रमुख मापदंडों को अनुकूलित करने के लिए एक विधि प्रदान करता है। इस वर्कफ़्लो को प्रदर्शित करने के लिए, नैदानिक डेटा का विश्लेषण 142 व्यक्तियों के एक समूह से किया गया था जो या तो स्वस्थ थे या अल्जाइमर रोग का निदान किया गया था, साथ ही उनके पोस्टमॉर्टम मस्तिष्क के नमूनों के प्रोटिओम और मेटाबोलोम के साथ। ऑटोएन्कोडर की अव्यक्त परत से निकाली गई विशेषताएं जैविक जानकारी को बनाए रखती हैं जो स्वस्थ और रोगग्रस्त रोगियों को अलग करती हैं। इसके अलावा, व्यक्तिगत निकाली गई विशेषताएं अलग-अलग आणविक सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करती हैं, जिनमें से प्रत्येक व्यक्तियों की नैदानिक विशेषताओं के साथ विशिष्ट रूप से बातचीत करती है, जो प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा को एकीकृत करने के लिए एक साधन प्रदान करती है।

Introduction

जनसंख्या का एक बड़ा हिस्सा उम्र बढ़ रहा है और उम्र से संबंधित बीमारियों का बोझ, जैसे कि न्यूरोडीजेनेरेशन, आने^{वाले दशकों में} तेजी से बढ़ने की उम्मीद है। अल्जाइमर रोग न्यूरोडीजेनेरेटिव बीमारी का सबसे आम प्रकार है². रोग की शुरुआत और प्रगति को चलाने वाले मौलिक आणविक तंत्र की हमारी खराब समझ को देखते हुए उपचार खोजने में प्रगति धीमी रही है। अल्जाइमर रोग के बारे में अधिकांश जानकारी मस्तिष्क के ऊतकों की परीक्षा से पोस्टमॉर्टम प्राप्त की जाती है, जिसने विशिष्ट कारणों और परिणामों को एक मुश्किल काम बना दिया^है। मेमोरी एंड एजिंग प्रोजेक्ट (ROSMAP) न्यूरोडीजेनेरेशन की व्यापक समझ हासिल करने के लिए एक महत्वाकांक्षी प्रयास है, जिसमें हजारों व्यक्तियों का अध्ययन शामिल है जो वार्षिक रूप से चिकित्सा और मनोवैज्ञानिक परीक्षाओं से गुजरने और अनुसंधान के लिए अपने दिमाग का योगदान करने के लिए प्रतिबद्ध^हैं। अध्ययन मस्तिष्क के सामान्य कामकाज से अल्जाइमर रोग² में संक्रमण पर केंद्रित है। परियोजना के भीतर, पोस्टमॉर्टम मस्तिष्क के नमूनों का विश्लेषण जीनोमिक्स, एपिजेनोमिक्स, ट्रांसक्रिप्टोमिक्स, प्रोटिओमिक्स⁵ और मेटाबोलॉमिक्स सहित ओमिक्स दृष्टिकोणों के ढेरों के साथ किया गया था।

ओमिक्स प्रौद्योगिकियां जो सेलुलर राज्यों (यानी, प्रोटिओमिक्स और मेटाबोलॉमिक्स)^6,7 के कार्यात्मक रीडआउट प्रदान करती हैं, प्रोटीन और मेटाबोलाइट बहुतायत और सेलुलर गतिविधियों के बीच सीधे संबंध के कारण रोग 8,9,10,11,12 की व्याख्या करने के लिए महत्वपूर्ण हैं। प्रोटीन सेलुलर प्रक्रियाओं के प्राथमिक निष्पादक हैं, जबकि मेटाबोलाइट्स जैव रासायनिक प्रतिक्रियाओं के लिए सब्सट्रेट और उत्पाद हैं। मल्टी-ओमिक्स डेटा विश्लेषण अलगाव में उनकी सराहना करने के बजाय प्रोटिओमिक्स और मेटाबोलामिक्स डेटा के बीच जटिल संबंधों को समझने की संभावना प्रदान करता है। मल्टी-ओमिक्स एक अनुशासन है जो आणविक डेटा (जीनोम अनुक्रम और उत्परिवर्तन, प्रतिलेखन, प्रोटिओम, मेटाबोलोम), नैदानिक इमेजिंग डेटा और नैदानिक विशेषताओं सहित उच्च-आयामी जैविक डेटा की कई परतों का अध्ययन करता है। विशेष रूप से, मल्टी-ओमिक्स डेटा विश्लेषण का उद्देश्य जैविक डेटा की ऐसी परतों को एकीकृत करना, उनके पारस्परिक विनियमन और बातचीत की गतिशीलता को समझना और रोग की शुरुआत और प्रगति की समग्र समझ प्रदान करना है। हालांकि, बहु-ओमिक्स डेटा को एकीकृत करने के तरीके विकास¹³ के प्रारंभिक चरणों में बने हुए हैं।

ऑटोएन्कोडर, एक प्रकार का असुरक्षित तंत्रिका नेटवर्क¹⁴, मल्टी-ओमिक्स डेटा एकीकरण के लिए एक शक्तिशाली उपकरण है। पर्यवेक्षित तंत्रिका नेटवर्क के विपरीत, ऑटोएन्कोडर नमूनों को विशिष्ट लक्ष्य मूल्यों (जैसे स्वस्थ या रोगग्रस्त) में मैप नहीं करते हैं, न ही उनका उपयोग परिणामों की भविष्यवाणी करने के लिए किया जाता है। उनके प्राथमिक अनुप्रयोगों में से एक आयामीता में कमी में निहित है। हालांकि, ऑटोएन्कोडर सरल आयामीता में कमी के तरीकों जैसे प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए), टी-डिस्ट्रीब्यूटेड स्टोकेस्टिक नेबर एम्बेडिंग (टीएसएनई), या यूनिफॉर्म मैनिफोल्ड सन्निकटन और प्रोजेक्शन (यूएमएपी) पर कई फायदे प्रदान करते हैं। पीसीए के विपरीत, ऑटोएन्कोडर डेटा के भीतर गैर-रैखिक संबंधों को पकड़ सकते हैं। टीएसएनई और यूएमएपी के विपरीत, वे डेटा के भीतर पदानुक्रमित और बहु-मोडल संबंधों का पता लगा सकते हैं क्योंकि वे कम्प्यूटेशनल इकाइयों की कई परतों पर भरोसा करते हैं जिनमें से प्रत्येक में गैर रैखिक सक्रियण कार्य होते हैं। इसलिए, वे मल्टी-ओमिक्स डेटा की जटिलता को पकड़ने के लिए आकर्षक मॉडल का प्रतिनिधित्व करते हैं। अंत में, जबकि पीसीए, tSNE, और यूएमएपी के प्राथमिक अनुप्रयोग डेटा क्लस्टरिंग की है कि, autoencoders निकाला सुविधाओं है कि अच्छी तरह से बहाव भविष्य कहनेवाला कार्यों^15,16 के लिए अनुकूल हैं में इनपुट डेटा संपीड़ित.

संक्षेप में, तंत्रिका नेटवर्क में कई परतें होती हैं, जिनमें से प्रत्येक में कई कम्प्यूटेशनल इकाइयां या “न्यूरॉन्स” होते हैं। पहली और आखिरी परतों को क्रमशः इनपुट और आउटपुट परतों के रूप में जाना जाता है। ऑटोएन्कोडर एक घंटे का चश्मा संरचना के साथ तंत्रिका नेटवर्क होते हैं, जिसमें एक इनपुट परत होती है, इसके बाद एक से तीन छिपी हुई परतें और एक छोटी “अव्यक्त” परत होती है जिसमें आमतौर पर दो और छह न्यूरॉन्स होते हैं। इस संरचना की पहली छमाही को एनकोडर के रूप में जाना जाता है और इसे एनकोडर को प्रतिबिंबित करने वाले डिकोडर के साथ जोड़ा जाता है। डिकोडर एक आउटपुट परत के साथ समाप्त होता है जिसमें इनपुट परत के समान न्यूरॉन्स होते हैं। ऑटोएन्कोडर अड़चन के माध्यम से इनपुट लेते हैं और आउटपुट परत में इसे फिर से संगठित करते हैं, एक आउटपुट उत्पन्न करने के लक्ष्य के साथ जो मूल जानकारी को यथासंभव बारीकी से प्रतिबिंबित करता है। यह गणितीय रूप से “पुनर्निर्माण हानि” नामक पैरामीटर को कम करके प्राप्त किया जाता है। इनपुट में सुविधाओं का एक सेट होता है, जो यहां दिखाए गए एप्लिकेशन में प्रोटीन और मेटाबोलाइट बहुतायत, और नैदानिक विशेषताओं (यानी, लिंग, शिक्षा और मृत्यु पर उम्र) होगा। अव्यक्त परत इस तरह के भविष्य कहनेवाला मॉडल^17,18 के रूप में बाद के अनुप्रयोगों के लिए इस्तेमाल किया जा सकता है जो इनपुट की एक संकुचित और सूचना से भरपूर प्रतिनिधित्व होता ^है.

यह प्रोटोकॉल एक वर्कफ़्लो, डीपओमिक्स एई प्रस्तुत करता है, जिसमें शामिल हैं: 1) मशीन लर्निंग विश्लेषण के लिए एक सुसंगत पैमाने के साथ डेटा प्राप्त करने के लिए प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा (यानी, सामान्यीकरण, स्केलिंग, बाहरी हटाने) का प्रीप्रोसेसिंग; 2) उपयुक्त ऑटोएन्कोडर इनपुट सुविधाओं का चयन करना, क्योंकि सुविधा अधिभार प्रासंगिक रोग पैटर्न को अस्पष्ट कर सकता है; 3) ऑटोएन्कोडर का अनुकूलन और प्रशिक्षण, जिसमें चयन करने के लिए प्रोटीन और चयापचयों की इष्टतम संख्या निर्धारित करना और अव्यक्त परत के लिए न्यूरॉन्स शामिल हैं; 4) अव्यक्त परत से सुविधाओं को निकालने; और 5) आणविक सिग्नलिंग मॉड्यूल और नैदानिक सुविधाओं के साथ उनके संबंधों की पहचान करके जैविक व्याख्या के लिए निकाले गए सुविधाओं का उपयोग करना।

इस प्रोटोकॉल का उद्देश्य सीमित कम्प्यूटेशनल अनुभव वाले जीवविज्ञानी द्वारा सरल और लागू होना है, जिनके पास पायथन के साथ प्रोग्रामिंग की बुनियादी समझ है। प्रोटोकॉल प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक सुविधाओं सहित मल्टी-ओमिक्स डेटा का विश्लेषण करने पर केंद्रित है, लेकिन इसके उपयोग को ट्रांसक्रिप्टोमिक्स सहित अन्य प्रकार के आणविक अभिव्यक्ति डेटा तक बढ़ाया जा सकता है। इस प्रोटोकॉल द्वारा शुरू की एक महत्वपूर्ण उपन्यास आवेदन अव्यक्त परत में व्यक्तिगत न्यूरॉन्स पर मूल सुविधाओं के महत्व स्कोर मानचित्रण है. नतीजतन, अव्यक्त परत में प्रत्येक न्यूरॉन एक सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करता है, जो विशिष्ट आणविक परिवर्तनों और रोगियों की नैदानिक विशेषताओं के बीच बातचीत का विवरण देता है। आणविक सिग्नलिंग मॉड्यूल की जैविक व्याख्या MetaboAnalyst, एक सार्वजनिक रूप से उपलब्ध उपकरण है कि जीन / प्रोटीन और मेटाबोलाइट डेटा को एकीकृत समृद्ध चयापचय और सेल संकेत रास्ते¹⁷ प्राप्त करने के द्वारा प्राप्त की है.

Protocol

नोट: यहाँ उपयोग किया गया डेटा AD नॉलेज पोर्टल से डाउनलोड किया गया ROSMAP डेटा था. डेटा को डाउनलोड करने और पुन: उपयोग करने के लिए सूचित सहमति की आवश्यकता नहीं है। यहां प्रस्तुत प्रोटोकॉल मल्टी-ओमिक्स डेटा का व?…

Representative Results

प्रोटोकॉल का प्रदर्शन करने के लिए, हमने 142 व्यक्तियों के पोस्टमॉर्टम दिमाग से प्राप्त प्रोटिओम, मेटाबोलोम और नैदानिक जानकारी वाले डेटासेट का विश्लेषण किया, जो या तो स्वस्थ थे या अल्जाइमर रोग से पीड़ित …

Discussion

डेटासेट की संरचना प्रोटोकॉल की सफलता के लिए महत्वपूर्ण है और इसे सावधानीपूर्वक जांचा जाना चाहिए। डेटा को प्रोटोकॉल अनुभाग 1 में बताए अनुसार स्वरूपित किया जाना चाहिए। स्तंभ पदों का सही असाइनमेंट विधि…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

इस काम को एनआईएच ग्रांट CA201402 और कॉर्नेल सेंटर फॉर वर्टेब्रेट जीनोमिक्स (सीवीजी) डिस्टिंग्विश्ड स्कॉलर अवार्ड द्वारा समर्थित किया गया था। यहां प्रकाशित परिणाम संपूर्ण या आंशिक रूप से AD नॉलेज पोर्टल (https://adknowledgeportal.org) से प्राप्त डेटा पर आधारित हैं। अध्ययन डेटा रश अल्जाइमर रोग केंद्र, रश यूनिवर्सिटी मेडिकल सेंटर, शिकागो द्वारा प्रदान किए गए नमूनों के आधार पर एडी (U01AG046161 और U01AG061357) के लिए त्वरित चिकित्सा साझेदारी के माध्यम से प्रदान किए गए थे। डेटा संग्रह एनआईए अनुदान P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, सार्वजनिक स्वास्थ्य के इलिनोइस विभाग, और ट्रांसलेशनल जीनोमिक्स रिसर्च इंस्टीट्यूट द्वारा वित्त पोषण के माध्यम से समर्थित किया गया था। मेटाबोलॉमिक्स डेटासेट मेटाबोलन में उत्पन्न किया गया था और एडीएमसी द्वारा प्रीप्रोसेस किया गया था।

Materials

Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

Riferimenti

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below