DeepOmicsAE मल्टी-ओमिक्स डेटा की आयामीता को कम करने के लिए एक गहरी सीखने की विधि (यानी, एक ऑटोएन्कोडर) के अनुप्रयोग पर केंद्रित एक वर्कफ़्लो है, जो भविष्य कहनेवाला मॉडल और सिग्नलिंग मॉड्यूल के लिए एक आधार प्रदान करता है जो ओमिक्स डेटा की कई परतों का प्रतिनिधित्व करता है।
मानव स्वास्थ्य में अनुसंधान के लिए बड़े ओमिक्स डेटासेट तेजी से उपलब्ध हो रहे हैं। यह पेपर डीपओमिक्सएई प्रस्तुत करता है, जो प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा सहित मल्टी-ओमिक्स डेटासेट के विश्लेषण के लिए अनुकूलित वर्कफ़्लो है। यह वर्कफ़्लो उच्च-आयामी मल्टी-ओमिक्स इनपुट डेटा से सुविधाओं का एक संक्षिप्त सेट निकालने के लिए ऑटोएन्कोडर नामक एक प्रकार के तंत्रिका नेटवर्क को नियोजित करता है। इसके अलावा, वर्कफ़्लो ऑटोएन्कोडर को लागू करने के लिए आवश्यक प्रमुख मापदंडों को अनुकूलित करने के लिए एक विधि प्रदान करता है। इस वर्कफ़्लो को प्रदर्शित करने के लिए, नैदानिक डेटा का विश्लेषण 142 व्यक्तियों के एक समूह से किया गया था जो या तो स्वस्थ थे या अल्जाइमर रोग का निदान किया गया था, साथ ही उनके पोस्टमॉर्टम मस्तिष्क के नमूनों के प्रोटिओम और मेटाबोलोम के साथ। ऑटोएन्कोडर की अव्यक्त परत से निकाली गई विशेषताएं जैविक जानकारी को बनाए रखती हैं जो स्वस्थ और रोगग्रस्त रोगियों को अलग करती हैं। इसके अलावा, व्यक्तिगत निकाली गई विशेषताएं अलग-अलग आणविक सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करती हैं, जिनमें से प्रत्येक व्यक्तियों की नैदानिक विशेषताओं के साथ विशिष्ट रूप से बातचीत करती है, जो प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा को एकीकृत करने के लिए एक साधन प्रदान करती है।
जनसंख्या का एक बड़ा हिस्सा उम्र बढ़ रहा है और उम्र से संबंधित बीमारियों का बोझ, जैसे कि न्यूरोडीजेनेरेशन, आनेवाले दशकों में तेजी से बढ़ने की उम्मीद है। अल्जाइमर रोग न्यूरोडीजेनेरेटिव बीमारी का सबसे आम प्रकार है2. रोग की शुरुआत और प्रगति को चलाने वाले मौलिक आणविक तंत्र की हमारी खराब समझ को देखते हुए उपचार खोजने में प्रगति धीमी रही है। अल्जाइमर रोग के बारे में अधिकांश जानकारी मस्तिष्क के ऊतकों की परीक्षा से पोस्टमॉर्टम प्राप्त की जाती है, जिसने विशिष्ट कारणों और परिणामों को एक मुश्किल काम बना दियाहै। मेमोरी एंड एजिंग प्रोजेक्ट (ROSMAP) न्यूरोडीजेनेरेशन की व्यापक समझ हासिल करने के लिए एक महत्वाकांक्षी प्रयास है, जिसमें हजारों व्यक्तियों का अध्ययन शामिल है जो वार्षिक रूप से चिकित्सा और मनोवैज्ञानिक परीक्षाओं से गुजरने और अनुसंधान के लिए अपने दिमाग का योगदान करने के लिए प्रतिबद्धहैं। अध्ययन मस्तिष्क के सामान्य कामकाज से अल्जाइमर रोग2 में संक्रमण पर केंद्रित है। परियोजना के भीतर, पोस्टमॉर्टम मस्तिष्क के नमूनों का विश्लेषण जीनोमिक्स, एपिजेनोमिक्स, ट्रांसक्रिप्टोमिक्स, प्रोटिओमिक्स5 और मेटाबोलॉमिक्स सहित ओमिक्स दृष्टिकोणों के ढेरों के साथ किया गया था।
ओमिक्स प्रौद्योगिकियां जो सेलुलर राज्यों (यानी, प्रोटिओमिक्स और मेटाबोलॉमिक्स)6,7 के कार्यात्मक रीडआउट प्रदान करती हैं, प्रोटीन और मेटाबोलाइट बहुतायत और सेलुलर गतिविधियों के बीच सीधे संबंध के कारण रोग 8,9,10,11,12 की व्याख्या करने के लिए महत्वपूर्ण हैं। प्रोटीन सेलुलर प्रक्रियाओं के प्राथमिक निष्पादक हैं, जबकि मेटाबोलाइट्स जैव रासायनिक प्रतिक्रियाओं के लिए सब्सट्रेट और उत्पाद हैं। मल्टी-ओमिक्स डेटा विश्लेषण अलगाव में उनकी सराहना करने के बजाय प्रोटिओमिक्स और मेटाबोलामिक्स डेटा के बीच जटिल संबंधों को समझने की संभावना प्रदान करता है। मल्टी-ओमिक्स एक अनुशासन है जो आणविक डेटा (जीनोम अनुक्रम और उत्परिवर्तन, प्रतिलेखन, प्रोटिओम, मेटाबोलोम), नैदानिक इमेजिंग डेटा और नैदानिक विशेषताओं सहित उच्च-आयामी जैविक डेटा की कई परतों का अध्ययन करता है। विशेष रूप से, मल्टी-ओमिक्स डेटा विश्लेषण का उद्देश्य जैविक डेटा की ऐसी परतों को एकीकृत करना, उनके पारस्परिक विनियमन और बातचीत की गतिशीलता को समझना और रोग की शुरुआत और प्रगति की समग्र समझ प्रदान करना है। हालांकि, बहु-ओमिक्स डेटा को एकीकृत करने के तरीके विकास13 के प्रारंभिक चरणों में बने हुए हैं।
ऑटोएन्कोडर, एक प्रकार का असुरक्षित तंत्रिका नेटवर्क14, मल्टी-ओमिक्स डेटा एकीकरण के लिए एक शक्तिशाली उपकरण है। पर्यवेक्षित तंत्रिका नेटवर्क के विपरीत, ऑटोएन्कोडर नमूनों को विशिष्ट लक्ष्य मूल्यों (जैसे स्वस्थ या रोगग्रस्त) में मैप नहीं करते हैं, न ही उनका उपयोग परिणामों की भविष्यवाणी करने के लिए किया जाता है। उनके प्राथमिक अनुप्रयोगों में से एक आयामीता में कमी में निहित है। हालांकि, ऑटोएन्कोडर सरल आयामीता में कमी के तरीकों जैसे प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए), टी-डिस्ट्रीब्यूटेड स्टोकेस्टिक नेबर एम्बेडिंग (टीएसएनई), या यूनिफॉर्म मैनिफोल्ड सन्निकटन और प्रोजेक्शन (यूएमएपी) पर कई फायदे प्रदान करते हैं। पीसीए के विपरीत, ऑटोएन्कोडर डेटा के भीतर गैर-रैखिक संबंधों को पकड़ सकते हैं। टीएसएनई और यूएमएपी के विपरीत, वे डेटा के भीतर पदानुक्रमित और बहु-मोडल संबंधों का पता लगा सकते हैं क्योंकि वे कम्प्यूटेशनल इकाइयों की कई परतों पर भरोसा करते हैं जिनमें से प्रत्येक में गैर रैखिक सक्रियण कार्य होते हैं। इसलिए, वे मल्टी-ओमिक्स डेटा की जटिलता को पकड़ने के लिए आकर्षक मॉडल का प्रतिनिधित्व करते हैं। अंत में, जबकि पीसीए, tSNE, और यूएमएपी के प्राथमिक अनुप्रयोग डेटा क्लस्टरिंग की है कि, autoencoders निकाला सुविधाओं है कि अच्छी तरह से बहाव भविष्य कहनेवाला कार्यों15,16 के लिए अनुकूल हैं में इनपुट डेटा संपीड़ित.
संक्षेप में, तंत्रिका नेटवर्क में कई परतें होती हैं, जिनमें से प्रत्येक में कई कम्प्यूटेशनल इकाइयां या “न्यूरॉन्स” होते हैं। पहली और आखिरी परतों को क्रमशः इनपुट और आउटपुट परतों के रूप में जाना जाता है। ऑटोएन्कोडर एक घंटे का चश्मा संरचना के साथ तंत्रिका नेटवर्क होते हैं, जिसमें एक इनपुट परत होती है, इसके बाद एक से तीन छिपी हुई परतें और एक छोटी “अव्यक्त” परत होती है जिसमें आमतौर पर दो और छह न्यूरॉन्स होते हैं। इस संरचना की पहली छमाही को एनकोडर के रूप में जाना जाता है और इसे एनकोडर को प्रतिबिंबित करने वाले डिकोडर के साथ जोड़ा जाता है। डिकोडर एक आउटपुट परत के साथ समाप्त होता है जिसमें इनपुट परत के समान न्यूरॉन्स होते हैं। ऑटोएन्कोडर अड़चन के माध्यम से इनपुट लेते हैं और आउटपुट परत में इसे फिर से संगठित करते हैं, एक आउटपुट उत्पन्न करने के लक्ष्य के साथ जो मूल जानकारी को यथासंभव बारीकी से प्रतिबिंबित करता है। यह गणितीय रूप से “पुनर्निर्माण हानि” नामक पैरामीटर को कम करके प्राप्त किया जाता है। इनपुट में सुविधाओं का एक सेट होता है, जो यहां दिखाए गए एप्लिकेशन में प्रोटीन और मेटाबोलाइट बहुतायत, और नैदानिक विशेषताओं (यानी, लिंग, शिक्षा और मृत्यु पर उम्र) होगा। अव्यक्त परत इस तरह के भविष्य कहनेवाला मॉडल17,18 के रूप में बाद के अनुप्रयोगों के लिए इस्तेमाल किया जा सकता है जो इनपुट की एक संकुचित और सूचना से भरपूर प्रतिनिधित्व होता है.
यह प्रोटोकॉल एक वर्कफ़्लो, डीपओमिक्स एई प्रस्तुत करता है, जिसमें शामिल हैं: 1) मशीन लर्निंग विश्लेषण के लिए एक सुसंगत पैमाने के साथ डेटा प्राप्त करने के लिए प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा (यानी, सामान्यीकरण, स्केलिंग, बाहरी हटाने) का प्रीप्रोसेसिंग; 2) उपयुक्त ऑटोएन्कोडर इनपुट सुविधाओं का चयन करना, क्योंकि सुविधा अधिभार प्रासंगिक रोग पैटर्न को अस्पष्ट कर सकता है; 3) ऑटोएन्कोडर का अनुकूलन और प्रशिक्षण, जिसमें चयन करने के लिए प्रोटीन और चयापचयों की इष्टतम संख्या निर्धारित करना और अव्यक्त परत के लिए न्यूरॉन्स शामिल हैं; 4) अव्यक्त परत से सुविधाओं को निकालने; और 5) आणविक सिग्नलिंग मॉड्यूल और नैदानिक सुविधाओं के साथ उनके संबंधों की पहचान करके जैविक व्याख्या के लिए निकाले गए सुविधाओं का उपयोग करना।
इस प्रोटोकॉल का उद्देश्य सीमित कम्प्यूटेशनल अनुभव वाले जीवविज्ञानी द्वारा सरल और लागू होना है, जिनके पास पायथन के साथ प्रोग्रामिंग की बुनियादी समझ है। प्रोटोकॉल प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक सुविधाओं सहित मल्टी-ओमिक्स डेटा का विश्लेषण करने पर केंद्रित है, लेकिन इसके उपयोग को ट्रांसक्रिप्टोमिक्स सहित अन्य प्रकार के आणविक अभिव्यक्ति डेटा तक बढ़ाया जा सकता है। इस प्रोटोकॉल द्वारा शुरू की एक महत्वपूर्ण उपन्यास आवेदन अव्यक्त परत में व्यक्तिगत न्यूरॉन्स पर मूल सुविधाओं के महत्व स्कोर मानचित्रण है. नतीजतन, अव्यक्त परत में प्रत्येक न्यूरॉन एक सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करता है, जो विशिष्ट आणविक परिवर्तनों और रोगियों की नैदानिक विशेषताओं के बीच बातचीत का विवरण देता है। आणविक सिग्नलिंग मॉड्यूल की जैविक व्याख्या MetaboAnalyst, एक सार्वजनिक रूप से उपलब्ध उपकरण है कि जीन / प्रोटीन और मेटाबोलाइट डेटा को एकीकृत समृद्ध चयापचय और सेल संकेत रास्ते17 प्राप्त करने के द्वारा प्राप्त की है.
डेटासेट की संरचना प्रोटोकॉल की सफलता के लिए महत्वपूर्ण है और इसे सावधानीपूर्वक जांचा जाना चाहिए। डेटा को प्रोटोकॉल अनुभाग 1 में बताए अनुसार स्वरूपित किया जाना चाहिए। स्तंभ पदों का सही असाइनमेंट विधि…
The authors have nothing to disclose.
इस काम को एनआईएच ग्रांट CA201402 और कॉर्नेल सेंटर फॉर वर्टेब्रेट जीनोमिक्स (सीवीजी) डिस्टिंग्विश्ड स्कॉलर अवार्ड द्वारा समर्थित किया गया था। यहां प्रकाशित परिणाम संपूर्ण या आंशिक रूप से AD नॉलेज पोर्टल (https://adknowledgeportal.org) से प्राप्त डेटा पर आधारित हैं। अध्ययन डेटा रश अल्जाइमर रोग केंद्र, रश यूनिवर्सिटी मेडिकल सेंटर, शिकागो द्वारा प्रदान किए गए नमूनों के आधार पर एडी (U01AG046161 और U01AG061357) के लिए त्वरित चिकित्सा साझेदारी के माध्यम से प्रदान किए गए थे। डेटा संग्रह एनआईए अनुदान P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, सार्वजनिक स्वास्थ्य के इलिनोइस विभाग, और ट्रांसलेशनल जीनोमिक्स रिसर्च इंस्टीट्यूट द्वारा वित्त पोषण के माध्यम से समर्थित किया गया था। मेटाबोलॉमिक्स डेटासेट मेटाबोलन में उत्पन्न किया गया था और एडीएमसी द्वारा प्रीप्रोसेस किया गया था।
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |