Waiting
Elaborazione accesso...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

DeepOmicsAE: प्रोटिओमिक्स, मेटाबोलॉमिक्स और क्लिनिकल डेटा के गहन शिक्षण विश्लेषण के साथ अल्जाइमर रोग में सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करना

Published: December 15, 2023 doi: 10.3791/65910

Summary

DeepOmicsAE मल्टी-ओमिक्स डेटा की आयामीता को कम करने के लिए एक गहरी सीखने की विधि (यानी, एक ऑटोएन्कोडर) के अनुप्रयोग पर केंद्रित एक वर्कफ़्लो है, जो भविष्य कहनेवाला मॉडल और सिग्नलिंग मॉड्यूल के लिए एक आधार प्रदान करता है जो ओमिक्स डेटा की कई परतों का प्रतिनिधित्व करता है।

Abstract

मानव स्वास्थ्य में अनुसंधान के लिए बड़े ओमिक्स डेटासेट तेजी से उपलब्ध हो रहे हैं। यह पेपर डीपओमिक्सएई प्रस्तुत करता है, जो प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा सहित मल्टी-ओमिक्स डेटासेट के विश्लेषण के लिए अनुकूलित वर्कफ़्लो है। यह वर्कफ़्लो उच्च-आयामी मल्टी-ओमिक्स इनपुट डेटा से सुविधाओं का एक संक्षिप्त सेट निकालने के लिए ऑटोएन्कोडर नामक एक प्रकार के तंत्रिका नेटवर्क को नियोजित करता है। इसके अलावा, वर्कफ़्लो ऑटोएन्कोडर को लागू करने के लिए आवश्यक प्रमुख मापदंडों को अनुकूलित करने के लिए एक विधि प्रदान करता है। इस वर्कफ़्लो को प्रदर्शित करने के लिए, नैदानिक डेटा का विश्लेषण 142 व्यक्तियों के एक समूह से किया गया था जो या तो स्वस्थ थे या अल्जाइमर रोग का निदान किया गया था, साथ ही उनके पोस्टमॉर्टम मस्तिष्क के नमूनों के प्रोटिओम और मेटाबोलोम के साथ। ऑटोएन्कोडर की अव्यक्त परत से निकाली गई विशेषताएं जैविक जानकारी को बनाए रखती हैं जो स्वस्थ और रोगग्रस्त रोगियों को अलग करती हैं। इसके अलावा, व्यक्तिगत निकाली गई विशेषताएं अलग-अलग आणविक सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करती हैं, जिनमें से प्रत्येक व्यक्तियों की नैदानिक विशेषताओं के साथ विशिष्ट रूप से बातचीत करती है, जो प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा को एकीकृत करने के लिए एक साधन प्रदान करती है।

Introduction

जनसंख्या का एक बड़ा हिस्सा उम्र बढ़ रहा है और उम्र से संबंधित बीमारियों का बोझ, जैसे कि न्यूरोडीजेनेरेशन, आनेवाले दशकों में तेजी से बढ़ने की उम्मीद है। अल्जाइमर रोग न्यूरोडीजेनेरेटिव बीमारी का सबसे आम प्रकार है2. रोग की शुरुआत और प्रगति को चलाने वाले मौलिक आणविक तंत्र की हमारी खराब समझ को देखते हुए उपचार खोजने में प्रगति धीमी रही है। अल्जाइमर रोग के बारे में अधिकांश जानकारी मस्तिष्क के ऊतकों की परीक्षा से पोस्टमॉर्टम प्राप्त की जाती है, जिसने विशिष्ट कारणों और परिणामों को एक मुश्किल काम बना दियाहै। मेमोरी एंड एजिंग प्रोजेक्ट (ROSMAP) न्यूरोडीजेनेरेशन की व्यापक समझ हासिल करने के लिए एक महत्वाकांक्षी प्रयास है, जिसमें हजारों व्यक्तियों का अध्ययन शामिल है जो वार्षिक रूप से चिकित्सा और मनोवैज्ञानिक परीक्षाओं से गुजरने और अनुसंधान के लिए अपने दिमाग का योगदान करने के लिए प्रतिबद्धहैं। अध्ययन मस्तिष्क के सामान्य कामकाज से अल्जाइमर रोग2 में संक्रमण पर केंद्रित है। परियोजना के भीतर, पोस्टमॉर्टम मस्तिष्क के नमूनों का विश्लेषण जीनोमिक्स, एपिजेनोमिक्स, ट्रांसक्रिप्टोमिक्स, प्रोटिओमिक्स5 और मेटाबोलॉमिक्स सहित ओमिक्स दृष्टिकोणों के ढेरों के साथ किया गया था।

ओमिक्स प्रौद्योगिकियां जो सेलुलर राज्यों (यानी, प्रोटिओमिक्स और मेटाबोलॉमिक्स)6,7 के कार्यात्मक रीडआउट प्रदान करती हैं, प्रोटीन और मेटाबोलाइट बहुतायत और सेलुलर गतिविधियों के बीच सीधे संबंध के कारण रोग 8,9,10,11,12 की व्याख्या करने के लिए महत्वपूर्ण हैं। प्रोटीन सेलुलर प्रक्रियाओं के प्राथमिक निष्पादक हैं, जबकि मेटाबोलाइट्स जैव रासायनिक प्रतिक्रियाओं के लिए सब्सट्रेट और उत्पाद हैं। मल्टी-ओमिक्स डेटा विश्लेषण अलगाव में उनकी सराहना करने के बजाय प्रोटिओमिक्स और मेटाबोलामिक्स डेटा के बीच जटिल संबंधों को समझने की संभावना प्रदान करता है। मल्टी-ओमिक्स एक अनुशासन है जो आणविक डेटा (जीनोम अनुक्रम और उत्परिवर्तन, प्रतिलेखन, प्रोटिओम, मेटाबोलोम), नैदानिक इमेजिंग डेटा और नैदानिक विशेषताओं सहित उच्च-आयामी जैविक डेटा की कई परतों का अध्ययन करता है। विशेष रूप से, मल्टी-ओमिक्स डेटा विश्लेषण का उद्देश्य जैविक डेटा की ऐसी परतों को एकीकृत करना, उनके पारस्परिक विनियमन और बातचीत की गतिशीलता को समझना और रोग की शुरुआत और प्रगति की समग्र समझ प्रदान करना है। हालांकि, बहु-ओमिक्स डेटा को एकीकृत करने के तरीके विकास13 के प्रारंभिक चरणों में बने हुए हैं।

ऑटोएन्कोडर, एक प्रकार का असुरक्षित तंत्रिका नेटवर्क14, मल्टी-ओमिक्स डेटा एकीकरण के लिए एक शक्तिशाली उपकरण है। पर्यवेक्षित तंत्रिका नेटवर्क के विपरीत, ऑटोएन्कोडर नमूनों को विशिष्ट लक्ष्य मूल्यों (जैसे स्वस्थ या रोगग्रस्त) में मैप नहीं करते हैं, न ही उनका उपयोग परिणामों की भविष्यवाणी करने के लिए किया जाता है। उनके प्राथमिक अनुप्रयोगों में से एक आयामीता में कमी में निहित है। हालांकि, ऑटोएन्कोडर सरल आयामीता में कमी के तरीकों जैसे प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए), टी-डिस्ट्रीब्यूटेड स्टोकेस्टिक नेबर एम्बेडिंग (टीएसएनई), या यूनिफॉर्म मैनिफोल्ड सन्निकटन और प्रोजेक्शन (यूएमएपी) पर कई फायदे प्रदान करते हैं। पीसीए के विपरीत, ऑटोएन्कोडर डेटा के भीतर गैर-रैखिक संबंधों को पकड़ सकते हैं। टीएसएनई और यूएमएपी के विपरीत, वे डेटा के भीतर पदानुक्रमित और बहु-मोडल संबंधों का पता लगा सकते हैं क्योंकि वे कम्प्यूटेशनल इकाइयों की कई परतों पर भरोसा करते हैं जिनमें से प्रत्येक में गैर रैखिक सक्रियण कार्य होते हैं। इसलिए, वे मल्टी-ओमिक्स डेटा की जटिलता को पकड़ने के लिए आकर्षक मॉडल का प्रतिनिधित्व करते हैं। अंत में, जबकि पीसीए, tSNE, और यूएमएपी के प्राथमिक अनुप्रयोग डेटा क्लस्टरिंग की है कि, autoencoders निकाला सुविधाओं है कि अच्छी तरह से बहाव भविष्य कहनेवाला कार्यों15,16 के लिए अनुकूल हैं में इनपुट डेटा संपीड़ित.

संक्षेप में, तंत्रिका नेटवर्क में कई परतें होती हैं, जिनमें से प्रत्येक में कई कम्प्यूटेशनल इकाइयां या "न्यूरॉन्स" होते हैं। पहली और आखिरी परतों को क्रमशः इनपुट और आउटपुट परतों के रूप में जाना जाता है। ऑटोएन्कोडर एक घंटे का चश्मा संरचना के साथ तंत्रिका नेटवर्क होते हैं, जिसमें एक इनपुट परत होती है, इसके बाद एक से तीन छिपी हुई परतें और एक छोटी "अव्यक्त" परत होती है जिसमें आमतौर पर दो और छह न्यूरॉन्स होते हैं। इस संरचना की पहली छमाही को एनकोडर के रूप में जाना जाता है और इसे एनकोडर को प्रतिबिंबित करने वाले डिकोडर के साथ जोड़ा जाता है। डिकोडर एक आउटपुट परत के साथ समाप्त होता है जिसमें इनपुट परत के समान न्यूरॉन्स होते हैं। ऑटोएन्कोडर अड़चन के माध्यम से इनपुट लेते हैं और आउटपुट परत में इसे फिर से संगठित करते हैं, एक आउटपुट उत्पन्न करने के लक्ष्य के साथ जो मूल जानकारी को यथासंभव बारीकी से प्रतिबिंबित करता है। यह गणितीय रूप से "पुनर्निर्माण हानि" नामक पैरामीटर को कम करके प्राप्त किया जाता है। इनपुट में सुविधाओं का एक सेट होता है, जो यहां दिखाए गए एप्लिकेशन में प्रोटीन और मेटाबोलाइट बहुतायत, और नैदानिक विशेषताओं (यानी, लिंग, शिक्षा और मृत्यु पर उम्र) होगा। अव्यक्त परत इस तरह के भविष्य कहनेवाला मॉडल17,18 के रूप में बाद के अनुप्रयोगों के लिए इस्तेमाल किया जा सकता है जो इनपुट की एक संकुचित और सूचना से भरपूर प्रतिनिधित्व होता है.

यह प्रोटोकॉल एक वर्कफ़्लो, डीपओमिक्स एई प्रस्तुत करता है, जिसमें शामिल हैं: 1) मशीन लर्निंग विश्लेषण के लिए एक सुसंगत पैमाने के साथ डेटा प्राप्त करने के लिए प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक डेटा (यानी, सामान्यीकरण, स्केलिंग, बाहरी हटाने) का प्रीप्रोसेसिंग; 2) उपयुक्त ऑटोएन्कोडर इनपुट सुविधाओं का चयन करना, क्योंकि सुविधा अधिभार प्रासंगिक रोग पैटर्न को अस्पष्ट कर सकता है; 3) ऑटोएन्कोडर का अनुकूलन और प्रशिक्षण, जिसमें चयन करने के लिए प्रोटीन और चयापचयों की इष्टतम संख्या निर्धारित करना और अव्यक्त परत के लिए न्यूरॉन्स शामिल हैं; 4) अव्यक्त परत से सुविधाओं को निकालने; और 5) आणविक सिग्नलिंग मॉड्यूल और नैदानिक सुविधाओं के साथ उनके संबंधों की पहचान करके जैविक व्याख्या के लिए निकाले गए सुविधाओं का उपयोग करना।

इस प्रोटोकॉल का उद्देश्य सीमित कम्प्यूटेशनल अनुभव वाले जीवविज्ञानी द्वारा सरल और लागू होना है, जिनके पास पायथन के साथ प्रोग्रामिंग की बुनियादी समझ है। प्रोटोकॉल प्रोटिओमिक्स, मेटाबोलॉमिक्स और नैदानिक सुविधाओं सहित मल्टी-ओमिक्स डेटा का विश्लेषण करने पर केंद्रित है, लेकिन इसके उपयोग को ट्रांसक्रिप्टोमिक्स सहित अन्य प्रकार के आणविक अभिव्यक्ति डेटा तक बढ़ाया जा सकता है। इस प्रोटोकॉल द्वारा शुरू की एक महत्वपूर्ण उपन्यास आवेदन अव्यक्त परत में व्यक्तिगत न्यूरॉन्स पर मूल सुविधाओं के महत्व स्कोर मानचित्रण है. नतीजतन, अव्यक्त परत में प्रत्येक न्यूरॉन एक सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करता है, जो विशिष्ट आणविक परिवर्तनों और रोगियों की नैदानिक विशेषताओं के बीच बातचीत का विवरण देता है। आणविक सिग्नलिंग मॉड्यूल की जैविक व्याख्या MetaboAnalyst, एक सार्वजनिक रूप से उपलब्ध उपकरण है कि जीन / प्रोटीन और मेटाबोलाइट डेटा को एकीकृत समृद्ध चयापचय और सेल संकेत रास्ते17 प्राप्त करने के द्वारा प्राप्त की है.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: यहाँ उपयोग किया गया डेटा AD नॉलेज पोर्टल से डाउनलोड किया गया ROSMAP डेटा था. डेटा को डाउनलोड करने और पुन: उपयोग करने के लिए सूचित सहमति की आवश्यकता नहीं है। यहां प्रस्तुत प्रोटोकॉल मल्टी-ओमिक्स डेटा का विश्लेषण करने और सिग्नलिंग मॉड्यूल की पहचान करने के लिए गहन शिक्षा का उपयोग करता है जो विशिष्ट रोगी या नमूना समूहों को अलग करते हैं, उदाहरण के लिए, उनके निदान पर। प्रोटोकॉल भी निकाले गए सुविधाओं का एक छोटा सा सेट प्रदान करता है जो मूल बड़े पैमाने पर डेटा को सारांशित करता है और आगे के विश्लेषण के लिए उपयोग किया जा सकता है जैसे कि मशीन लर्निंग एल्गोरिदम (चित्रा 1) का उपयोग करके एक भविष्य कहनेवाला मॉडल को प्रशिक्षित करना। प्रोटोकॉल करने से पहले कोड तक पहुँचने और कम्प्यूटेशनल वातावरण स्थापित करने के बारे में जानकारी के लिए पूरक फ़ाइल 1 और सामग्री की तालिका देखें। विधियों को नीचे निर्दिष्ट क्रम का पालन करते हुए किया जाना चाहिए।

Figure 1
चित्रा 1: DeepOmicsAE वर्कफ़्लो का योजनाबद्ध। वर्कफ़्लो का उपयोग करके मल्टी-ओमिक्स डेटा का विश्लेषण करने के लिए वर्कफ़्लो का योजनाबद्ध प्रतिनिधित्व। ऑटोएन्कोडर चित्रण में, आयत तंत्रिका नेटवर्क की परतों का प्रतिनिधित्व करते हैं और सर्कल परतों के भीतर न्यूरॉन्स का प्रतिनिधित्व करते हैं। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

1. डेटा प्रीप्रोसेसिंग

नोट: इस खंड का लक्ष्य डेटा को प्रीप्रोसेस करना है, जिसमें लापता डेटा को संभालना शामिल है; प्रोटिओमिक, मेटाबोलामिक अभिव्यक्ति और नैदानिक डेटा को सामान्य और स्केल करना; और आउटलेयर को हटाना। प्रोटोकॉल एक डेटासेट के लिए डिज़ाइन किया गया है जिसमें लॉग2 (अनुपात) के रूप में व्यक्त प्रोटिओमिक्स डेटा शामिल है; मेटाबोलॉमिक्स डेटा गुना परिवर्तन के रूप में व्यक्त किया गया; और निरंतर और स्पष्ट विशेषताओं सहित नैदानिक विशेषताएं। रोगियों या नमूनों को निदान या अन्य समान मापदंडों के आधार पर समूहीकृत किया जाना चाहिए। नमूने या रोगी पंक्तियों के पार होने चाहिए और स्तंभों में विशेषताएं होनी चाहिए।

  1. ब्राउज़र में ज्यूपिटर नोटबुक की एक नई आवृत्ति प्रारंभ करने के लिए, एक नई टर्मिनल विंडो खोलें, निम्न लिखें और Enter दबाएँ.
    ज्यूपिटर नोटबुक
  2. ब्राउज़र पर ज्यूपिटर होम पेज में, नोटबुक M01 - एक्सप्रेशन डेटा प्री-प्रोसेसिंग.ipynb पर क्लिक करके इसे एक नए टैब (पूरक फ़ाइल 2, चरण 1.1) में खोलें।
  3. नोटबुक के दूसरे सेल में, your_dataset_name.csv के स्थान पर डेटासेट फ़ाइल का नाम टाइप करें
  4. नोटबुक के अंतिम कक्ष में, M01_output_data.csv के स्थान पर आउटपुट डेटा फ़ाइल का इच्छित नाम लिखें.
  5. नोटबुक के पांचवें सेल में, प्रत्येक डेटा प्रकार के लिए कॉलम की स्थिति निम्नानुसार निर्दिष्ट करें: प्रोटिओमिक्स डेटा (cols_prot), मेटाबोलामिक्स डेटा (cols_met), निरंतर नैदानिक डेटा (जैसे, आयु) (cols_clin_con), बाइनरी नैदानिक डेटा (जैसे, लिंग) (cols_clin_bin)। col_start के स्थान पर प्रत्येक डेटा प्रकार के लिए पहला स्तंभ अनुक्रमणिका और col_end के स्थान पर अंतिम स्तंभ अनुक्रमणिका दर्ज करें; उदाहरण के लिए: cols_prot = स्लाइस (0, 8817)। सुनिश्चित करें कि स्लाइस ऑब्जेक्ट्स में निर्दिष्ट मान प्रत्येक डेटा प्रकार के अनुरूप पहले और अंतिम कॉलम इंडेक्स के अनुरूप हैं। प्रत्येक डेटा प्रकार (पूरक फ़ाइल 2, चरण 1.2) के लिए प्रारंभ और समाप्ति स्थिति निर्धारित करने के लिए समान नोटबुक (df.iloc[:, :]) के चौथे कक्ष में आदेश का उपयोग करें.
  6. सेल का चयन करें | निर्दिष्ट फ़ोल्डर (पूरक फ़ाइल 2, चरण 1.3) में आउटपुट डेटा फ़ाइल बनाने के लिए ज्यूपिटर में मेनू बार से सभी चलाएं।
    नोट: इन आंकड़ों वर्गों 2, 3, या 4 में वर्णित प्रोटोकॉल के लिए इनपुट के रूप में इस्तेमाल किया जाएगा.

2. वर्कफ़्लो का कस्टम अनुकूलन (वैकल्पिक)

नोट: धारा 2 वैकल्पिक है क्योंकि यह कंप्यूटर-गहन है। उपयोगकर्ताओं को सीधे अनुभाग 4 पर जाना चाहिए यदि वे अनुभाग 2 नहीं करने का निर्णय लेते हैं। यह प्रोटोकॉल उपयोगकर्ता को स्वचालित तरीके से वर्कफ़्लो को अनुकूलित करने के माध्यम से मार्गदर्शन करेगा। विशेष रूप से, विधि उन मापदंडों की पहचान करती है जो नमूना समूहों को अच्छी तरह से अलग करने वाली निकाली गई सुविधाओं को उत्पन्न करने के मामले में ऑटोएन्कोडर का सर्वश्रेष्ठ प्रदर्शन प्रदान करते हैं। आउटपुट के रूप में उत्पन्न अनुकूलित मापदंडों में फीचर चयन (k_prot और k_met) के लिए उपयोग की जाने वाली सुविधाओं की संख्या और ऑटोएन्कोडर अव्यक्त परत (अव्यक्त) में न्यूरॉन्स की संख्या शामिल है। इन मापदंडों तो मॉडल उत्पन्न करने के लिए धारा 3 में वर्णित प्रोटोकॉल में इस्तेमाल किया जा सकता है.

  1. ब्राउज़र पर ज्यूपिटर होम पेज पर, नोटबुक M02 - DeepOmicsAE मॉडल optimization.ipynb पर क्लिक करके इसे एक नए टैब (पूरक फ़ाइल 2, चरण 2.1) में खोलें।
  2. नोटबुक के दूसरे सेल में, M01_output_data.csv के स्थान पर इनपुट फ़ाइल का नाम टाइप करें। इस फ़ंक्शन का इनपुट अनुभाग 1 से आउटपुट डेटा है।
  3. नोटबुक के पांचवें सेल में, प्रत्येक डेटा प्रकार के लिए कॉलम की स्थिति निम्नानुसार निर्दिष्ट करें: प्रोटिओमिक्स डेटा (cols_X_prot), मेटाबोलॉमिक्स डेटा (cols_X_met), नैदानिक डेटा (cols_clin; सभी नैदानिक डेटा शामिल हैं), प्रोटिओमिक्स और मेटाबोलामिक्स डेटा सहित सभी आणविक अभिव्यक्ति डेटा (cols_X_expr)। col_start के स्थान पर प्रत्येक डेटा प्रकार के लिए पहला स्तंभ अनुक्रमणिका और col_end के स्थान पर अंतिम स्तंभ अनुक्रमणिका दर्ज करें; उदाहरण के लिए, cols_prot = स्लाइस (0, 8817)। सुनिश्चित करें कि स्लाइस ऑब्जेक्ट्स में निर्दिष्ट मान प्रत्येक डेटा प्रकार के संगत प्रथम और अंतिम स्तंभ अनुक्रमणिका के संगत हैं, और डेटा का अन्वेषण करने और प्रत्येक डेटा प्रकार के लिए प्रारंभ और समाप्ति स्थिति निर्धारित करने के लिए नोटबुक के तीसरे और चौथे कक्षों में आदेशों का उपयोग करें. y_label के रूप में y_column_name के स्थान पर लक्ष्य चर वाले स्तंभ का नाम निर्दिष्ट करें (पूरक फ़ाइल 2, चरण 2.2)।
    नोट: cols_X_prot, cols_X_met, cols_clin और cols_X_expr में निर्दिष्ट इंडेक्स के मान डेटा प्रीप्रोसेसिंग के दौरान होने वाले डेटाफ्रेम के रीशेपिंग के कारण सेक्शन 1 में उपयोग किए गए लोगों से अलग होंगे।
  4. नोटबुक के छठे कक्ष में, n_comb को मान असाइन करके निर्दिष्ट करें कि कितने ऑप्टिमाइज़ेशन राउंड निष्पादित करने हैं. प्रसंस्करण के लिए समय 10 राउंड के लिए लगभग 4-5 मिनट हैं; 50 राउंड के लिए 20 मिनट, और 100 राउंड के लिए 40 मिनट (पूरक फ़ाइल 2, चरण 2.3)।
  5. सेल का चयन करें | ज्यूपिटर में मेनू बार से सभी चलाएं।
    नोट: आउटपुट चर kprot, kmet, और latent संग्रहीत किया जाएगा और अन्य नोटबुक्स से एक्सेस किया जा सकता है, जिसका प्रयोग विश्लेषणात्मक कार्यप्रवाह को जारी रखने के लिए किया जाएगा. प्लॉट AE_optimization_plot.pdf उत्पन्न होगा और स्थानीय फ़ोल्डर (चित्रा 2) में सहेजा जाएगा।

3. कस्टम-अनुकूलित मापदंडों के साथ वर्कफ़्लो कार्यान्वयन

नोट:: इस प्रोटोकॉल केवल विधि अनुकूलन (अनुभाग 2) निम्न निष्पादित करें। यदि उपयोगकर्ता विधि अनुकूलन नहीं करना चुनते हैं, तो सीधे अनुभाग 4 पर जाएं। यह प्रोटोकॉल उपयोगकर्ता को धारा 2 से प्राप्त कस्टम-अनुकूलित मापदंडों का उपयोग करके एक मॉडल बनाने के माध्यम से मार्गदर्शन करेगा। ऑटोएन्कोडर 1) निकाले गए सुविधाओं का एक सेट उत्पन्न करेगा जो मूल डेटा को पुन: व्यवस्थित करता है और 2) अव्यक्त परत में प्रत्येक न्यूरॉन को चलाने वाली महत्वपूर्ण विशेषताओं की पहचान करता है, प्रभावी रूप से अद्वितीय सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करता है। सिग्नलिंग मॉड्यूल की व्याख्या धारा 5 में प्रदान किए गए प्रोटोकॉल का उपयोग करके की जाएगी।

  1. ब्राउज़र पर ज्यूपिटर होम पेज पर, नोटबुक M03a पर क्लिक करें - कस्टम-अनुकूलित पैरामीटर.ipynb के साथ DeepOmicsAE कार्यान्वयन इसे एक नए टैब (पूरक फ़ाइल 2, चरण 3.1) में खोलने के लिए।
  2. नोटबुक के दूसरे सेल में, M01_output_data.csv के स्थान पर इनपुट फ़ाइल का नाम टाइप करें। इस फ़ंक्शन का इनपुट अनुभाग 1 से आउटपुट डेटा है।
  3. नोटबुक के पांचवें सेल में, प्रत्येक डेटा प्रकार के लिए कॉलम की स्थिति निम्नानुसार निर्दिष्ट करें: प्रोटिओमिक्स डेटा (cols_prot), मेटाबोलॉमिक्स डेटा (cols_met), नैदानिक डेटा (cols_clin; सभी नैदानिक डेटा शामिल हैं)। col_start के स्थान पर प्रत्येक डेटा प्रकार के लिए पहला स्तंभ अनुक्रमणिका और col_end के स्थान पर अंतिम स्तंभ अनुक्रमणिका दर्ज करें; उदाहरण के लिए: cols_prot = स्लाइस (0, 8817)। सुनिश्चित करें कि स्लाइस ऑब्जेक्ट्स में निर्दिष्ट मान प्रत्येक डेटा प्रकार के संगत प्रथम और अंतिम स्तंभ अनुक्रमणिका के संगत हैं, और डेटा का अन्वेषण करने और प्रत्येक डेटा प्रकार के लिए प्रारंभ और समाप्ति स्थितियाँ निर्धारित करने के लिए नोटबुक के तीसरे और चौथे कक्षों में आदेशों का उपयोग करें. y_label के रूप में y_column_name के स्थान पर लक्ष्य चर (जैसे, स्वस्थ या रोगग्रस्त के अनुरूप) वाले कॉलम का नाम निर्दिष्ट करें।
    नोट: cols_X_prot, cols_X_met, cols_clin और cols_X_expr में निर्दिष्ट इंडेक्स का मान डेटा प्रीप्रोसेसिंग के दौरान होने वाले डेटाफ्रेम के रीशेपिंग के कारण सेक्शन 1 में उपयोग किए गए लोगों से अलग होगा।
  4. सेल का चयन करें | स्थानीय फ़ोल्डर (चित्रा 3 और पूरक चित्रा एस 1) में भूखंडों PCA_initial_data.pdf, PCA_extracted_features.pdf और distribution_important_feature_scores.pdf को उत्पन्न करने और सहेजने के लिए ज्यूपिटर में मेनू बार से सभी चलाएं। इसके अतिरिक्त, प्रत्येक पहचाने गए सिग्नलिंग मॉड्यूल के लिए महत्वपूर्ण सुविधाओं की सूची स्थानीय फ़ोल्डर में पाठ फ़ाइलों में संग्रहीत की जाएगी, जिसका नाम module_n.txt है, जहां n को मॉड्यूल संख्या द्वारा प्रतिस्थापित किया जाएगा।

4. पूर्व निर्धारित मापदंडों के साथ वर्कफ़्लो कार्यान्वयन

  1. इस विधि को चलाने के तरीके पर विस्तृत निर्देशों के लिए अनुभाग 3 देखें (पूरक फ़ाइल 2, चरण 4.1)। इन दो प्रोटोकॉल के बीच एकमात्र अंतर यह है कि पैरामीटर kprot, kmet, और अव्यक्त (नोटबुक के सातवें सेल में) गणितीय रूप से किए गए अनुकूलन के परिणामों के आधार पर व्युत्पन्न होते हैं जैसा कि चित्र 2में दिखाया गया है।
    नोट: यदि धारा 4 नमूना समूहों का खराब पृथक्करण प्रदान करता है, तो सबॉप्टिमल मॉडल प्रदर्शन का संकेत देता है, तो कम से कम 15 पुनरावृत्तियों का उपयोग करके मॉडल अनुकूलन (अनुभाग 2) निष्पादित करने की अनुशंसा की जाती है, और यदि संभव हो तो, 50 तक

5. MetaboAnalyst का उपयोग कर जैविक व्याख्या

  1. ब्राउज़र खोलें और MetaboAnalyst वेबसाइट पर संयुक्त मार्ग विश्लेषण कार्यक्षमता तक पहुँचने के लिए नीचे दिए गए लिंक पर नेविगेट करें: https://www.metaboanalyst.ca/MetaboAnalyst/upload/JointUploadView.xhtml।
  2. उस फ़ोल्डर तक पहुँचें जहाँ विधि 3 या विधि 4 से आउटपुट फ़ाइलें सहेजी गई थीं और विधि 3 या विधि 4 द्वारा उत्पन्न प्रत्येक सिग्नलिंग मॉड्यूल n के लिए module_n.txt पाठ फ़ाइलें खोलें।
  3. पाठ फ़ाइलों में प्रोटीन का पता लगाएँ और उन्हें कॉपी करें।
  4. मेटाबोएनालिस्ट वेब पेज में वैकल्पिक गुना परिवर्तनों के साथ विंडो जीन/प्रोटीन में प्रोटीन की सूची पेस्ट करें।
  5. मेटाबोलाइट्स के लिए उपरोक्त चरण को दोहराएं और उन्हें एक ही वेब पेज पर वैकल्पिक गुना परिवर्तनों के साथ विंडो कंपाउंड सूची में पेस्ट करें।
  6. उपयुक्त जीव और आईडी प्रकार का चयन करें, फिर पृष्ठ के निचले भाग में सबमिट करें पर क्लिक करें (पूरक फ़ाइल 2, चरण 5.1)।
    नोट: सुनिश्चित करें कि पहचानकर्ता MetaboAnalytics द्वारा पहचाने जाते हैं। मान्यता प्राप्त पहचानकर्ताओं में प्रोटीन के लिए एंट्रेज़ आईडी, आधिकारिक जीन प्रतीक और यूनिप्रोट आईडी शामिल हैं; यौगिक नाम, HMDB ID, और चयापचयों के लिए KEGG ID। यदि पहचानकर्ता इन प्रकारों के अलावा अन्य हैं, तो विश्लेषण से पहले उचित रूपांतरण आवश्यक है।
  7. अगले पृष्ठ पर, क्लिक करने से पहले आईडी मैपिंग की जांच करें आगे बढ़ें यह सत्यापित करने के लिए कि पहचानकर्ताओं को पहचाना जा रहा है।
  8. पैरामीटर सेटिंग पृष्ठ में, मेटाबोलिक रास्ते (एकीकृत) या सभी रास्ते (एकीकृत) का चयन करें क्रमशः चयापचय रास्ते के लिए इनपुट के योगदान को देखने के लिए या सभी सिग्नलिंग रास्ते (पूरक फ़ाइल 2, चरण 5.2) के लिए। एल्गोरिथ्म चयन पैनल में, संवर्धन विश्लेषण चुनें: हाइपरजियोमेट्रिक परीक्षण, टोपोलॉजी उपाय: डिग्री केंद्रीयता, और एकीकरण विधि: पी मानों को मिलाएं (मार्ग-स्तर)। पृष्ठ के नीचे सबमिट पर क्लिक करें।
  9. अंतिम पृष्ठ परिणाम दृश्य है, जो संवर्धन विश्लेषण के परिणाम प्रस्तुत करता है। समृद्ध मार्गों को उनके प्रभाव और महत्व के आधार पर प्लॉट किया जाता है, और मार्गों की सूची भी सारणीबद्ध प्रारूप में प्रदान की जाती है।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

प्रोटोकॉल का प्रदर्शन करने के लिए, हमने 142 व्यक्तियों के पोस्टमॉर्टम दिमाग से प्राप्त प्रोटिओम, मेटाबोलोम और नैदानिक जानकारी वाले डेटासेट का विश्लेषण किया, जो या तो स्वस्थ थे या अल्जाइमर रोग से पीड़ित थे।

डेटा को प्रीप्रोसेस करने के लिए प्रोटोकॉल सेक्शन 1 करने के बाद, डेटासेट में 6,497 प्रोटीन, 443 मेटाबोलाइट्स और तीन नैदानिक विशेषताएं (लिंग, मृत्यु के समय उम्र और शिक्षा) शामिल थीं। लक्ष्य विशेषता मृत्यु के समय संज्ञानात्मक स्थिति का नैदानिक सर्वसम्मति निदान है, जिसे कॉगडीएक्स के रूप में संहिताबद्ध किया गया है, जिसमें कोई संज्ञानात्मक हानि (सीआई) के लिए 1 और अल्जाइमर डिमेंशिया के लिए 4 और सीआई का एक अन्य कारण है। अस्सी रोगियों को स्वस्थ और 62 को अल्जाइमर रोग होने का निदान किया गया था। प्रोटोकॉल खंड 2 को kprot, kmet, और अव्यक्त पैरामीटर के लिए इष्टतम मान निर्धारित करने के लिए लागू किया गया था। अनुकूलन एल्गोरिथ्म मॉडल मापदंडों के विभिन्न संयोजनों का उपयोग करके सुविधा चयन और सुविधा निष्कर्षण करता है। फिर, यह गणना करता है और इनपुट डेटा और निकाली गई सुविधाओं के लिए पीसीए सिल्हूट स्कोर देता है। अनुकूलन विधि से पता चला है कि kprot और kmet के लिए संभावित मूल्यों की निचली सीमा के परिणामस्वरूप रोगियों के दो समूहों के बीच उच्च स्तर का अलगाव होता है, जबकि अव्यक्त परत में न्यूरॉन्स की संख्या का मॉडल के प्रदर्शन पर बड़ा प्रभाव नहीं पड़ता है (चित्र 2)।

Figure 2
चित्रा 2: पैरामीटर अनुकूलन परिणाम। प्रोटोकॉल अनुभाग 2 के लिए पुनरावृत्तियों की संख्या 212 के लिए सेट किया गया था, और स्वस्थ और अल्जाइमर रोग समूहों के बीच जुदाई की डिग्री पीसीए सिल्हूट स्कोर (निकाले गए सुविधाओं पर पीसीए के लिए सिल्हूट स्कोर) के आधार पर कल्पना की गई थी। अव्यक्त परत में न्यूरॉन्स की संख्या बुलबुला आकार (अव्यक्त) के रूप में प्रदर्शित किया जाता है, जबकि प्रोटिओमिक्स डेटा (kprot) और metabolomics डेटा (kmet) के लिए चयनित सुविधाओं की संख्या क्रमशः x और y अक्षों पर प्लॉट की जाती है। संक्षिप्ताक्षर: पीसीए = प्रमुख घटक विश्लेषण। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

प्रोटोकॉल अनुभाग 3 को ऊपर वर्णित के रूप में व्युत्पन्न अनुकूलित मापदंडों का उपयोग करके निकाले गए सुविधाओं और सिग्नलिंग मॉड्यूल प्राप्त करने के लिए लागू किया गया था। संक्षेप में, मॉडल को अव्यक्त परत में 804 प्रोटीन, 67 मेटाबोलाइट्स और चार न्यूरॉन्स का उपयोग करने के लिए अनुकूलित किया गया था। नैदानिक समूहों को निकाले गए सुविधाओं (सिल्हूट स्कोर = 0.09) से बेहतर से अलग किया गया था, जबकि वे मूल विशेषताओं (सिल्हूट स्कोर = 0.019) से बेहतर थे, जबकि वे मूल विशेषताओं से नहीं थे, यह दर्शाते हुए कि निकाली गई विशेषताएं उस जानकारी को कैप्चर करती हैं जो रोग की स्थिति (चित्रा 3) निर्धारित करने के लिए महत्वपूर्ण है। अव्यक्त परत में प्रत्येक न्यूरॉन के संबंध में मूल विशेषताओं के महत्व स्कोर पूरक चित्रा एस 1 में प्रदर्शित होते हैं। प्रत्येक न्यूरॉन को परिभाषित महत्वपूर्ण सुविधाओं प्रत्येक न्यूरॉन के लिए सुविधा स्कोर मूल्यों के शीर्ष 10वें प्रतिशत के रूप में चुना गया. न्यूरॉन्स और चयनित सुविधाओं के सेट के बीच ओवरलैप सीमित है, यह दर्शाता है कि अव्यक्त परत में प्रत्येक न्यूरॉन अल्जाइमर रोग (पूरक चित्रा एस 2 ए) के लिए अग्रणी सिग्नलिंग घटनाओं के विभिन्न पहलुओं पर केंद्रित है। इसके अलावा, DeepOmicsAE द्वारा पहचानी गई महत्वपूर्ण विशेषताओं और PCA के साथ पहचाने जाने वालों के बीच ओवरलैप भी कम है, जो मल्टी-ओमिक्स डेटा(पूरक चित्रा S2B)की व्यापक समझ प्राप्त करने के लिए गैर-रैखिक संबंधों को कैप्चर करने के महत्व को रेखांकित करता है।

Figure 3
चित्रा 3: रोग समूहों को अलग करने के लिए आवश्यक जानकारी युक्त निकाली गई विशेषताएं। () इनपुट सुविधाओं पर पीसीए। (बी) निकाले गए फीचर्स पर पीसीए। संक्षिप्ताक्षर: पीसीए = प्रमुख घटक विश्लेषण। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

प्रोटोकॉल अनुभाग 5 ऊपर वर्णित के रूप में प्राप्त सिग्नलिंग मॉड्यूल की व्याख्या करने के लिए किया गया था। मेटाबोएनालिस्ट ने प्रत्येक सिग्नलिंग मॉड्यूल(चित्रा 4 और पूरक फ़ाइल 3)के लिए अलग-अलग चयापचय और सिग्नलिंग मार्गों के संवर्धन की पहचान की। विशेष रूप से, DeepOmicsAE नैदानिक सुविधाओं और सिग्नलिंग मॉड्यूल के बीच होने वाली बातचीत की भी विशेषता है। उदाहरण के लिए, मृत्यु के समय लिंग और उम्र अल्जाइमर रोग के रोगियों में परिवर्तित ग्लिसरॉलिपिड चयापचय से संबंधित हैं (मॉड्यूल 3)। दूसरे शब्दों में, इस चयापचय मार्ग में परिवर्तन एक निश्चित लिंग और उम्र के रोगियों के उपसमूहों में बीमारी का निर्धारण करने की अधिक संभावना है। इसके विपरीत, सिनैप्स और अक्षतंतु कार्यक्षमता (मॉड्यूल 2) के परिवर्तन अल्जाइमर रोग के रोगियों में उनके लिंग, शिक्षा स्तर और दीर्घायु की परवाह किए बिना होते हैं। यहां प्रस्तुत परिणामों के आधार पर, यह निष्कर्ष निकाला जा सकता है कि ऑटोएन्कोडर अव्यक्त परत में प्रत्येक न्यूरॉन एक अलग सिग्नलिंग मॉड्यूल ड्राइविंग बीमारी का प्रतिनिधित्व करता है।

Figure 4
चित्रा 4: अलग-अलग सिग्नलिंग मॉड्यूल के अनुरूप अव्यक्त परत में न्यूरॉन्स। अव्यक्त परत में प्रत्येक न्यूरॉन से प्राप्त महत्वपूर्ण विशेषताओं के मेटाबोएनालिस्ट का उपयोग करके विश्लेषण से प्राप्त परिणामों का एक योजनाबद्ध। समृद्ध मार्गों को 0.25 से अधिक प्रभाव स्कोर और 0.05 से कम एफडीआर होने के आधार पर चुना गया था; इसके अलावा, एक "मार्ग महत्व - संयुक्त स्कोर" की गणना प्रत्येक मार्ग के लिए नकारात्मक लॉग10 एफडीआर मूल्य के साथ प्रभाव स्कोर के उत्पाद के रूप में की गई थी, और 0.55 से अधिक "संयुक्त स्कोर" वाले रास्ते बताए गए हैं। अंत में, प्रत्येक सिग्नलिंग मॉड्यूल में व्यक्तिगत नैदानिक सुविधाओं का महत्व स्कोर बार भूखंडों के वाई अक्षों पर प्रदर्शित होता है। संक्षिप्ताक्षर: FDR = झूठी खोज दर। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 1: प्रोटोकॉल करने से पहले कोड तक पहुंचने और कम्प्यूटेशनल वातावरण स्थापित करने के लिए जानकारी। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 2: प्रोटोकॉल को लागू करने के तरीके का एक दृश्य विवरण प्रदान करने वाले स्क्रीनशॉट। प्रत्येक सिग्नलिंग मॉड्यूल में समृद्ध शीर्ष मार्ग। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 3: मेटाबोएनालिस्ट से संवर्धन विश्लेषण परिणाम। टैब 1: सभी समृद्ध शर्तें। टैब 2: प्रत्येक सिग्नलिंग मॉड्यूल में समृद्ध शीर्ष मार्ग। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक फ़ाइल 4: फ़ंक्शन और ज्यूपिटर नोटबुक सहित कोड फाइलें। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक चित्रा एस 1: प्रत्येक सिग्नलिंग मॉड्यूल में सुविधाओं के लिए महत्व स्कोर का वितरण। महत्व मूल्यों को बढ़ाया गया था और उनके वितरण को अव्यक्त परत में एक न्यूरॉन के अनुरूप प्रत्येक मॉड्यूल के लिए प्लॉट किया गया था। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक चित्र S2: DeepOmicsAE द्वारा उत्पन्न सिग्नलिंग मॉड्यूल अद्वितीय जानकारी का योगदान करते हैं। () प्रत्येक सिग्नलिंग मॉड्यूल में शामिल सुविधाओं के बीच ओवरलैप का आकार सलाखों की ऊंचाई के रूप में प्रदर्शित होता है। लाइनों से जुड़े काले डॉट्स इंगित करते हैं कि प्लॉट में प्रत्येक बार द्वारा कौन सा अतिव्यापी सेट दर्शाया गया है। (बी) वेन आरेख डीपओमिक्स एई के साथ व्युत्पन्न चार सिग्नलिंग मॉड्यूल में निहित सभी विशेषताओं और पीसीए का उपयोग करके प्राप्त शीर्ष 100 महत्वपूर्ण विशेषताओं के बीच ओवरलैप का प्रतिनिधित्व करता है। संक्षिप्ताक्षर: पीसीए = प्रमुख घटक विश्लेषण। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

डेटासेट की संरचना प्रोटोकॉल की सफलता के लिए महत्वपूर्ण है और इसे सावधानीपूर्वक जांचा जाना चाहिए। डेटा को प्रोटोकॉल अनुभाग 1 में बताए अनुसार स्वरूपित किया जाना चाहिए। स्तंभ पदों का सही असाइनमेंट विधि की सफलता के लिए भी महत्वपूर्ण है। प्रोटिओमिक्स और मेटाबोलॉमिक्स डेटा को अलग-अलग तरीके से संसाधित किया जाता है और डेटा की विभिन्न प्रकृति के कारण फीचर चयन अलग से आयोजित किया जाता है। इसलिए, यह प्रोटोकॉल चरण 1.5, 2.3 और 3.3 में स्तंभ पदों को सही ढंग से असाइन करने के लिए महत्वपूर्ण है।

यदि नैदानिक डेटा में डेटा प्रकार हैं जो संख्यात्मक (या तो निरंतर या बाइनरी मान) नहीं हैं, तो उपयोगकर्ता प्रोटोकॉल अनुभाग 1 में विधि चलाते समय एक त्रुटि में चला सकता है। इस समस्या को ठीक करने के लिए, उपयोगकर्ता केवल संख्यात्मक नैदानिक डेटा शामिल करने के लिए अपने डेटासेट को संशोधित कर सकते हैं। उदाहरण के लिए, सेक्स जैसे श्रेणीबद्ध डेटा को बाइनरी संख्यात्मक डेटा में बदला जा सकता है। एक अन्य मुद्दा डेटा प्रीप्रोसेसिंग में एक त्रुटि है जो उत्पन्न हो सकती है यदि डेटासेट को प्रोटोकॉल सेक्शन 1-प्रोटिओमिक्स डेटा में निर्दिष्ट के रूप में आदेश नहीं दिया गया है, तो पहले, फिर मेटाबोलॉमिक्स, फिर नैदानिक। लक्ष्य चर (जैसे, निदान, ग्रेड, चरण, उपचार) डेटासेट के अंतिम कॉलम में निहित होना चाहिए। प्रोटोकॉल शुरू करने से पहले उचित डेटा पुनर्व्यवस्थित. सिग्नलिंग मॉड्यूल की जैविक व्याख्या के लिए, जीन ऑन्कोलॉजी या जीन सेट संवर्धन विश्लेषण का उपयोग करना भी संभव है। हालांकि, मेटाबोएनालिस्ट चयापचय डेटा को विश्लेषण में एकीकृत करने का लाभ प्रदान करता है, इसलिए एक व्यापक डेटा व्याख्या प्रदान करता है।

विधि को प्रोटिओमिक्स डेटा के विश्लेषण के लिए अनुकूलित किया गया है जो लॉग 2-रूपांतरित अनुपात और मेटाबोलामिक्स डेटा के रूप में व्यक्त किया गया है जो गुना परिवर्तन के रूप में व्यक्त किया गया है। यह विधि की एक संभावित सीमा का गठन करता है क्योंकि यह उन लोगों से अलग डेटा प्रकारों के लिए इसकी प्रयोज्यता को सीमित करता है। हालांकि, डेटा प्री-प्रोसेसिंग स्क्रिप्ट में संशोधन करना संभव है (F01_data_preprocessing_function.py; पूरक फ़ाइल 4 देखें) इसे अन्य प्रकार के आणविक अभिव्यक्ति डेटा, जैसे ट्रांसक्रिप्टोमिक्स डेटा के लिए अनुकूलित करने के लिए। अनुकूलन एल्गोरिथ्म (प्रोटोकॉल अनुभाग 2) का निष्पादन समय लेने वाला है और कई उपयोगकर्ताओं के लिए व्यावहारिक नहीं हो सकता है। इस समस्या को दूर करने का एक संभावित तरीका पुनरावृत्तियों की संख्या को सीमित करना है। अनुकूलन के प्रत्येक दौर चित्रा 2 में दिखाया एक की तरह एक साजिश के लिए एक डेटा बिंदु उत्पन्न करता है. पीसीए के आधार पर एक बेहतर समूह पृथक्करण के अनुरूप डेटा बिंदु (ऑटोएन्कोडर के साथ निकाली गई सुविधाओं पर पीसीए सिल्हूट स्कोर पृथक्करण के शीर्ष 10वें प्रतिशत) का चयन किया जाता है और kprot, kmet और अव्यक्त के लिए इष्टतम मूल्यों की गणना करने के लिए उपयोग किया जाता है चयनित सबसेट के भीतर उनके औसत मूल्यों के रूप में (देखें "M02 - DeepOmicsAE मॉडल optimization.ipynb")। औसत मूल्य की गणना करने के लिए जितने अधिक डेटा बिंदुओं का उपयोग किया जाएगा, इष्टतम मॉडल प्रदर्शन के लिए मापदंडों का अनुमान उतना ही सटीक होगा। चूंकि F02 में एल्गोरिथ्म को अनुकूलित करने के लिए मापदंडों के लिए संभावित मूल्यों की सीमा को पॉप्युलेट करने के लिए डिज़ाइन किया गया है, मॉडल मापदंडों के लिए इष्टतम मूल्यों के लिए पर्याप्त अनुमान प्राप्त करने के लिए 15-20 पुनरावृत्तियां पर्याप्त होंगी। एक और संभावना प्रोटोकॉल अनुभाग 2 को छोड़ने और सीधे प्रोटोकॉल अनुभाग 4 का उपयोग करने की है, जिसके लिए पूर्व अनुकूलन की आवश्यकता नहीं है।

Autoencoders एक उपकरण व्यापक रूप से आयामकमी 14,18 के लिए इस्तेमाल किया जाता है. DeepOmicsAE ऑटोएन्कोडर अव्यक्त परत19,20 से निकाली गई जानकारी की व्याख्या के संदर्भ में, विशेष रूप से मौजूदा दृष्टिकोणों पर कई महत्वपूर्ण सुधार प्रदान करता है। सबसे पहले, वर्कफ़्लो एक स्वचालित ऑप्टिमाइज़ेशन चरण प्रदान करता है जो सुनिश्चित करता है कि वर्कफ़्लो पैरामीटर्स के लिए इष्टतम मान चयनित हैं. दूसरा, ऑटोएन्कोडर मॉडल प्रदर्शन (परिणाम-आधारित सत्यापन) के उपाय के रूप में पीसीए के साथ मापा स्वस्थ और अल्जाइमर रोग रोगियों के बीच अलगाव की डिग्री का उपयोग करता है। तीसरा, यह अव्यक्त परत में प्रत्येक न्यूरॉन के संबंध में मूल विशेषताओं के महत्व की गणना करके एक गहरी सीखने के मॉडल की व्याख्या के लिए एक उपन्यास गणितीय दृष्टिकोण प्रदान करता है। ऐसा करने के लिए, हर सुविधा के लिए एक मामूली गड़बड़ी पेश की जाती है और अव्यक्त परत के प्रत्येक न्यूरॉन में परिणामी परिवर्तन की गणना की जाती है। प्रत्येक न्यूरॉन के लिए सभी नमूनों में पूर्ण परिवर्तनों के औसत से, विधि किसी दिए गए न्यूरॉन के सापेक्ष प्रत्येक सुविधा के लिए एक महत्व स्कोर की गणना करती है, जहां एक बड़ा मूल्य एक अधिक प्रभावशाली विशेषता का तात्पर्य है। जबकि अन्य गहरी सीखने के तरीकों पहले अल्जाइमर रोग21,22 के संदर्भ में आणविक अभिव्यक्ति डेटा का विश्लेषण करने के लिए नियोजित किया गया है, autoencoders सीमित अनुप्रयोगों पड़ा है. पिछले तरीकों की तुलना में, यहां प्रस्तुत वर्कफ़्लो नैदानिक सुविधाओं और आणविक सिग्नलिंग घटनाओं के बीच बातचीत की पहचान कर सकता है। इसके अलावा, डीपओमिक्सएई, हमारे ज्ञान के लिए, पहला वर्कफ़्लो है जो अल्जाइमर रोग की शुरुआत और प्रगति को समझने के लिए प्रोटिओमिक, मेटाबोलोमिक और नैदानिक डेटा के एकीकरण पर केंद्रित है।

न्यूरोडीजेनेरेटिव रोगों का बहु-ओम अभी तक अच्छी तरह से स्थापित नहीं हुआ है। यह अध्ययन कार्यात्मक आणविक परिदृश्य (यानी, प्रोटिओम और मेटाबोलोम) और अल्जाइमर रोग रोगियों की नैदानिक विशेषताओं का विश्लेषण करने के लिए डिज़ाइन की गई एक विधि प्रस्तुत करता है। पिछले अध्ययनों ने न्यूरोडीजेनेरेशन 23,24,25में चयापचय के महत्व पर सुराग प्रदान किए हैं; हालाँकि, अभी भी बहुत कुछ समझना बाकी है। डीपओमिक्सएई उच्च-आयामी डेटा से प्रासंगिक जैविक जानकारी निकालने के लिए एक शक्तिशाली उपकरण का गठन करता है क्योंकि यह अल्जाइमर रोग की प्रगति के लिए स्थापित योगदानकर्ताओं की सही पहचान करता है। इनमें ग्लूटामेटेर्जिक सिनैप्स, एक्सोनल गाइडेंस और दीर्घकालिक पोटेंशिएशन (चित्र 4)26,27का डिसरेग्यूलेशन शामिल है। उन लोगों के बीच, glumatergic प्रणाली रोग28 के उपचार के लिए एक प्रसिद्ध चिकित्सीय लक्ष्य है. विधि का एक महत्वपूर्ण अनुप्रयोग यह है कि यह निकाली गई सुविधाओं का एक सेट प्रदान करता है जिसका उपयोग रोग की स्थिति की भविष्यवाणी के लिए मॉडल को प्रशिक्षित करने के लिए किया जा सकता है। हालांकि, न्यूरॉन्स के भीतर निहित कार्यों के वजन के यादृच्छिक आरंभीकरण के कारण ऑटोएन्कोडर आंतरिक रूप से अस्थिर हैं। इसलिए, भविष्य के काम को स्थिरता बढ़ाने के लिए रणनीति विकसित करने पर ध्यान केंद्रित करना चाहिए। इस तरह के काम से एक अधिक सामान्य मॉडल उत्पन्न होगा जो मजबूत निकाले गए सुविधाओं को आउटपुट करता है जो भविष्य कहनेवाला कार्यों के लिए बेहतर अनुकूल होगा। इस वर्कफ़्लो का दूसरा प्रमुख अनुप्रयोग यह है कि इसका उपयोग प्रोटिओमिक, मेटाबोलोमिक और जानकारी की नैदानिक परतों (चित्रा 4) के बीच बातचीत की व्याख्या करने के लिए किया जा सकता है, जो विशिष्ट नैदानिक विशेषताओं को आणविक पैटर्न के साथ कैसे बातचीत करता है, इस बारे में अंतर्दृष्टि प्रदान करता है। इसलिए, यह वर्कफ़्लो अलग-अलग नैदानिक विशेषताओं के साथ उप-जनसंख्या में बीमारी के ड्राइवरों पर नया ज्ञान उत्पन्न कर सकता है।

संक्षेप में, DeepOmicsAE आणविक अभिव्यक्ति डेटा और नैदानिक सुविधाओं पर विशेष जोर देने के साथ बहु omics डेटा का विश्लेषण करने के लिए एक कार्यप्रवाह प्रदान करता है. वर्कफ़्लो को ट्रांसक्रिप्टोमिक्स डेटा का विश्लेषण करने के लिए अनुकूलित किया जा सकता है और साथ ही कैंसर, मधुमेह, और हृदय, फेफड़े, या गुर्दे की बीमारी सहित विभिन्न बीमारियों से डेटासेट का अध्ययन करने के लिए उपयोग किया जा सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखक घोषणा करता है कि उनके पास हितों का कोई टकराव नहीं है।

Acknowledgments

इस काम को एनआईएच ग्रांट CA201402 और कॉर्नेल सेंटर फॉर वर्टेब्रेट जीनोमिक्स (सीवीजी) डिस्टिंग्विश्ड स्कॉलर अवार्ड द्वारा समर्थित किया गया था। यहां प्रकाशित परिणाम संपूर्ण या आंशिक रूप से AD नॉलेज पोर्टल (https://adknowledgeportal.org) से प्राप्त डेटा पर आधारित हैं। अध्ययन डेटा रश अल्जाइमर रोग केंद्र, रश यूनिवर्सिटी मेडिकल सेंटर, शिकागो द्वारा प्रदान किए गए नमूनों के आधार पर एडी (U01AG046161 और U01AG061357) के लिए त्वरित चिकित्सा साझेदारी के माध्यम से प्रदान किए गए थे। डेटा संग्रह एनआईए अनुदान P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, सार्वजनिक स्वास्थ्य के इलिनोइस विभाग, और ट्रांसलेशनल जीनोमिक्स रिसर्च इंस्टीट्यूट द्वारा वित्त पोषण के माध्यम से समर्थित किया गया था। मेटाबोलॉमिक्स डेटासेट मेटाबोलन में उत्पन्न किया गया था और एडीएमसी द्वारा प्रीप्रोसेस किया गया था।

Materials

Name Company Catalog Number Comments
Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817x400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

DOWNLOAD MATERIALS LIST

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. A unified approach to interpreting model predictions. Lundberg, S. M., Allen, P. G., Lee, S. -I. 31st Conference on Neural Information Processing Systems (NIPS 2017), , Long Beach, CA, USA. (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders - Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Tags

जीवविज्ञान अंक 202
DeepOmicsAE: प्रोटिओमिक्स, मेटाबोलॉमिक्स और क्लिनिकल डेटा के गहन शिक्षण विश्लेषण के साथ अल्जाइमर रोग में सिग्नलिंग मॉड्यूल का प्रतिनिधित्व करना
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Panizza, E. DeepOmicsAE:More

Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer's Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter