Summary
मौजूदा एल्गोरिथ्म एक समाधान एक के लिए एक अचिह्नित खोज dataset जनरेट करें । इस प्रोटोकॉल कई इसी तरह प्रभावी समाधान के अस्तित्व को दर्शाता है और एक उपयोगकर्ता के अनुकूल सॉफ्टवेयर की मदद के लिए जैव चिकित्सा शोधकर्ताओं प्रस्तावित चुनौती के लिए उनके डेटासेट की जांच प्रस्तुत करता है । कंप्यूटर वैज्ञानिक भी इस सुविधा को अपने स्मार्कर डिटेक्शन एल्गोरिदम में उपलब्ध करा सकते हैं ।
Abstract
एक उच्च-प्रवाह ' ओमिक्स ' शोधकर्ताओं के लिए अधिक महत्वपूर्ण बायोमेडिकल सवालों में से एक है, और लगभग सभी मौजूदा मार्कर का पता लगाने एल्गोरिदम एक दिए गए डेटासेट के लिए अनुकूलित प्रदर्शन माप के साथ एक जैव-चिह्न सबसेट उत्पन्न . हालांकि, हाल के एक अध्ययन में इसी तरह प्रभावी या यहां तक कि समान वर्गीकरण प्रदर्शन के साथ कई अगोचर सबसेट के अस्तित्व का प्रदर्शन किया । इस प्रोटोकॉल द्विआधारी वर्गीकरण प्रदर्शन, एक प्रयोक्ता परिभाषित कटऑफ से बेहतर के साथ एक अगोचर सबसेट का पता लगाने के लिए एक सरल और सीधी पद्धति प्रस्तुत करता है । प्रोटोकॉल डेटा तैयार करने और लदान, आधारभूत जानकारी सारांश, पैरामीटर ट्यूनिंग, अचिह्नक स्क्रीनिंग, परिणाम दृश्य और व्याख्या, अगोचर जीन एनोटेशन, और परिणाम और दृश्य पर निर्यात के होते है प्रकाशन गुणवत्ता । प्रस्तावित अगोचर स्क्रीनिंग की रणनीति सहज ज्ञान युक्त है और एक आम नियम को दर्शाता है के लिए एक सामांय शासन का पता लगाने एल्गोरिदम । एक प्रयोक्ता के अनुकूल ग्राफिकल यूजर इंटरफेस (जीयूआई) प्रोग्रामिंग भाषा पायथन का उपयोग कर विकसित किया गया था, की अनुमति बायोमेडिकल शोधकर्ताओं को उनके परिणामों के लिए सीधी पहुंच है । kSolutionVis के सोर्स कोड और मैनुअल को http://www.healthinformaticslab.org/supp/resources.php से डाउनलोड किया जा सकता है ।
Introduction
बाइनरी वर्गीकरण, एक जैव चिकित्सा क्षेत्र में सबसे अधिक जांच की और चुनौतीपूर्ण डेटा खनन समस्याओं में से एक, एक वर्गीकरण सबसे सटीक भेदभाव शक्ति1के साथ नमूनों के दो समूहों पर प्रशिक्षित मॉडल बनाने के लिए प्रयोग किया जाता है, 2 , 3 , 4 , 5 , 6 , 7. हालांकि, बड़े जैव चिकित्सा क्षेत्र में उत्पंन डेटा अंतर्निहित "बड़े पी छोटे n प्रतिमान" है, आमतौर पर बहुत नमूनों की संख्या6,8,9की तुलना में बड़ा के साथ । इसलिए, बायोमेडिकल शोधकर्ताओं के लिए वर्गीकरण एल्गोरिदम का उपयोग करने से पहले सुविधा आयाम को कम करने के लिए है अधिक फिटिंग समस्या8,9से बचने के । निदान के एक सबसेट के रूप में परिभाषित कर रहे है पता चलता है स्वस्थ नियंत्रण नमूने से एक दिया रोग के रोगियों को अलग सुविधाओं के10,11। मरीजों को आम तौर पर सकारात्मक नमूनों के रूप में परिभाषित कर रहे हैं, और स्वस्थ नियंत्रण नकारात्मक नमूने12के रूप में परिभाषित कर रहे हैं ।
हाल के अध्ययनों से सुझाव दिया है कि वहां एक से अधिक समाधान समान या इसी तरह प्रभावी वर्गीकरण प्रदर्शन के लिए एक बायोमेडिकल5डेटासेट के लिए मौजूद है । लगभग सभी सुविधा चयन एल्गोरिथ्म नियतात्मक एल्गोरिथ्म, एक ही dataset के लिए केवल एक समाधान का निर्माण कर रहे हैं । आनुवंशिक एल्गोरिदम एक साथ समान प्रदर्शन के साथ कई समाधान उत्पन्न कर सकते हैं, लेकिन वे अभी भी एक दिया डेटासेट के लिए उत्पादन के रूप में सबसे अच्छा फिटनेस समारोह के साथ एक समाधान का चयन करने के लिए प्रयास करें13,14.
सुविधा चयन एल्गोरिथ्म मोटे तौर पर या तो फ़िल्टर या रैपर12के रूप में समूहीकृत किया जा सकता है । फ़िल्टर एल्गोरिथ्म शीर्ष-k सुविधाओं को बाइनरी क्लास लेबल्स के साथ उनकी महत्वपूर्ण व्यक्तिगत संबद्धता द्वारा क्रमित किया जाता है जो इस धारणा पर आधारित होता है कि सुविधाएँ एक-दूसरे से स्वतंत्र हैं15,16,17 . हालांकि इस धारणा लगभग सभी वास्तविक दुनिया डेटासेट के लिए सच नहीं पकड़ है, अनुमानी फिल्टर नियम कई मामलों में अच्छी तरह से करता है, उदाहरण के लिए, mRMR (न्यूनतम अतिरेक और अधिकतम प्रासंगिकता) एल्गोरिथ्म, Wilcoxon परीक्षण आधारित सुविधा फ़िल्टरिंग (WRank) एल्गोरिथ्म, और ROC (रिसीवर ऑपरेटिंग विशेषता) प्लॉट आधारित फ़िल्टरिंग (ROCRank) एल्गोरिथ्म । mRMR, एक कुशल फिल्टर एल्गोरिथ्म है क्योंकि यह बहुत छोटी समस्याओं की एक श्रृंखला के साथ मिश्रित आकलन समस्या अनुमानित, अधिकतम निर्भरता सुविधा चयन एल्गोरिथ्म, जिनमें से प्रत्येक केवल दो चर शामिल है की तुलना, और इसलिए pairwise संयुक्त संभावनाओं का उपयोग करता है जो और अधिक मजबूत कर रहे है18,19। हालांकि, mRMR कुछ सुविधाओं की उपयोगिता को नजरअंदाज कर सकते है क्योंकि यह सुविधाओं के बीच बातचीत जो प्रासंगिकता को बढ़ा सकते है उपाय नहीं करता है, और इस तरह कुछ सुविधा संयोजन है कि व्यक्तिगत रूप से बेकार है लेकिन केवल जब संयुक्त उपयोगी होते है याद करते हैं । WRank एल्गोरिथ्म नमूने के दो वर्गों के बीच कैसे भेदभाव एक सुविधा का एक गैर पैरामीट्रिक स्कोर की गणना करता है, और20outliers,21के लिए अपनी मजबूती के लिए जाना जाता है । इसके अलावा, ROCRank एल्गोरिथ्म मूल्यांकन कैसे महत्वपूर्ण क्षेत्र ROC वक्र (ईमेज) के तहत एक विशेष सुविधा के लिए है जांच की बाइनरी वर्गीकरण प्रदर्शन22,23।
दूसरी ओर, एक रैपर किसी दिए गए सुविधा सबसेट के पूर्व-निर्धारित वर्गीकारक के प्रदर्शन का मूल्यांकन करता है, एक अनुमानी नियम द्वारा जनरेट किया गया iteratively, और श्रेष्ठ प्रदर्शन माप24के साथ सुविधा सबसेट बनाता है । एक रैपर आम तौर पर एक फ़िल्टर वर्गीकरण प्रदर्शन में प्रदर्शन लेकिन धीमी25चलाता है । उदाहरण के लिए, नियमित रूप से रैंडम फ़ॉरेस्ट (RRF)26,27 एल्गोरिथ्म प्रत्येक रैंडम फ़ॉरेस्ट नोड, जिसका सुविधा महत्व स्कोर ्ीनि अनुक्रमणिका द्वारा मूल्यांकित है पर प्रशिक्षण डेटा का एक सबसेट पर सुविधाओं का मूल्यांकन करके एक लालची नियम का उपयोग करता है . एक नई सुविधा का चुनाव दंडित किया जाएगा अगर इसकी जानकारी हासिल है कि चुना सुविधाओं में सुधार नहीं करता है । इसके अतिरिक्त, Microarrays के लिए पूर्वानुमान विश्लेषण (पाम)28,29 एल्गोरिथ्म, यह भी एक आवरण एल्गोरिथ्म, वर्ग लेबल में से प्रत्येक के लिए एक केन्द्रक की गणना करता है, और फिर सुविधाओं का चयन करने के लिए समग्र की ओर जीन centroids हटना वर्ग केन्द्रक. पाम की सुविधाओं के लिए मजबूत है ।
शीर्ष वर्गीकरण प्रदर्शन के साथ एकाधिक समाधान किसी भी दिए गए dataset के लिए आवश्यक हो सकता है । सबसे पहले, एक नियतात्मक एल्गोरिथ्म के अनुकूलन लक्ष्य एक गणितीय सूत्र द्वारा परिभाषित किया गया है, उदाहरणके लिए, न्यूनतम त्रुटि दर30, जो जैविक नमूनों के लिए जरूरी आदर्श नहीं है. दूसरे, एक dataset एकाधिक, काफी अलग है, समान प्रभावी या भी समान प्रदर्शन के साथ समाधान हो सकता है. लगभग सभी मौजूदा सुविधा चयन एल्गोरिथ्म व्युत्क्रम आउटपुट31के रूप में इन समाधानों में से एक का चयन करेगा ।
यह अध्ययन किसी भी दिया द्विआधारी वर्गीकरण डेटासेट के लिए समान प्रदर्शन के साथ कई सुविधा चयन समाधान पैदा करने के लिए एक सूचना विश्लेषणात्मक प्रोटोकॉल परिचय होगा । यह देखते हुए कि सबसे अधिक चिकित्सा शोधकर्ताओं के साथ परिचित नहीं हैं, क्योंकि एक उपयोगकर्ता के अनुकूल ग्राफिकल यूजर इंटरफेस (GUI) के लिए जैव चिकित्सा द्विआधारी वर्गीकरण डेटासेट के तेजी से विश्लेषण की सुविधा विकसित की है । विश्लेषण प्रोटोकॉल डेटा लोड हो रहा है और सारांश, पैरामीटर ट्यूनिंग, पाइपलाइन निष्पादन, और परिणाम व्याख्या के होते हैं । एक साधारण क्लिक के साथ, शोधकर्ता करने के लिए सक्षम है के लिए-अगोचर उपसमुच्चय और प्रकाशन गुणवत्ता दृश्य भूखंडों । प्रोटोकॉल तीव्र लिम्फोब्लासटिक ल्यूकेमिया (सभी), यानी, ALL1 और ALL212के दो द्विआधारी वर्गीकरण डेटासेट के transcriptomes का उपयोग कर परीक्षण किया गया है । ALL1 और ALL2 के डेटासेट को http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi पर उपलब्ध ब्रॉड इंस्टिट्यूट जीनोम डेटा एनालिसिस सेंटर से डाउनलोड किया गया । ALL1 १२,६२५ सुविधाओं के साथ १२८ नमूने शामिल हैं । इन नमूनों में से ९५ बी-सेल सभी हैं और ३३ टी-सेल सभी हैं । ALL2 १२,६२५ सुविधाओं के साथ के रूप में अच्छी तरह से १०० नमूने शामिल हैं । इन नमूनों में से ६५ रोगियों कि पलटा हुआ और ३५ रोगियों कि नहीं किया सामना कर रहे हैं । ALL1 एक आसान द्विआधारी वर्गीकरण डेटासेट, चार फिल्टर और चार wrappers ९६.७% की जा रही है की एक ंयूनतम सटीकता के साथ था, और 8 सुविधा चयन एल्गोरिदम के 6 १००%12प्राप्त करने । जबकि ALL2 एक और अधिक कठिन डेटासेट था, इसके बाद के संस्करण 8 सुविधा चयन एल्गोरिदम से कोई बेहतर ८३.७% सटीकता प्राप्त12. यह सबसे अच्छा सटीकता ५६ आवरण एल्गोरिथ्म, सहसंबंध आधारित सुविधा चयन (सीएफएस) द्वारा पता लगाया सुविधाओं के साथ हासिल किया गया था ।
Subscription Required. Please recommend JoVE to your librarian.
Protocol
नोट: निंनलिखित प्रोटोकॉल सूचना का विवरण विश्लेषणात्मक प्रक्रिया और छद्म प्रमुख मॉड्यूल के कोड का वर्णन करता है । स्वचालित विश्लेषण प्रणाली अजगर संस्करण 3.6.0 और अजगर मॉड्यूल पांडा, एबीसी, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, मठ और matplotlib का उपयोग कर विकसित किया गया था । इस अध्ययन में प्रयुक्त सामग्री सामग्री की तालिकामें सूचीबद्ध हैं ।
1. डेटा मैट्रिक्स और वर्ग लेबल तैयार करें
- डेटा मैट्रिक्स फ़ाइल को टैब-या अल्पविराम-सीमांकित मैट्रिक्स फ़ाइल के रूप में तैयार करें, जैसा चित्र 1aमें दिखाया गया है ।
नोट: प्रत्येक पंक्ति में एक सुविधा के सभी मान हैं, और पहला आइटम सुविधा का नाम है । microarray-आधारित transcriptome dataset के लिए एक probeset id है या किसी methylomic डेटासेट में उसके मिथाइल मान के साथ किसी cysteine अवशेषों की तरह कोई अन्य मान id हो सकता है. प्रत्येक स्तंभ दिए गए नमूने का सुविधा मान देता है, पहला आइटम नमूना नाम के साथ । पंक्ति को स्तंभों में किसी टैब (चित्र 1b) या अल्पविराम (आरेख 1C) द्वारा अलग किया जाता है । एक टैब-सीमांकित मैट्रिक्स फ़ाइल को फ़ाइल एक्सटेंशन. tsv द्वारा पहचाना गया है, और एक अल्पविराम-सीमांकित मैट्रिक्स फ़ाइल एक्सटेंशन. csv है । यह फ़ाइल किसी मैट्रिक्स को या तो. tsv या. csv स्वरूप जैसे Microsoft Excel सॉफ़्टवेयर से सहेज कर जनरेट की जा सकती है । डाटा मैट्रिक्स भी कंप्यूटर कोडिंग द्वारा उत्पंन किया जा सकता है । - वर्ग लेबल फ़ाइल को टैब-या अल्पविराम-सीमांकित मैट्रिक्स फ़ाइल (चित्रा 1 d), डेटा मैट्रिक्स फ़ाइल के समान के रूप में तैयार करें ।
नोट: पहला स्तंभ नमूना नाम देता है, और प्रत्येक नमूने का वर्ग लेबल वर्गशीर्षक स्तंभ में दिया जाता है । अधिक से अधिक संगतता कोडन प्रक्रिया में माना जाता है, ताकि अतिरिक्त कॉलम जोड़ा जा सकता है । वर्ग लेबल फ़ाइल को. tsv या. csv फ़ाइल के रूप में स्वरूपित किया जा सकता है । स्तंभ वर्ग में नाम किसी भी पद हो सकते हैं, और नमूनों की दो से अधिक कक्षाएं हो सकती हैं । उपयोगकर्ता निंनलिखित विश्लेषण के लिए कक्षाओं के किसी भी दो चुन सकते हैं ।
2. डेटा मैट्रिक्स और वर्ग लेबल लोड
- डेटा मैट्रिक्स और वर्ग लेबल सॉफ़्टवेयर में लोड करें । उपयोगकर्ता-निर्दिष्ट डेटा मैट्रिक्स फ़ाइल का चयन करने के लिए बटन लोड डेटा मैट्रिक्स क्लिक करें । संगत वर्ग लेबल फ़ाइल का चयन करने के लिए बटन लोड वर्ग लेबल क्लिक करें ।
नोट: दोनों फ़ाइलों के लोड होने के बाद, kSolutionVis दो फ़ाइलों के बीच संगतता की एक रुटीन स्क्रीन का संचालन करेगा । - डेटा मैट्रिक्स फ़ाइल से सुविधाओं और नमूनों का सारांश । डेटा मैट्रिक्स फ़ाइल के आकार का अनुमान लगाएं ।
- नमूने और वर्ग लेबल फ़ाइल से क्लासेस संक्षिप्त करें । वर्ग लेबल फ़ाइल के आकार का अनुमान लगाएं ।
- परीक्षण कि क्या डेटा मैट्रिक्स से प्रत्येक नमूना एक वर्ग लेबल है । नमूनों की संख्याओं को वर्ग लेबल्स के साथ सारांशित करना.
3. सारांश और डेटासेट के आधारभूत आँकड़े प्रदर्शित
- किसी भी निर्दिष्ट कीवर्ड इनपुट के बिना बटन संक्षेपमें क्लिक करें, और सॉफ्टवेयर 20 अनुक्रमित सुविधाओं और इसी सुविधाओं के नाम प्रदर्शित करेगा ।
नोट: उपयोगकर्ताओं को वे सभी इनपुट नमूनों के बीच इसके आधारभूत आँकड़े और इसी मूल्य वितरण को देखने के लिए चाहते हैं सुविधा का नाम निर्दिष्ट करने की जरूरत है. - एक कीवर्ड प्रदान करें, उदाहरण के लिए "1000_at", पाठ बॉक्स सुविधा में संक्षेप किया जा करने के लिए एक विशिष्ट सुविधा मिल. इस दी गई सुविधा के लिए आधारभूत आंकड़े प्राप्त करने के लिए बटन सारांश क्लिक करें ।
नोट: कीवर्ड, उपयोगकर्ताओं के लिए खोज प्रक्रिया को सुविधाजनक बनाने के लक्ष्य सुविधा नामों में कहीं भी दिखाई दे सकते हैं. - दिए गए कीवर्ड के साथ एक से अधिक सुविधा ढूँढने के लिए बटन सारांश पर क्लिक करें और फिर एक विशेष सुविधा सारांशित करने के ऊपर के चरण के साथ आगे बढ़ने के लिए अनन्य सुविधा ID निर्दिष्ट करे.
4. वर्ग लेबल और शीर्ष स्थान की सुविधाओं की संख्या निर्धारित करें
- के नाम चुनें धनात्मक ("P (३३)") और ऋणात्मक ("N (९५)") क्लासेस ड्रॉपडाउन बॉक्स में वर्ग धनात्मक और वर्ग ऋणात्मक, जैसा चित्र 2 (मध्य) में दिखाया गया है ।
नोट: यह एक संतुलित बाइनरी वर्गीकरण dataset, यानी, सकारात्मक और नकारात्मक नमूनों की संख्या के बीच अंतर कम है चुनने के लिए सुझाव दिया है । नमूनों की संख्या दो ड्रॉपडाउन बक्सों में प्रत्येक वर्ग लेबल के नाम के बाद लघुकोष्ठक में भी दी जाती है. - ड्रॉपडाउन बॉक्स Top_X (?) में शीर्ष स्थान वाली सुविधाओं (पैरामीटर pTopX) की संख्या के रूप में 10 चुनें सुविधा सबसेट की एक व्यापक स्क्रीन के लिए ।
नोट: सॉफ़्टवेयर स्वचालित रूप से सभी सुविधाओं को पी-मान द्वारा परिकलित प्रत्येक सुविधा का धनात्मक और ऋणात्मक वर्गों की तुलना में एक t-परीक्षण द्वारा रैंक किया जाता है. एक छोटे पीमूल्य के साथ एक सुविधा के नमूनों के दो वर्गों के बीच एक बेहतर भेदभाव शक्ति है । व्यापक स्क्रीनिंग मॉड्यूल गणना सघन है । डिफ़ॉल्ट रूप से 10 पैरामीटर pTopX है । वे अच्छा वर्गीकरण प्रदर्शन के साथ संतोषजनक सुविधा उपसमुच्चय मिल जब तक उपयोगकर्ताओं, 10 से ५० की रेंज में इस पैरामीटर बदल सकते हैं ।
5. विभिन्न प्रदर्शन के लिए धुन प्रणाली मापदंडों
- चयनित वर्गीकारक एक्सट्रीम लर्निंग मशीन (एल्म) के लिए ड्रॉपडाउन बॉक् स एसीसी/bAcc (?) में प्रदर्शन मापन (pMeasurement) सटीकता (एसीसी) चुनें । इस पैरामीटर का एक अंय विकल्प माप संतुलित सटीकता (bAcc) है ।
ध्यान दें: TP, एफ एन, तमिलनाडु, और FP सच सकारात्मक, झूठी नकारात्मक, सच नकारात्मक और झूठी सकारात्मक, क्रमशः की संख्या हो । माप एसीसी के रूप में परिभाषित किया गया है (tp + तमिलनाडु)/(tp + एफ एन + तमिलनाडु + FP), जो एक संतुलित डेटासेट6पर सबसे अच्छा काम करता है । लेकिन एक वर्गीकारक एसीसी के लिए अनुकूलित करने के लिए नकारात्मक नमूनों की संख्या सकारात्मक लोगों की तुलना में बहुत बड़ा है, तो सभी नमूनों को ऋणात्मक वर्ग को असाइन करने के लिए जाता है । bAcc (sn + Sp) के रूप में परिभाषित किया गया है/2, जहां sn = tp/(टी. पी. + एफ एन) और Sp = तमिलनाडु/(तमिलनाडु + FP) सकारात्मक और नकारात्मक नमूनों के लिए सही ढंग से अनुमानित दरों रहे हैं, क्रमशः । इसलिए, bAcc दो वर्गों पर भविष्यवाणी प्रदर्शन को सामान्य, और दो असंतुलित वर्गों पर एक संतुलित भविष्यवाणी प्रदर्शन के लिए नेतृत्व कर सकते हैं । एसीसी pMeasurementके डिफ़ॉल्ट विकल्प है । सॉफ्टवेयर वर्गीकरण प्रदर्शन की गणना करने के लिए डिफ़ॉल्ट रूप से वर्गीकारक एल्म का उपयोग करता है । उपयोगकर्ता भी SVM (समर्थन वेक्टर मशीन), KNN (कश्मीर निकटतम पड़ोसी), निर्णय पेड़, या भोली Bayes से एक वर्गीकारक चुन सकते हैं । - इनपुट बॉक्स pCutoff:में निर्दिष्ट प्रदर्शन मापन के लिए कटऑफ मान ०.७० (पैरामीटर pCutoff) चुनें.
नोट: दोनों एसीसी और bAcc श्रेणी के बीच 0 और 1, और उपयोगकर्ता एक मान निर्दिष्ट कर सकतेहै pCutoff [0, 1] मिलान समाधान प्रदर्शित करने के लिए cutoff के रूप में । सॉफ्टवेयर एक व्यापक सुविधा सबसेट स्क्रीनिंग किया जाता है, और pCutoff का एक उपयुक्त विकल्प 3 डी दृश्य अधिक सहज और स्पष्ट कर देगा । pCutoff के लिए डिफ़ॉल्ट मान ०.७० है ।
6. पाइपलाइन चलाएँ और इंटरैक्टिव दृश्य परिणाम का उत्पादन
- पाइप लाइन चलाने और विज़ुअलाइज़ेशन प्लॉट जेनरेट करने के लिए बटन का विश्लेषण करें, जैसा चित्र 2 (नीचे) में दिखाया गया है.
नोट: वाम तालिका सभी सुविधा सबसेट और उनके pMeasurement वर्गीकारक एल्म के 10 गुना पार मांयता रणनीति द्वारा गणना की, जैसा कि पहले5वर्णित देता है । दो 3d तितर बितर भूखंडों और दो-लाइन भूखंडों वर्तमान पैरामीटर सेटिंग्स के साथ सुविधा सबसेट स्क्रीनिंग प्रक्रिया के लिए तैयार हैं । - pMeasurement cutoff (पैरामीटर piCutoff, इनपुट बॉक्स मान) के डिफ़ॉल्ट मान के रूप में ०.७० चुनें, और सबसे अच्छी सुविधा सबसेट (पैरामीटर piFSNum) की संख्या के डिफ़ॉल्ट के रूप में 10.
नोट: पाइपलाइन पैरामीटर pTopX, pMeasurement, और pCutoffका उपयोग कर निष्पादित है । पता लगाया सुविधा सबसेट आगे cutoff piCutoffका उपयोग करते हुए हो सकता है, हालांकि piCutoff pCutoffसे छोटी नहीं हो सकता । इसलिए, piCutoff pCutoff के रूप में प्रारंभ किया गया है और केवल सुविधा सबसेट कार्यक्षमता माप के साथ ≥ piCutoff visualized होगा । piCutoff का डिफ़ॉल्ट मान pCutoffहै । kSolutionVis कई समाधानों का पता लगाता है, और केवल सबसे अच्छा piFSNum (डिफ़ॉल्ट: 10) सुविधा सबसेट विज़ुअलाइज़ किया जाएगा । यदि सॉफ़्टवेयर द्वारा खोजे गए सुविधा सबसेट की संख्या piFSNumसे छोटी है, तो सभी सुविधा सबसेट्स विज़ुअलाइज़ हो जाएंगे । - चित्र 3में दर्शाए अनुसार, सॉफ़्टवेयर द्वारा खोजे गए सुविधाओं को एकत्रित और उसकी व्याख्या करें ।
नोट: बाएँ बॉक्स में तालिका पता लगाया गया सुविधा सबसेट और उनके प्रदर्शन माप दिखाता है । पहले तीन स्तंभों के नाम "F1", "F2", और "F3" हैं । प्रत्येक सुविधा सबसेट में तीन सुविधाएं उनकी रैंकिंग क्रम में एक पंक्ति (F1 < F2 < F3) में दी गई हैं । अंतिम स्तंभ प्रदर्शन माप (एसीसी या bAcc) प्रत्येक सुविधा सबसेट का देता है, और इसका स्तंभ नाम (एसीसी या bAcc) pMeasurementका मान है ।
7.3 डी तितर बितर भूखंडों की व्याख्या-कल्पना और इसी तरह प्रभावी द्विआधारी वर्गीकरण प्रदर्शन 3d तितर बितर भूखंडों का उपयोग कर के साथ सुविधा सबसेट की व्याख्या
- चित्र 3 (मध्य बॉक्स) में दर्शाए अनुसार, सॉफ़्टवेयर द्वारा पता लगाए गए सर्वश्रेष्ठ वर्गीकरण प्रदर्शन (एसीसी या bAcc) के साथ शीर्ष 10 फ़ीचर उपसेट्स के 3d स्कैटर प्लॉट जेनरेट करने के लिए विश्लेषण बटन क्लिक करें । अपने रैंकों के आरोही क्रम में एक सुविधा सबसेट में तीन सुविधाओं को सॉर्ट करें और f1/f2/f3 अक्ष, यानी, f1 < f2 < f3 के रूप में तीन सुविधाओं के रैंक का उपयोग करते हैं ।
नोट: एक बिंदु का रंग संगत सुविधा सबसेट के बाइनरी वर्गीकरण प्रदर्शन का प्रतिनिधित्व करता है । किसी dataset समान प्रभावी प्रदर्शन माप के साथ एकाधिक सुविधा सबसेट हो सकता है । इसलिए, एक इंटरैक्टिव और सरलीकृत तितर बितर भूखंड आवश्यक है । - ०.७० में इनपुट बॉक्स pCutoff के लिए मान परिवर्तित करें : और 3 डी स्कैटर प्लॉट की कार्यक्षमता माप ≥ piCutoffके साथ, चित्र 3 (दाएँ बॉक्स) में देखा के रूप में जनरेट करने के लिए विश्लेषण बटन क्लिक करे । 3 डी तितर बितर भूखंड के देखने के कोण को मैंयुअल रूप से ट्यून करने के लिए एक नई विंडो खोलने के लिए बटन 3d ट्यूनिंग क्लिक करें ।
नोट: प्रत्येक सुविधा सबसेट ऊपर के रूप में एक ही तरह से एक डॉट द्वारा प्रतिनिधित्व किया है । 3 डी तितर बितर भूखंड डिफ़ॉल्ट कोण में उत्पंन किया गया था । 3 डी दृश्य और ट्यूनिंग की सुविधा के लिए, एक अलग विंडो बटन 3d ट्यूनिंगक्लिक करके खोला जाएगा । - पता लगाए गए सुविधा सबसेट के अतिरेक को कम करने के लिए बटन को कम क्लिक करें ।
नोट: उपयोगकर्ता आगे सुविधा तीन प्रबंधन का चयन करें और सुविधा सबसेट के अतिरेक को कम करने के लिए चाहते हैं, तो सॉफ्टवेयर भी mRMR सुविधा चयन एल्गोरिथ्म का उपयोग कर इस समारोह प्रदान करता है. कम बटन पर क्लिक करने के बाद, kSolutionVis सुविधा तीन प्रबंधन में उन बेमानी सुविधाओं को दूर करेगा और मेज और दो तितर बितर भूखंडों ऊपर उल्लेख किया । सुविधा तीन प्रबंधन की निकाली गई सुविधाओं को तालिका में कुंजी शब्द द्वारा प्रतिस्थापित किया जाएगा. f1/f2/f3 अक्ष में कोई नहीं के मान piFSNum (f1/f2/f3 के सामांय मूल्य की श्रेणी [1, top_x]) के मान के रूप में चिह्नित किया जाएगा । इसलिए, कोई भी मान शामिल डॉट्स 3d प्लॉट में "ग़ैर" डॉट्स होने के लिए प्रकट हो सकता है । मैन्युअल रूप से स्वरित्र 3d प्लॉट में "3d डॉट प्लॉट की मैन्युअल ट्यूनिंग" अनुपूरक सामग्री में पाई जा सकती है.
8. जीन एनोटेशन और मानव रोगों के साथ उनके संघों खोजें
नोट: चरण 8 से 10 कैसे डीएनए और प्रोटीन दोनों के अनुक्रम स्तर से एक जीन व्याख्या करने के लिए उदाहरण देकर स्पष्ट करना होगा । सबसे पहले, इसके बाद के संस्करण कदम से प्रत्येक के जीन का प्रतीक आईडी डेटाबेस दाऊद३२से प्राप्त किया जाएगा, और फिर दो प्रतिनिधि वेब सर्वर के लिए डीएनए और प्रोटीन के स्तर से इस जीन प्रतीक का विश्लेषण किया जाएगा, क्रमशः । सर्वर GeneCard एक दिया जीन प्रतीक का एक व्यापक कार्यात्मक एनोटेशन प्रदान करता है, और आदमी डाटाबेस (OMIM) में ऑनलाइन Mendelian विरासत रोग के सबसे व्यापक उपचारात्मक-जीन संघों प्रदान करता है । सर्वर UniProtKB सबसे व्यापक प्रोटीन डाटाबेस में से एक है, और सर्वर समूह आधारित पूर्वानुमान प्रणाली (जीपीएस) kinases की एक बहुत बड़ी सूची के लिए संकेतन फास्फारिलीकरण की भविष्यवाणी की है ।
- कॉपी और एक वेब ब्राउज़र में डेटाबेस डेविड के वेब लिंक पेस्ट और इस डाटाबेस के वेब पेज खोलो । लिंक पर क्लिक करें जीन आईडी चित्रा 4a में देखा रूपांतरण और इनपुट की सुविधा IDs 38319_at/38147_at/33238_at dataset ALL1 (चित्रा 4B) के पहले के उप सबसेट की । लिंक जीन सूची पर क्लिक करें और चित्र 4Bमें दिखाए गए के रूप में प्रस्तुत सूची पर क्लिक करें । ब्याज की एनोटेशन पुनः प्राप्त करने और जीन सूची दिखाएं क्लिक करें (चित्र 4c) । जीन प्रतीकों (चित्रा 4d) की सूची प्राप्त करें।
नोट: जीन प्रतीकों यहां प्राप्त अगले चरणों में आगे कार्यात्मक एनोटेशन के लिए इस्तेमाल किया जाएगा । - कॉपी और एक वेब ब्राउज़र में डेटाबेस जीन कार्ड के वेब लिंक पेस्ट और इस डाटाबेस के वेब पेज खोलो । खोज एक जीन का नाम CD3D डेटाबेस क्वेरी इनपुट बॉक्स में और जीन कार्ड३३,३४, से इस जीन के एनोटेशन ढूंढें के रूप में तालिका 1 और संख्या 5में दिखाया गया है ।
नोट: जीन कार्ड एक व्यापक जीन नॉलेजबेस है, नामकरण प्रदान, जीनोमिक्स, प्रोटियोमिक्, सेलुलर स्थानीयकरण, और शामिल रास्ते और अंय कार्यात्मक मॉड्यूल । यह भी PDB/PDB_REDO३५, Entrez जीन३६, OMIM३७, और UniProtKB३८जैसे विभिंन अंय जैव चिकित्सा डेटाबेस के लिए बाहरी लिंक प्रदान करता है । सुविधा का नाम एक मानक जीन प्रतीक नहीं है, तो इसे३९में कनवर्ट करने के लिए डेटाबेस ENSEMBL का उपयोग करें । CD3D जीन टी सेल रिसेप्टर T3 डेल्टा श्रृंखला का नाम है । - वेब ब्राउज़र में OMIM डेटाबेस के वेब लिंक की प्रतिलिपि बनाएं और चिपकाएं और इस डेटाबेस का वेब पेज खोलें । खोज एक जीन का नाम CD3D और डेटाबेस से इस जीन के एनोटेशन मिल OMIM३७, के रूप में 1 तालिका में दिखाया गया है और चित्रा 5B।
नोट: OMIM अब विरासत में प्राप्त रोगों के साथ मानव जीन कनेक्शन के सबसे व्यापक और आधिकारिक सूत्रों में से एक के रूप में कार्य करता है । OMIM डॉ विक्टर ए McKusick द्वारा रोग-संबद्ध आनुवंशिक उत्परिवर्तनों४०catalog द्वारा शुरू की गई थी । OMIM अब १५,००० से अधिक मानव जीन और ८,५०० phenotypes पर शामिल हैं, के रूप में दिसंबर 1सेंट २०१७ ।
9. इनकोडिंग प्रोटीन और बाद अनुवाद संशोधनों व्याख्या
- वेब ब्राउज़र में UniProtKB डेटाबेस के वेब लिंक की प्रतिलिपि बनाएं और चिपकाएं और इस डेटाबेस का वेब पेज खोलें । UniProtKB के वेरी इनपुट बॉक्स में एक जीन का नाम CD3D खोजें और इस जीन के एनोटेशन को डेटाबेस३८से खोजें, जैसा कि तालिका 1 और फिगर 5Cमें दिखाया गया है ।
नोट: UniProtKB प्रोटीन के लिए एनोटेशन का एक समृद्ध स्रोत एकत्र, दोनों नामकरण और कार्यात्मक जानकारी सहित । यह डेटाबेस भी PDB/PDB_REDO३५, OMIM३७, और Pfam४१सहित अंय व्यापक रूप से उपयोग किए गए डेटाबेस के लिए बाहरी लिंक उपलब्ध कराता है । - एक वेब ब्राउज़र में वेब सर्वर GPS की वेब लिंक की प्रतिलिपि बनाएं और चिपकाएं और इस वेब सर्वर के वेब पेज को खोलें । प्राप्त प्रोटीन अनुक्रम UniProtKB डेटाबेस३८ से CD3D द्वारा इनकोडिंग जीन है और प्रोटीन के बाद अनुवाद संशोधन (PTM) ऑनलाइन उपकरण जीपीएस का उपयोग कर अवशेषों की भविष्यवाणी, के रूप में 1 तालिका में दिखाया गया है और चित्रा 5d।
नोट: एक जैविक प्रणाली गतिशील और जटिल है, और मौजूदा डेटाबेस केवल ज्ञात जानकारी एकत्रित करते हैं । इसलिए, बायोमेडिकल पूर्वानुमान ऑनलाइन उपकरण के रूप में के रूप में अच्छी तरह से ऑफ़लाइन कार्यक्रम उपयोगी सबूत प्रदान करने के लिए एक परिकल्पना तंत्र पूरक हो सकता है । जीपीएस विकसित किया गया है और 12 साल से अधिक के लिए सुधार7,४२ और एक दिया पेप्टाइड अनुक्रम४३,४४में एक प्रोटीन के PTM अवशेषों का अनुमान लगाने के लिए इस्तेमाल किया जा सकता है । उपकरण भी विभिन्न अनुसंधान विषयों के लिए उपलब्ध हैं, एक प्रोटीन के उपसेलुलर स्थान४५ और दूसरों के बीच में प्रतिलेखन कारक बंधन रूपांकनों ४६ की भविष्यवाणी सहित.
10. व्याख्या प्रोटीन-प्रोटीन बातचीत और उनके समृद्ध कार्यात्मक मॉड्यूल
- वेब सर्वर स्ट्रिंग की वेब लिंक की प्रतिलिपि बनाएं और वेब ब्राउज़र में चिपकाएं और इस वेब सर्वर का वेब पेज खोलें । जीन CD3D और P53 के लिए सूची खोजें, और डेटाबेस स्ट्रिंग४७का उपयोग कर अपने orchestration गुण ढूँढें । एक ही प्रक्रिया एक और वेब सर्वर, डेविड३२का उपयोग कर बाहर किया जा सकता है ।
नोट: व्यक्तिगत जीन के लिए aforementioned एनोटेशन के अलावा, वहां कई बड़े पैमाने पर सूचना के लिए जीन के एक समूह के गुणों की जांच उपलब्ध उपकरण हैं । एक ताजा अध्ययन का प्रदर्शन किया है कि व्यक्तिगत रूप से बुरा मार्कर जीन एक बहुत बेहतर जीन सेट5का गठन हो सकता है । इसलिए, यह गणना लागत के लिए और अधिक जटिल के लिए स्क्रीन करने के लिए मूल्य है । डेटाबेस स्ट्रिंग के ज्ञात या अनुमानित संपर्क कनेक्शन की कल्पना कर सकते हैं, और दाऊद सर्वर महत्वपूर्ण phenotype के साथ कार्यात्मक मॉड्यूल का पता लगाने सकता है, क्वेरी जीन४७,३२में संघों । विभिंन अंय बड़े पैमाने पर सूचनात्मक विश्लेषण उपकरण भी उपलब्ध हैं ।
11. जनित मार्कर सबसेट और विज़ुअलाइज़ेशन भूखंडों का निर्यात करें
- अधिक विश्लेषण के लिए पता लगाए गए मार्कर सबसेट को एक. tsv या. csv पाठ फ़ाइल के रूप में निर्यात करें । बटन पर क्लिक करें सभी पता चला है कि मार्की उपसमुच्चय की मेज के नीचे तालिका निर्यात और जो पाठ प्रारूप के रूप में बचाने के लिए चुनें ।
- विज़ुअलाइज़ेशन प्लॉट्स को छवि फ़ाइल के रूप में निर्यात करें. प्रत्येक प्लॉट के अंतर्गत सहेजें बटन क्लिक करें और जो छवि प्रारूप के रूप में बचाने के लिए चुनें ।
नोट: सॉफ्टवेयर पिक्सेल प्रारूप. png और सदिश प्रारूप का समर्थन करता है । svg । पिक्सेल छवियां कंप्यूटर स्क्रीन पर प्रदर्शित करने के लिए अच्छी हैं, जबकि वेक्टर छवियां जर्नल प्रकाशन उद्देश्यों के लिए आवश्यक किसी भी रिज़ॉल्यूशन में कनवर्ट की जा सकती हैं ।
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
इस वर्कफ़्लो का लक्ष्य (आरेख 6) एक बाइनरी वर्गीकरण dataset के लिए समान क्षमता के साथ एकाधिक-अचिह्नित सबसेट का पता लगाने के लिए है । पूरी प्रक्रिया दो उदाहरण डेटासेट द्वारा सचित्र है ALL1 और ALL2 एक हाल ही में प्रकाशित से निकाले जाने वाले मार्कर डिटेक्शन अध्ययन12,४८. एक प्रयोक्ता पूरक सामग्री में निर्देशों का पालन करके kSolutionVis स्थापित कर सकते हैं ।
डेटासेट ALL1 फाइलेड १२ ६२५ transcriptomic फीचर्स की ९५ बी-सेल और ३३ टी-सेल सभी मरीज के रक्त के नमूने । जबकि डेटासेट ALL2 ने ६५ के लिए १२ ६२५ transcriptomic सुविधाओं के अभिव्यक्ति स्तरों का पता लगाया, जो उपचार के बाद पलटा और ३५ सभी रोगियों को जो नहीं किया । उपयोगकर्ता की सुविधा के लिए, दोनों transcriptomic datasets और उनके वर्ग लेबल सॉफ़्टवेयर के संस्करण १.४ में प्रदान किए जाते हैं । दोनों डेटासेट सॉफ़्टवेयर के स्रोत कोड निर्देशिका के उपनिर्देशिका "डेटा" में हैं ।
दो डेटासेट, ALL1 और ALL2,. csv फ़ाइलों के रूप में स्वरूपित और लोड डेटा मैट्रिक्स का उपयोग कर सॉफ्टवेयर में लोड और वर्ग लेबल बटन लोड , के रूप में चित्र 7A-Bमें दिखाया गया है । चित्रा 7A दिखाता है कि १२ ६२५ सुविधाओं के साथ सभी १२८ नमूने लोड किए गए थे, और सभी १२८ नमूने भी वर्ग लेबल है । अंतिम डेटा मैट्रिक्स है ९५ नकारात्मक नमूने (बी सेल सभी) और ३३ सकारात्मक नमूने (टी सेल सभी). साथ ही, उपयोगकर्ता भी कौन-सा वर्ग लेबल धनात्मक वर्ग लेबल है (चित्रा 7A, नीचे) निर्धारित कर सकते हैं । वर्ग लेबल फ़ाइल दो से अधिक क्लासेस निर्धारित करता है, तो उपयोगकर्ता जो दो वर्ग लेबल की जांच करने के लिए चुनना चाहते हो सकता है । इसी तरह की कार्रवाई भी मुश्किल डेटासेट ALL2 के लिए आयोजित किया गया, के रूप में चित्रा 7Bमें दिखाया गया है ।
डेटा मैट्रिक्स में सुविधाओं के मूल्य वितरण, चित्र 8में दिखाए गए के रूप में सुविधा के नाम में एक उपयोगकर्ता-विशिष्ट कीवर्ड के लिए खोज करते समय बटन सारांश क्लिक करके जांच की जा सकती है । चित्र 8A dataset ALL1 में सुविधा 1012_at के हिस्टोग्राम दिखाता है । इसके अलावा, के रूप में चित्रा 8Bमें देखा, एक ही सुविधा 1012_at दोनों डेटासेट में अभिव्यक्ति का एक समान वितरण किया है । यदि उपयोगकर्ता द्वारा कोई कीवर्ड निर्दिष्ट नहीं किया गया था, तो कुछ सुविधा नाम उपयोगकर्ताओं को सारांशित की जाने वाली सुविधाओं को तय करने में मदद करने के लिए सूचीबद्ध होंगे ।
आसान डेटासेट ALL1 pMeasurement एसीसी ≥ ०.९० (pCutoff) के साथ शीर्ष 10 क्रमित सुविधाओं (pTopX) के लिए अचिह्नित सबसेट के लिए दिखलाई । बटन चलानेपर क्लिक करने के बाद, एल्गोरिथ्म निष्पादित किया गया था, और चित्र 9Aमें देखा के रूप में परिणाम, कुछ सेकंड के बाद सॉफ़्टवेयर के निचले भाग में सचित्र थे । इस से, १२० योग्य अगोचर उपसमुच्चय का पता लगाया गया और चित्रा 9Aकी बाईं तालिका में सूचीबद्ध । ALL1 एक आसान करने के लिए भेदभाव डेटासेट था, कि यह ५७ में एसीसीमें १००% के साथ triplet उपसमुच्चय है । इस प्रोटोकॉल एक बाइनरी वर्गीकरण समस्या के लिए कई इसी तरह प्रभावी समाधान के अस्तित्व पर जोर देती है । इसलिए, यदि वे वर्गीकरण प्रदर्शन एसीसी (पैरामीटर pMeasurement) ≥ कि शीर्ष 10 स्थान (पैरामीटर piFSNum की है, तो पहले 3d स्कैटर प्लॉट 10 से अधिक (पैरामीटर piFSNum) का वर्णन कर सकते हैं । ) के अगोचर सबसेट । उपयोगकर्ता भी कम मार्कर सबसेट को आरेख 9Aमें तालिका के ऊपर पैरामीटर बॉक्स में piCutoff बदलकर प्रदर्शित करने के लिए चुन सकते हैं । 3डी प्लॉट की मैनुअल ट्यूनिंग से अनुपूरक सामग्री में 3डी डॉट प्लॉट की सेक्शन मैनुअल ट्यूनिंग पाई जा सकती है ।
इसके अलावा, सभी परिणाम तालिका या तितर बितर भूखंडों के अंतर्गत तालिका निर्यात करें बटन क्लिक करके और विश्लेषण के लिए बाहरी फ़ाइलों के रूप में निर्यात किया जा सकता है, जैसा चित्र 9में दिखाया गया है ।
dataset ALL1 के लिए प्रथम अचिह्नित सबसेट (38319_at, 38147_at और 33238_at) आरेख 9Aमें दिखाए गए के रूप में कार्यात्मक जाँच के लिए चुना गया था । ENSEMBL के खोज मॉड्यूल (http://useast.ensembl.org/Multi/Search/New?db=core) भेदभाव के एक जीन क्लस्टर के रूप में इन तीन सुविधाओं की व्याख्या 3 डेल्टा (CD3D, 38319_at), सिग्नलिंग लिम्फोसाईटिक सक्रियकरण अणु-जीन संबद्ध (SH2D1A, 38147_at ) और लिम्फोसाइट कोशिका-विशिष्ट प्रोटीन-Tyrosine कळेनासे (LCK, 33238_at) । इसके अलावा, जीन रोग एसोसिएशन डाटाबेस OMIM३७,४० का सुझाव दिया है कि जीन CD3D encodes टी कोशिका प्रतिजन रिसेप्टर परिसर के डेल्टा उपइकाई और 11q23 अनुवादन में शामिल अक्सर तीव्र में मनाया मनुष्यों में ल्यूकेमिया४९,५०. OMIM भी सुझाव दिया है कि Xq25 के गुणसूत्र क्षेत्र में जीन SH2D1A के भीतर जीनोमिक उत्परिवर्तनों बी सेल ल्यूकेमिया५१,५२के साथ जुड़ा हो सकता है । इसके अतिरिक्त, OMIM भी एक संभव टी सेल LCK और बीटा टी सेल रिसेप्टर (TCRB)५३के सभी जुड़े फ्यूजन घटना पर प्रकाश डाला । उपयोगकर्ताओं को अपने जीन प्रतीकों के साथ इन उपमार्क्स के अंय कार्यात्मक पहलुओं की जांच कर सकते हैं, उदाहरणके लिए, Entrez जीन३६में जीन समारोह एनोटेशन, UniProtKB३८ या Pfam४१में प्रोटीन समारोह एनोटेशन, 3 डी प्रोटीन PDB/PDB_REDO३५में संरचनाएं, और जीपीएस में PTM अवशेष7,४२,४३,४४। बातचीत उप नेटवर्क (डाटाबेस स्ट्रिंग४७) और समृद्ध कार्यात्मक मॉड्यूल (डाटाबेस डेविड३२) भी एक संपूर्णता के रूप में इन चिह्नों के लिए जांच की जा सकती है । विभिंन अंय डेटाबेस या वेब सर्वर भी एनोटेशन की सुविधा हो सकती है और silico भविष्यवाणियों प्रतीकों या प्राथमिक जीन का उपयोग कर/
के रूप में 2 तालिकामें देखा, समान या इसी तरह प्रभावी प्रदर्शन के साथ एक से अधिक समाधान का पता लगाने की आवश्यकता स्पष्ट है, ५७ बी के बीच १००% की बाइनरी वर्गीकरण accuracies के साथ सुविधाओं के समूहों के साथ-सेल और टी सेल सभी नमूनों । इन विशेष रूप से विशिष्ट मार्की सबसेट सही समाधान कहा जाता था । काफी कुछ इन सही समाधान में अक्सर दिखाई दिया, सुझाव है कि वे प्रमुख मतभेदों का प्रतिनिधित्व कर सकते हैं, आणविक स्तर पर, बी के बीच और टी सेल सभी । यदि CD3D/SH2D1A/LCK, एक और सही समाधान CD74/एचएलए-DPB1/PRKCQ याद किया जाएगा तीन जीन का पहला सही समाधान का पता लगाने पर रोकता है । उदाहरण के लिए, एचएलए-DPB1 काफी बाल टी सेल सभी लेकिन नहीं बी-सेल सभी५४के साथ जुड़े होने के लिए जाना जाता है ।
ALL2 के पहले के उपमार्कर सबसेट की तीन विशेषताएं क्रोमेटिन विधानसभा कारक 1 उपइकाई बी (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), और संकेत transducer और प्रतिलेखन 6 (STAT6, 41222_at) के उत्प्रेरक थे । CHAF1B अत्यधिक ल्यूकेमिया सेल लाइनों में व्यक्त किया और CHAF1B इनकोडिंग प्रोटीन के खिलाफ एंटीबॉडी काफी गंभीर माइलॉयड ल्यूकेमिया (एएमएल) रोगियों में विकसित किया गया था के लिए मनाया गया था५५। EXO1 तीव्र ल्यूकेमिया५६के कुछ मामलों में खो गया था, और ल्यूकेमिया सेल लाइन में विनियमित-60 [आर]. यह भी करने के लिए नकारात्मक telomeres (alt) मार्ग है, जो ऑल्ट के गठन-एसोसिएटेड पीएमएल (promyelocytic ल्यूकेमिया) निकायों (APBs)५७की सुविधा के वैकल्पिक लंबी विनियमित पाया गया है । STAT6 से चूक एएमएल५८के मामलों में प्रो-उत्तरजीविता और प्रफलन सिगनलिंग मार्ग को सक्रिय phosphorylated था. एक साथ ले लिया, तीन जीन लेकिमिया के विकास और पतन के साथ जुड़े थे, लेकिन कोई स्पष्ट सबूत सभी पतन के साथ अपने संघों पर प्रकाशित किया गया था । यह आगे की जांच के लिए एक दिलचस्प विषय का प्रतिनिधित्व कर सकते हैं ।
एक ही एनोटेशन प्रक्रिया ALL1 और ALL2 के लिए किसी भी अगोचर सबसेट पर आयोजित किया जा सकता है । उपरोक्त खंड में खोजी गई तीन विमार्क्स की पहचान डेटासेट ALL2 में पलटाई जाने वाली मार्क्स के रूप में नहीं की गई, जैसा आरेख 9Bमें दिखाया गया है. यह पता चलता है कि phenotype-विशिष्ट है, जो एक और एक प्रमुख चुनौती है के लिए है, कई इसी तरह प्रभावी समाधान के अस्तित्व के साथ है ।
कुछ तकनीकी मॉड्यूल लागू किया गया और यहां दिलचस्पी उपयोगकर्ताओं के लिए वर्णित है । त्रुटि हैंडलिंग मॉड्यूल सूचनात्मक संदेश उपयोगकर्ता के लिए जब सॉफ़्टवेयर के निष्पादन के दौरान त्रुटियाँ हो सकती है । मुख्य त्रुटि संदेश सूचीबद्ध होते है और पूरक सामग्री में "त्रुटि संदेश" में समझाया । एक से अधिक CPU कोर के साथ कंप्यूटर्स के लिए एक समानांतर गणना को लागू किया गया था । चल रहे समय में विस्तृत सुधार पूरक सामग्री में "समानांतर चल रहे समय" में पाया जा सकता है । डेटा का पता चलता है कि अधिक cpu कोर के उपयोग के कारण भिंन cpu कोर के बीच स्विच करने की लागत चल रहे समय में सुधार नहीं हो सकता है ।
चित्र 1: transcriptome डेटासेट ALL1 से निकाले गए उदाहरण dataset पहले नौ ALL1 के नमूने के छह विशेषताएं हैं । डेटा मैट्रिक्स (a) विज़ुअलाइज़ेशन प्रपत्र, (b) टैब-सीमांकित पाठ स्वरूप फ़ाइल, और (c) अल्पविराम-सीमांकित पाठ स्वरूप फ़ाइल में स्वरूपित किया गया था । (d) वर्ग लेबल डेटा विज़ुअलाइज़ेशन प्रपत्र में स्वरूपित किया गया था । कारण टैब वर्ण अदृश्य है, यह [टैब] में (b) के रूप में सचित्र है । स्तंभ प्लेटफ़ॉर्म microarray प्लेटफ़ॉर्म Affy (b) में देता है, और कोई आवश्यक डेटा स्तंभ नहीं है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्रा 2: सॉफ्टवेयर के ग्राफिकल यूजर इंटरफेस । ऊपरी बाएँ बॉक्स में आधारभूत आँकड़े सारांशित किए जाते हैं. उपयोगकर्ता ब्याज की सुविधाओं के लिए खोज और दो शीर्ष दाएं बक्से में मान वितरण की जांच कर सकते हैं । सभी पैरामीटर का पता लगाने की प्रक्रिया के लिए मध्य क्षैतिज पट्टी में देखते हो सकता है । सभी उपमार्की सबसेट और उनके इसी दृश्य वितरण नीचे भाग में पाया जा सकता है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्र 3: अपने द्वारा जेनरेट किए गए अचिह्नक सबसेट और उनके विज़ुअलाइज़ेशन. उपयोगकर्ता आगे तालिका और दो 3d तितर बितर भूखंडों piCutoff और piFSNumपैरामीटर का उपयोग कर परिष्कृत कर सकते हैं । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्रा 4: इस अध्ययन में पाया फीचर आईडी के जीन एनोटेशन । तीन सुविधा IDs 38319_at/38147_at/33238_at dataset ALL1 के प्रथम अचिह्नित सबसेट का ले । (क) लिंक जीन आईडी रूपांतरणपर क्लिक करके आईडी रूपांतरण मॉड्यूल प्राप्त करें । (ख) लाल बॉक्स 1 में फ़ीचर IDs इनपुट, लाल बॉक्स 2 में सुविधा प्रकार का चयन (डिफ़ॉल्ट "AFFYMETRIX_3PRIME_IVT_ID" इस अध्ययन के लिए सही है), लाल बॉक्स 3 में जीन सूची चुनें, और लाल बॉक्स 4 में सबमिट सूची क्लिक करें । (ग) इस पृष्ठ में सभी कार्यात्मक एनोटेशन जाओ और क्लिक करें जीन सूची दिखाने के लिए इन क्वेरी सुविधाओं के जीन प्रतीकों मिलता है । (d) क्वेरी की गई सुविधा IDs के जीन प्रतीकों को प्राप्त करें । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्रा 5: पता लगाया सुविधा उपसमुच्चय के एनोटेशन और संवर्धन विश्लेषण । (क) जीन कार्ड से जीन एनोटेशन. (ख) OMIM प्रत्येक सुविधा के रोग संघों का वर्णन/ (ग) डेटाबेस UniProtKB में ब्याज की जीन द्वारा इनकोडिंग प्रोटीन व्याख्या । (घ) दिए गए प्रोटीन में tyrosine फास्फारिलीकरण अवशेषों की भविष्यवाणी ऑनलाइन उपकरण जीपीएस का उपयोग कर । उपयोगकर्ता को इनपुट क्वेरी डेटा के लिए क्लिक करने के लिए कहां दिखाने के लिए एक लाल बॉक्स जोड़ा गया था । उदाहरण के लिए प्रोटीन CD3D के प्राथमिक अनुक्रम (c) में लाल बॉक्स से फसता स्वरूप के रूप में प्राप्त किया जा सकता है, और (d) में लाल बॉक्स क्लिक करके क्वेरी विंडो में इनपुट । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्र 6: kSolutionVis का कार्यप्रवाह । सॉफ्टवेयर के प्रत्येक मॉड्यूल उपर्युक्त प्रोटोकॉल में वर्णित किया गया था । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्र 7: दो प्रतिनिधि डेटासेट के आधारभूत आँकड़े. नमूनों, सुविधाओं और वर्गों में (a) ALL1 और (b) ALL2 की संख्या की गणना कर रहे हैं । डेटा मैट्रिक्स और वर्ग लेबल के फ़ाइल आकार भी पाए जाते हैं । और एक नया डेटा मैट्रिक्स वर्ग लेबल के साथ नमूनों से निकाला जाता है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्र 8: दो डेटासेट में 1012_at सुविधा का हिस्टोग्राम विज़ुअलाइज़ेशन. आधारभूत आँकड़े और हिस्टोग्राम दोनों (क) ALL1 और (ख) ALL2 के लिए उत्पन्न हुए. कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
चित्र 9: उप-चिह्न और दो डेटासेट के स्कैटर प्लॉट्स । उपयोगकर्ता पैरामीटर बक्से की दूसरी पंक्ति में और डेटासेट (a) ALL1 और (b) ALL2 के लिए 3 डी स्कैटर भूखंडों की सूचियों को आगे परिशोधित करने के लिए पैरामीटर बदल सकते हैं । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।
वेब साइट | लिंक | कार्यक्षमता |
GeneCards | http://www.genecards.org/cgi-bin/carddisp.pl?gene=CD3D | जीन एनोटेशन |
OMIM | https://omim.org/entry/186790?search=CD3D&highlight=cd3d | जीन-रोग संघ |
UniProtKB | http://www.uniprot.org/uniprot/P04234 | प्रोटीन एनोटेशन |
जीपीएस | http://gps.biocuckoo.org/ | प्रोटीन की PTM भविष्यवाणी |
स्ट्रिंग | https://string-db.org/ | प्रोटीन-प्रोटीन इंटरेक्शन |
डेविड | https://david.ncifcrf.gov/ | जीन सेट संवर्धन विश्लेषण |
तालिका 1. व्याख्या और पता लगाया है मार्क्स विश्लेषण के लिए वेबसाइटें । उपयोगी ऑनलाइन उपकरण की एक सूची है कि मदद का पता लगाया मार्क्स व्याख्या ।
f1 | f2 | f3 | एसीसी | Symbol1 | प्रतीक2 | Symbol3 |
38319_at | 38147_at | 33238_at | १.०००० | CD3D | SH2D1A | LCK |
33238_at | 35016_at | 37039_at | १.०००० | LCK | CD74 | एचएलए-डॅा |
38147_at | 33238_at | 35016_at | १.०००० | SH2D1A | LCK | CD74 |
38147_at | 33238_at | 2059_s_at | १.०००० | SH2D1A | LCK | LCK |
38147_at | 33238_at | 37039_at | १.०००० | SH2D1A | LCK | एचएलए-डॅा |
38147_at | 33238_at | 38095_i_at | १.०००० | SH2D1A | LCK | एचएलए-DPB1 |
38147_at | 33238_at | 33039_at | १.०००० | SH2D1A | LCK | TRAT1 |
38147_at | 35016_at | 2059_s_at | १.०००० | SH2D1A | CD74 | LCK |
38147_at | 35016_at | 33039_at | १.०००० | SH2D1A | CD74 | TRAT1 |
38147_at | 35016_at | 38949_at | १.०००० | SH2D1A | CD74 | PRKCQ |
38147_at | 2059_s_at | 37039_at | १.०००० | SH2D1A | LCK | एचएलए-डॅा |
38147_at | 2059_s_at | 38095_i_at | १.०००० | SH2D1A | LCK | एचएलए-DPB1 |
38147_at | 37039_at | 33039_at | १.०००० | SH2D1A | एचएलए-डॅा | TRAT1 |
38147_at | 37039_at | 38949_at | १.०००० | SH2D1A | एचएलए-डॅा | PRKCQ |
38319_at | 38147_at | 35016_at | १.०००० | CD3D | SH2D1A | CD74 |
38147_at | 38833_at | 38949_at | १.०००० | SH2D1A | एचएलए-DPA1 | PRKCQ |
33238_at | 35016_at | 33039_at | १.०००० | LCK | CD74 | TRAT1 |
38319_at | 38833_at | 38949_at | १.०००० | CD3D | एचएलए-DPA1 | PRKCQ |
33238_at | 35016_at | 38949_at | १.०००० | LCK | CD74 | PRKCQ |
33238_at | 2059_s_at | 37039_at | १.०००० | LCK | LCK | एचएलए-डॅा |
33238_at | 37039_at | 38095_i_at | १.०००० | LCK | एचएलए-डॅा | एचएलए-DPB1 |
33238_at | 37039_at | 33039_at | १.०००० | LCK | एचएलए-डॅा | TRAT1 |
33238_at | 37039_at | 38949_at | १.०००० | LCK | एचएलए-डॅा | PRKCQ |
33238_at | 38095_i_at | 38949_at | १.०००० | LCK | एचएलए-DPB1 | PRKCQ |
33238_at | 38833_at | 38949_at | १.०००० | LCK | एचएलए-DPA1 | PRKCQ |
33238_at | 33039_at | 38949_at | १.०००० | LCK | TRAT1 | PRKCQ |
35016_at | 2059_s_at | 33039_at | १.०००० | CD74 | LCK | TRAT1 |
35016_at | 2059_s_at | 38949_at | १.०००० | CD74 | LCK | PRKCQ |
35016_at | 38095_i_at | 38949_at | १.०००० | CD74 | एचएलए-DPB1 | PRKCQ |
2059_s_at | 37039_at | 33039_at | १.०००० | LCK | एचएलए-डॅा | TRAT1 |
2059_s_at | 38095_i_at | 38949_at | १.०००० | LCK | एचएलए-DPB1 | PRKCQ |
2059_s_at | 38833_at | 38949_at | १.०००० | LCK | एचएलए-DPA1 | PRKCQ |
38319_at | 33039_at | 38949_at | १.०००० | CD3D | TRAT1 | PRKCQ |
38147_at | 38095_i_at | 38949_at | १.०००० | SH2D1A | एचएलए-DPB1 | PRKCQ |
38319_at | 33238_at | 38833_at | १.०००० | CD3D | LCK | एचएलए-DPA1 |
38319_at | 2059_s_at | 38833_at | १.०००० | CD3D | LCK | एचएलए-DPA1 |
38319_at | 33238_at | 33039_at | १.०००० | CD3D | LCK | TRAT1 |
38319_at | 33238_at | 38095_i_at | १.०००० | CD3D | LCK | एचएलए-DPB1 |
38319_at | 33238_at | 37039_at | १.०००० | CD3D | LCK | एचएलए-डॅा |
38319_at | 35016_at | 38833_at | १.०००० | CD3D | CD74 | एचएलए-DPA1 |
38319_at | 33238_at | 2059_s_at | १.०००० | CD3D | LCK | LCK |
38319_at | 35016_at | 33039_at | १.०००० | CD3D | CD74 | TRAT1 |
38319_at | 33238_at | 35016_at | १.०००० | CD3D | LCK | CD74 |
38319_at | 35016_at | 38949_at | १.०००० | CD3D | CD74 | PRKCQ |
38319_at | 2059_s_at | 37039_at | १.०००० | CD3D | LCK | एचएलए-डॅा |
38319_at | 38147_at | 38949_at | १.०००० | CD3D | SH2D1A | PRKCQ |
38319_at | 38147_at | 33039_at | १.०००० | CD3D | SH2D1A | TRAT1 |
38319_at | 33238_at | 38949_at | १.०००० | CD3D | LCK | PRKCQ |
38319_at | 2059_s_at | 38095_i_at | १.०००० | CD3D | LCK | एचएलए-DPB1 |
38319_at | 38147_at | 38833_at | १.०००० | CD3D | SH2D1A | एचएलए-DPA1 |
38319_at | 2059_s_at | 33039_at | १.०००० | CD3D | LCK | TRAT1 |
38319_at | 38147_at | 38095_i_at | १.०००० | CD3D | SH2D1A | एचएलए-DPB1 |
38319_at | 37039_at | 33039_at | १.०००० | CD3D | एचएलए-डॅा | TRAT1 |
38319_at | 38147_at | 37039_at | १.०००० | CD3D | SH2D1A | एचएलए-डॅा |
38319_at | 38147_at | 2059_s_at | १.०००० | CD3D | SH2D1A | LCK |
38319_at | 2059_s_at | 38949_at | १.०००० | CD3D | LCK | PRKCQ |
38319_at | 35016_at | 2059_s_at | १.०००० | CD3D | CD74 | LCK |
2059_s_at | 37039_at | 38095_i_at | ०.९९२२ | LCK | एचएलए-डॅा | एचएलए-DPB1 |
35016_at | 33039_at | 38949_at | ०.९९२२ | CD74 | TRAT1 | PRKCQ |
2059_s_at | 37039_at | 38949_at | ०.९९२२ | LCK | एचएलए-डॅा | PRKCQ |
35016_at | 2059_s_at | 37039_at | ०.९९२२ | CD74 | LCK | एचएलए-डॅा |
35016_at | 37039_at | 38949_at | ०.९९२२ | CD74 | एचएलए-डॅा | PRKCQ |
35016_at | 38833_at | 38949_at | ०.९९२२ | CD74 | एचएलए-DPA1 | PRKCQ |
2059_s_at | 33039_at | 38949_at | ०.९९२२ | LCK | TRAT1 | PRKCQ |
37039_at | 38833_at | 38949_at | ०.९९२२ | एचएलए-डॅा | एचएलए-DPA1 | PRKCQ |
37039_at | 33039_at | 38949_at | ०.९९२२ | एचएलए-डॅा | TRAT1 | PRKCQ |
38319_at | 38095_i_at | 38949_at | ०.९९२२ | CD3D | एचएलए-DPB1 | PRKCQ |
33238_at | 37039_at | 38833_at | ०.९९२२ | LCK | एचएलए-डॅा | एचएलए-DPA1 |
38095_i_at | 33039_at | 38949_at | ०.९९२२ | एचएलए-DPB1 | TRAT1 | PRKCQ |
33238_at | 2059_s_at | 38949_at | ०.९९२२ | LCK | LCK | PRKCQ |
38319_at | 38833_at | 33039_at | ०.९९२२ | CD3D | एचएलए-DPA1 | TRAT1 |
38833_at | 33039_at | 38949_at | ०.९९२२ | एचएलए-DPA1 | TRAT1 | PRKCQ |
38147_at | 33039_at | 38949_at | ०.९९२२ | SH2D1A | TRAT1 | PRKCQ |
38319_at | 37039_at | 38833_at | ०.९९२२ | CD3D | एचएलए-डॅा | एचएलए-DPA1 |
38147_at | 2059_s_at | 38949_at | ०.९९२२ | SH2D1A | LCK | PRKCQ |
38147_at | 38095_i_at | 38833_at | ०.९९२२ | SH2D1A | एचएलए-DPB1 | एचएलए-DPA1 |
38147_at | 33238_at | 38949_at | ०.९९२२ | SH2D1A | LCK | PRKCQ |
38147_at | 2059_s_at | 33039_at | ०.९९२२ | SH2D1A | LCK | TRAT1 |
38319_at | 37039_at | 38949_at | ०.९९२२ | CD3D | एचएलए-डॅा | PRKCQ |
38319_at | 38095_i_at | 38833_at | ०.९९२२ | CD3D | एचएलए-DPB1 | एचएलए-DPA1 |
38147_at | 2059_s_at | 38833_at | ०.९९२२ | SH2D1A | LCK | एचएलए-DPA1 |
33238_at | 35016_at | 2059_s_at | ०.९९२२ | LCK | CD74 | LCK |
38319_at | 35016_at | 38095_i_at | ०.९९२२ | CD3D | CD74 | एचएलए-DPB1 |
33238_at | 35016_at | 38095_i_at | ०.९९२२ | LCK | CD74 | एचएलए-DPB1 |
38319_at | 35016_at | 37039_at | ०.९९२२ | CD3D | CD74 | एचएलए-डॅा |
38147_at | 33238_at | 38833_at | ०.९९२२ | SH2D1A | LCK | एचएलए-DPA1 |
38147_at | 37039_at | 38095_i_at | ०.९८४४ | SH2D1A | एचएलए-डॅा | एचएलए-DPB1 |
38147_at | 35016_at | 38833_at | ०.९८४४ | SH2D1A | CD74 | एचएलए-DPA1 |
38147_at | 35016_at | 38095_i_at | ०.९८४४ | SH2D1A | CD74 | एचएलए-DPB1 |
35016_at | 2059_s_at | 38095_i_at | ०.९८४४ | CD74 | LCK | एचएलए-DPB1 |
38147_at | 37039_at | 38833_at | ०.९८४४ | SH2D1A | एचएलए-डॅा | एचएलए-DPA1 |
35016_at | 2059_s_at | 38833_at | ०.९८४४ | CD74 | LCK | एचएलए-DPA1 |
38319_at | 37039_at | 38095_i_at | ०.९८४४ | CD3D | एचएलए-डॅा | एचएलए-DPB1 |
37039_at | 38095_i_at | 38949_at | ०.९८४४ | एचएलए-डॅा | एचएलए-DPB1 | PRKCQ |
38147_at | 38833_at | 33039_at | ०.९८४४ | SH2D1A | एचएलए-DPA1 | TRAT1 |
38095_i_at | 38833_at | 38949_at | ०.९८४४ | एचएलए-DPB1 | एचएलए-DPA1 | PRKCQ |
33238_at | 35016_at | 38833_at | ०.९८४४ | LCK | CD74 | एचएलए-DPA1 |
38319_at | 38095_i_at | 33039_at | ०.९८४४ | CD3D | एचएलए-DPB1 | TRAT1 |
2059_s_at | 37039_at | 38833_at | ०.९८४४ | LCK | एचएलए-डॅा | एचएलए-DPA1 |
2059_s_at | 38833_at | 33039_at | ०.९७६६ | LCK | एचएलए-DPA1 | TRAT1 |
2059_s_at | 38095_i_at | 33039_at | ०.९७६६ | LCK | एचएलए-DPB1 | TRAT1 |
2059_s_at | 38095_i_at | 38833_at | ०.९७६६ | LCK | एचएलए-DPB1 | एचएलए-DPA1 |
33238_at | 2059_s_at | 38095_i_at | ०.९७६६ | LCK | LCK | एचएलए-DPB1 |
35016_at | 38095_i_at | 33039_at | ०.९७६६ | CD74 | एचएलए-DPB1 | TRAT1 |
38147_at | 38095_i_at | 33039_at | ०.९७६६ | SH2D1A | एचएलए-DPB1 | TRAT1 |
33238_at | 2059_s_at | 33039_at | ०.९७६६ | LCK | LCK | TRAT1 |
35016_at | 37039_at | 33039_at | ०.९७६६ | CD74 | एचएलए-डॅा | TRAT1 |
33238_at | 38095_i_at | 33039_at | ०.९७६६ | LCK | एचएलए-DPB1 | TRAT1 |
33238_at | 38833_at | 33039_at | ०.९७६६ | LCK | एचएलए-DPA1 | TRAT1 |
35016_at | 38833_at | 33039_at | ०.९७६६ | CD74 | एचएलए-DPA1 | TRAT1 |
33238_at | 38095_i_at | 38833_at | ०.९६८८ | LCK | एचएलए-DPB1 | एचएलए-DPA1 |
37039_at | 38833_at | 33039_at | ०.९६८८ | एचएलए-डॅा | एचएलए-DPA1 | TRAT1 |
38147_at | 35016_at | 37039_at | ०.९६८८ | SH2D1A | CD74 | एचएलए-डॅा |
33238_at | 2059_s_at | 38833_at | ०.९६८८ | LCK | LCK | एचएलए-DPA1 |
37039_at | 38095_i_at | 33039_at | ०.९६८८ | एचएलए-डॅा | एचएलए-DPB1 | TRAT1 |
38095_i_at | 38833_at | 33039_at | ०.९६०९ | एचएलए-DPB1 | एचएलए-DPA1 | TRAT1 |
35016_at | 38095_i_at | 38833_at | ०.९६०९ | CD74 | एचएलए-DPB1 | एचएलए-DPA1 |
37039_at | 38095_i_at | 38833_at | ०.९५३१ | एचएलए-डॅा | एचएलए-DPB1 | एचएलए-DPA1 |
35016_at | 37039_at | 38095_i_at | ०.९५३१ | CD74 | एचएलए-डॅा | एचएलए-DPB1 |
35016_at | 37039_at | 38833_at | ०.९५३१ | CD74 | एचएलए-डॅा | एचएलए-DPA1 |
तालिका 2. डेटासेट ALL1 से सभी सुविधाओं के एनोटेशन । यह B-कक्ष और T-कक्ष सभी नमूनों के बीच एक बाइनरी वर्गीकरण dataset है । जीन प्रतीकों पिछले तीन कॉलम में सभी microarray सुविधाओं के लिए एकत्र किए गए ।
Subscription Required. Please recommend JoVE to your librarian.
Discussion
यह अध्ययन एक आसान बहु-समाधान का पालन करने के लिए प्रस्तुत करता है एक प्रयोक्ता निर्दिष्ट द्विआधारी वर्गीकरण डेटासेट के लिए मल्टी सॉल्यूशन का पता लगाने और लक्षण वर्णन प्रोटोकॉल । सॉफ्टवेयर उपयोगकर्ता मित्रता और विभिंन फ़ाइल स्वरूपों के लिए लचीला आयात/निर्यात इंटरफेस पर जोर डालता है, एक बायोमेडिकल शोधकर्ता आसानी से सॉफ्टवेयर के जीयूआई का उपयोग कर अपने डेटासेट की जांच करने के लिए अनुमति देता है । इस अध्ययन में भी इसी तरह प्रभावी मॉडलिंग प्रदर्शन के साथ एक से अधिक समाधान पैदा करने की आवश्यकता पर प्रकाश डाला गया, पहले कई मौजूदा अचिह्नक का पता लगाने एल्गोरिदम द्वारा नजरअंदाज कर दिया. भविष्य में, नव विकसित किया गया है मार्कर का पता लगाने एल्गोरिदम पर्याप्त मॉडलिंग प्रदर्शन के साथ सभी मध्यवर्ती अगोचर सबसेट रिकॉर्डिंग द्वारा इस विकल्प शामिल हो सकते हैं.
इस प्रोटोकॉल में, चरण 1 और 5 सबसे अधिक महत्व के हैं, के रूप में सॉफ्टवेयर एक पूरी तरह से स्वचालित प्रणाली है कि सही ढंग से स्वरूपित इनपुट फ़ाइलों पर निर्भर है । यह पाया गया कि हमारे परीक्षण कदम के दौरान, डेटा मैट्रिक्स और वर्ग लेबल फ़ाइलों से नमूना नामों की एमआईएस मैच सॉफ्टवेयर में त्रुटियों का कारण हो सकता है, जहां सॉफ्टवेयर इस त्रुटि के बारे में एक चेतावनी संवाद पॉप जाएगा । इसलिए, यदि उपयोगकर्ता कोई नमूने डेटा मैट्रिक्स या वर्ग लेबल फ़ाइलों से लोड किए गए ढूँढता है, तो समस्या निवारण चाल दो इनपुट फ़ाइलों में नमूना नाम असंगत हैं कि डबल-जाँच करने के लिए है । 3 डी तितर बितर भूखंडों में कोई डॉट्स visualized थे, तो यह सबसे अच्छा समाधान से अधिक होने के pCutoff पैरामीटर के कारण हो सकता है । इस उदाहरण में, समस्या निवारण चाल के लिए cutoff वर्गीकरण प्रदर्शन माप (पैरामीटर pCutoff) को कम करने के लिए है । हालांकि, अधिकतम प्रदर्शन माप द्वारा प्राप्त की गई अचिह्नित सबसेट अभी भी एक मुश्किल डेटासेट के लिए कटऑफ द्वारा अवरुद्ध हो सकता है. एक चेतावनी संवाद यह सबसे अच्छा प्रदर्शन माप दे देंगे, और उपयोगकर्ता एक छोटे cutoff का चयन आगे विश्लेषण जारी रख सकते हैं.
सॉफ्टवेयर की मुख्य सीमाएं इसकी धीमी गणना की गति और इसकी क्षमता पर ही ध्यान केंद्रित कर रहे हैं, सबसे कम, तीन सुविधाओं. सुविधा चयन एक NP-हार्ड समस्या है, जिसका वैश्विक रूप से इष्टतम समाधान बहुपद समय५९के भीतर हल नहीं किया जा सकता एक गणना समस्या के रूप में परिभाषित है । व्यापक अगोचर सबसेट स्क्रीनिंग कदम गणना शक्ति की एक उच्च मात्रा का उपभोग करता है । kSolutionVis के रनिंग टाइम जटिलता ओ (एन3) है जहां n पैरामीटर pTopXहै । इसके अतिरिक्त, इस बहु-चिह्न का पता लगाने एल्गोरिथ्म सुविधाओं की स्क्रीन visualizing, इसलिए तीन या उससे कम करने के लिए सुविधाओं की संख्या को परिष्कृत पर केंद्रित है । यह सीमा कठिन समस्याओं पर काम कर सकते हैं और तीन से अधिक सुविधाओं से मिलकर सुविधा उपसमुच्चय को खोजने के लिए इच्छा कुछ उपयोगकर्ताओं में बाधा हो सकती है. हालांकि, सॉफ्टवेयर 3 डी अंतरिक्ष में सुविधा सबसेट visualizes और यह सीधे तीन से अधिक आयामों में सुविधा उपसमुच्चय कल्पना करने के लिए मुश्किल है । इसके अलावा, प्रतिनिधि ऊपर प्रस्तुत परिणामों के आधार पर, एकाधिक सुविधा kSolutionVis द्वारा चयनित तीन प्रबंधन वर्गीकरण में एक बहुत प्रभावी तरीका है और महत्वपूर्ण बायोमेडिकल अर्थ के साथ महत्वपूर्ण परिणाम से पता चलता है ।
सॉफ्टवेयर मौजूदा सुविधा चयन एल्गोरिदम के लिए उपयोगी पूरक सॉफ्टवेयर का प्रतिनिधित्व करता है. चिकित्सा के क्षेत्र में, सुविधा चयन में सुधार मॉडलिंग प्रदर्शन६०,६१,६२को प्राप्त करने की सुविधाओं के एक सबसेट को खोजने के लिए लक्ष्य के साथ, करारा है । सॉफ्टवेयर सभी triplet के एक व्यापक स्क्रीनिंग उपकरण है एक हाल ही में5अध्ययन में प्रस्तावित रणनीति पर आधारित सबसेट । दो प्रतिनिधि डेटासेट सॉफ्टवेयर के प्रोटोकॉल द्वारा जांच की है, और उनके परिणाम इसी तरह प्रभावी या भी समान मॉडलिंग प्रदर्शन के साथ काफी कुछ समाधान के अस्तित्व को प्रदर्शित करता है । हालांकि, अनुमानी नियम६३,६४,६५,६६ उप इष्टतम समाधान खोजने के लिए नियोजित किया जा सकता है, लेकिन इस तरह के एल्गोरिदम एक मजबूत करने के लिए केवल एक समाधान का उत्पादन करने की प्रवृत्ति है, कई अन्य की अनदेखी इसी तरह प्रभावी या भी समान मॉडलिंग प्रदर्शन के साथ समाधान । इसलिए, कंप्यूटर की शक्ति और लंबे समय तक चलने वाले सॉफ़्टवेयर का भविष्य में संभावित विमार्क्स का अधिक व्यापक पता लगाना सुनिश्चित करना सार्थक है ।
प्रतिनिधि परिणाम दो transcriptome डेटासेट पर गणना की गई, हालांकि, सॉफ्टवेयर विभिन्न मानक फ़ाइल स्वरूपों में इनपुट डेटा संभालता है और भी प्रोटियोमिक् और metabolomics सहित अन्य ' omic ' डेटासेट का विश्लेषण करने के लिए इस्तेमाल किया जा सकता है. साथ ही, parallelization सॉफ़्टवेयर में की गई की गणना को तेज कर सकते है मार्कर का पता लगाने मॉड्यूल । इस प्रयोजन के लिए उपलब्ध GPGPU (सामान्य प्रयोजन चित्रमय प्रसंस्करण एकजुट) और इंटेल Xeon फी प्रोसेसर सहित कुछ बहु-कोर हार्डवेयर है. हालांकि, इन प्रौद्योगिकियों के विभिंन कोडिंग रणनीतियों की आवश्यकता है और सॉफ्टवेयर के अगले संस्करण में विचार किया जाएगा ।
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
हम इस रिपोर्ट से संबंधित हित का कोई टकराव नहीं है ।
Acknowledgments
यह काम चीनी अकादमी ऑफ साइंसेज (XDB13040400) और जिलिन विश्वविद्यालय से स्टार्टअप अनुदान के सामरिक प्राथमिकता अनुसंधान कार्यक्रम द्वारा समर्थित किया गया था । अनाम समीक्षक और बायोमेडिकल परीक्षण उपयोगकर्ताओं प्रयोज्य और kSolutionVis की कार्यक्षमता में सुधार पर उनके रचनात्मक टिप्पणियों के लिए सराहना की गई ।
Materials
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
References
- Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
- Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
- Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
- Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
- Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
- Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
- Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
- Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
- Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
- Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
- Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
- Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
- Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
- Gen, M., Cheng, R., Lin, L. Network models and optimization: Multiobjective genetic algorithm approach. , Springer Science & Business Media. (2008).
- Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
- Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
- Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
- Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
- Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
- Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
- Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
- Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
- Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
- Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
- Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
- Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
- Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
- Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
- Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
- Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
- Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
- Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
- Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
- Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
- Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
- Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
- Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
- Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
- Zerbino, D. R., et al.
Ensembl 2018. Nucleic Acids Res. , (2017). - McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
- Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
- Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
- Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
- Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
- Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
- Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
- Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
- Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
- Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
- Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
- Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
- Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
- Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
- Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
- Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
- Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
- O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
- Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
- Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
- John, G. H., Kohavi, R., Pfleger, K. Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
- Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
- Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
- Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
- Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
- Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
- Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).