Cancer Research

इसी तरह प्रभावी द्विआधारी वर्गीकरण प्रदर्शन के साथ एकाधिक-मार्की सबसेट का चयन

Published: October 11, 2018 doi: 10.3791/57738

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

Summary

मौजूदा एल्गोरिथ्म एक समाधान एक के लिए एक अचिह्नित खोज dataset जनरेट करें । इस प्रोटोकॉल कई इसी तरह प्रभावी समाधान के अस्तित्व को दर्शाता है और एक उपयोगकर्ता के अनुकूल सॉफ्टवेयर की मदद के लिए जैव चिकित्सा शोधकर्ताओं प्रस्तावित चुनौती के लिए उनके डेटासेट की जांच प्रस्तुत करता है । कंप्यूटर वैज्ञानिक भी इस सुविधा को अपने स्मार्कर डिटेक्शन एल्गोरिदम में उपलब्ध करा सकते हैं ।

Abstract

एक उच्च-प्रवाह ' ओमिक्स ' शोधकर्ताओं के लिए अधिक महत्वपूर्ण बायोमेडिकल सवालों में से एक है, और लगभग सभी मौजूदा मार्कर का पता लगाने एल्गोरिदम एक दिए गए डेटासेट के लिए अनुकूलित प्रदर्शन माप के साथ एक जैव-चिह्न सबसेट उत्पन्न . हालांकि, हाल के एक अध्ययन में इसी तरह प्रभावी या यहां तक कि समान वर्गीकरण प्रदर्शन के साथ कई अगोचर सबसेट के अस्तित्व का प्रदर्शन किया । इस प्रोटोकॉल द्विआधारी वर्गीकरण प्रदर्शन, एक प्रयोक्ता परिभाषित कटऑफ से बेहतर के साथ एक अगोचर सबसेट का पता लगाने के लिए एक सरल और सीधी पद्धति प्रस्तुत करता है । प्रोटोकॉल डेटा तैयार करने और लदान, आधारभूत जानकारी सारांश, पैरामीटर ट्यूनिंग, अचिह्नक स्क्रीनिंग, परिणाम दृश्य और व्याख्या, अगोचर जीन एनोटेशन, और परिणाम और दृश्य पर निर्यात के होते है प्रकाशन गुणवत्ता । प्रस्तावित अगोचर स्क्रीनिंग की रणनीति सहज ज्ञान युक्त है और एक आम नियम को दर्शाता है के लिए एक सामांय शासन का पता लगाने एल्गोरिदम । एक प्रयोक्ता के अनुकूल ग्राफिकल यूजर इंटरफेस (जीयूआई) प्रोग्रामिंग भाषा पायथन का उपयोग कर विकसित किया गया था, की अनुमति बायोमेडिकल शोधकर्ताओं को उनके परिणामों के लिए सीधी पहुंच है । kSolutionVis के सोर्स कोड और मैनुअल को http://www.healthinformaticslab.org/supp/resources.php से डाउनलोड किया जा सकता है ।

Introduction

बाइनरी वर्गीकरण, एक जैव चिकित्सा क्षेत्र में सबसे अधिक जांच की और चुनौतीपूर्ण डेटा खनन समस्याओं में से एक, एक वर्गीकरण सबसे सटीक भेदभाव शक्ति¹के साथ नमूनों के दो समूहों पर प्रशिक्षित मॉडल बनाने के लिए प्रयोग किया जाता है^, ² ^, ³ ^, ⁴ ^, ⁵ ^, ⁶ ^, ⁷. हालांकि, बड़े जैव चिकित्सा क्षेत्र में उत्पंन डेटा अंतर्निहित "बड़े पी छोटे n प्रतिमान" है, आमतौर पर बहुत नमूनों की संख्या⁶^,⁸^,⁹की तुलना में बड़ा के साथ । इसलिए, बायोमेडिकल शोधकर्ताओं के लिए वर्गीकरण एल्गोरिदम का उपयोग करने से पहले सुविधा आयाम को कम करने के लिए है अधिक फिटिंग समस्या⁸^,⁹से बचने के । निदान के एक सबसेट के रूप में परिभाषित कर रहे है पता चलता है स्वस्थ नियंत्रण नमूने से एक दिया रोग के रोगियों को अलग सुविधाओं के¹⁰^,¹¹। मरीजों को आम तौर पर सकारात्मक नमूनों के रूप में परिभाषित कर रहे हैं, और स्वस्थ नियंत्रण नकारात्मक नमूने¹²के रूप में परिभाषित कर रहे हैं ।

हाल के अध्ययनों से सुझाव दिया है कि वहां एक से अधिक समाधान समान या इसी तरह प्रभावी वर्गीकरण प्रदर्शन के लिए एक बायोमेडिकल⁵डेटासेट के लिए मौजूद है । लगभग सभी सुविधा चयन एल्गोरिथ्म नियतात्मक एल्गोरिथ्म, एक ही dataset के लिए केवल एक समाधान का निर्माण कर रहे हैं । आनुवंशिक एल्गोरिदम एक साथ समान प्रदर्शन के साथ कई समाधान उत्पन्न कर सकते हैं, लेकिन वे अभी भी एक दिया डेटासेट के लिए उत्पादन के रूप में सबसे अच्छा फिटनेस समारोह के साथ एक समाधान का चयन करने के लिए प्रयास करें¹³^,¹⁴.

सुविधा चयन एल्गोरिथ्म मोटे तौर पर या तो फ़िल्टर या रैपर¹²के रूप में समूहीकृत किया जा सकता है । फ़िल्टर एल्गोरिथ्म शीर्ष-k सुविधाओं को बाइनरी क्लास लेबल्स के साथ उनकी महत्वपूर्ण व्यक्तिगत संबद्धता द्वारा क्रमित किया जाता है जो इस धारणा पर आधारित होता है कि सुविधाएँ एक-दूसरे से स्वतंत्र हैं¹⁵^,¹⁶^,¹⁷. हालांकि इस धारणा लगभग सभी वास्तविक दुनिया डेटासेट के लिए सच नहीं पकड़ है, अनुमानी फिल्टर नियम कई मामलों में अच्छी तरह से करता है, उदाहरण के लिए, mRMR (न्यूनतम अतिरेक और अधिकतम प्रासंगिकता) एल्गोरिथ्म, Wilcoxon परीक्षण आधारित सुविधा फ़िल्टरिंग (WRank) एल्गोरिथ्म, और ROC (रिसीवर ऑपरेटिंग विशेषता) प्लॉट आधारित फ़िल्टरिंग (ROCRank) एल्गोरिथ्म । mRMR, एक कुशल फिल्टर एल्गोरिथ्म है क्योंकि यह बहुत छोटी समस्याओं की एक श्रृंखला के साथ मिश्रित आकलन समस्या अनुमानित, अधिकतम निर्भरता सुविधा चयन एल्गोरिथ्म, जिनमें से प्रत्येक केवल दो चर शामिल है की तुलना, और इसलिए pairwise संयुक्त संभावनाओं का उपयोग करता है जो और अधिक मजबूत कर रहे है¹⁸^,¹⁹। हालांकि, mRMR कुछ सुविधाओं की उपयोगिता को नजरअंदाज कर सकते है क्योंकि यह सुविधाओं के बीच बातचीत जो प्रासंगिकता को बढ़ा सकते है उपाय नहीं करता है, और इस तरह कुछ सुविधा संयोजन है कि व्यक्तिगत रूप से बेकार है लेकिन केवल जब संयुक्त उपयोगी होते है याद करते हैं । WRank एल्गोरिथ्म नमूने के दो वर्गों के बीच कैसे भेदभाव एक सुविधा का एक गैर पैरामीट्रिक स्कोर की गणना करता है, और²⁰outliers^,²¹के लिए अपनी मजबूती के लिए जाना जाता है । इसके अलावा, ROCRank एल्गोरिथ्म मूल्यांकन कैसे महत्वपूर्ण क्षेत्र ROC वक्र (ईमेज) के तहत एक विशेष सुविधा के लिए है जांच की बाइनरी वर्गीकरण प्रदर्शन²²^,²³।

दूसरी ओर, एक रैपर किसी दिए गए सुविधा सबसेट के पूर्व-निर्धारित वर्गीकारक के प्रदर्शन का मूल्यांकन करता है, एक अनुमानी नियम द्वारा जनरेट किया गया iteratively, और श्रेष्ठ प्रदर्शन माप²⁴के साथ सुविधा सबसेट बनाता है । एक रैपर आम तौर पर एक फ़िल्टर वर्गीकरण प्रदर्शन में प्रदर्शन लेकिन धीमी²⁵चलाता है । उदाहरण के लिए, नियमित रूप से रैंडम फ़ॉरेस्ट (RRF)²⁶^,²⁷ एल्गोरिथ्म प्रत्येक रैंडम फ़ॉरेस्ट नोड, जिसका सुविधा महत्व स्कोर ्ीनि अनुक्रमणिका द्वारा मूल्यांकित है पर प्रशिक्षण डेटा का एक सबसेट पर सुविधाओं का मूल्यांकन करके एक लालची नियम का उपयोग करता है . एक नई सुविधा का चुनाव दंडित किया जाएगा अगर इसकी जानकारी हासिल है कि चुना सुविधाओं में सुधार नहीं करता है । इसके अतिरिक्त, Microarrays के लिए पूर्वानुमान विश्लेषण (पाम)²⁸^,²⁹ एल्गोरिथ्म, यह भी एक आवरण एल्गोरिथ्म, वर्ग लेबल में से प्रत्येक के लिए एक केन्द्रक की गणना करता है, और फिर सुविधाओं का चयन करने के लिए समग्र की ओर जीन centroids हटना वर्ग केन्द्रक. पाम की सुविधाओं के लिए मजबूत है ।

शीर्ष वर्गीकरण प्रदर्शन के साथ एकाधिक समाधान किसी भी दिए गए dataset के लिए आवश्यक हो सकता है । सबसे पहले, एक नियतात्मक एल्गोरिथ्म के अनुकूलन लक्ष्य एक गणितीय सूत्र द्वारा परिभाषित किया गया है, उदाहरणके लिए, न्यूनतम त्रुटि दर³⁰, जो जैविक नमूनों के लिए जरूरी आदर्श नहीं है. दूसरे, एक dataset एकाधिक, काफी अलग है, समान प्रभावी या भी समान प्रदर्शन के साथ समाधान हो सकता है. लगभग सभी मौजूदा सुविधा चयन एल्गोरिथ्म व्युत्क्रम आउटपुट³¹के रूप में इन समाधानों में से एक का चयन करेगा ।

यह अध्ययन किसी भी दिया द्विआधारी वर्गीकरण डेटासेट के लिए समान प्रदर्शन के साथ कई सुविधा चयन समाधान पैदा करने के लिए एक सूचना विश्लेषणात्मक प्रोटोकॉल परिचय होगा । यह देखते हुए कि सबसे अधिक चिकित्सा शोधकर्ताओं के साथ परिचित नहीं हैं, क्योंकि एक उपयोगकर्ता के अनुकूल ग्राफिकल यूजर इंटरफेस (GUI) के लिए जैव चिकित्सा द्विआधारी वर्गीकरण डेटासेट के तेजी से विश्लेषण की सुविधा विकसित की है । विश्लेषण प्रोटोकॉल डेटा लोड हो रहा है और सारांश, पैरामीटर ट्यूनिंग, पाइपलाइन निष्पादन, और परिणाम व्याख्या के होते हैं । एक साधारण क्लिक के साथ, शोधकर्ता करने के लिए सक्षम है के लिए-अगोचर उपसमुच्चय और प्रकाशन गुणवत्ता दृश्य भूखंडों । प्रोटोकॉल तीव्र लिम्फोब्लासटिक ल्यूकेमिया (सभी), यानी, ALL1 और ALL2¹²के दो द्विआधारी वर्गीकरण डेटासेट के transcriptomes का उपयोग कर परीक्षण किया गया है । ALL1 और ALL2 के डेटासेट को http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi पर उपलब्ध ब्रॉड इंस्टिट्यूट जीनोम डेटा एनालिसिस सेंटर से डाउनलोड किया गया । ALL1 १२,६२५ सुविधाओं के साथ १२८ नमूने शामिल हैं । इन नमूनों में से ९५ बी-सेल सभी हैं और ३३ टी-सेल सभी हैं । ALL2 १२,६२५ सुविधाओं के साथ के रूप में अच्छी तरह से १०० नमूने शामिल हैं । इन नमूनों में से ६५ रोगियों कि पलटा हुआ और ३५ रोगियों कि नहीं किया सामना कर रहे हैं । ALL1 एक आसान द्विआधारी वर्गीकरण डेटासेट, चार फिल्टर और चार wrappers ९६.७% की जा रही है की एक ंयूनतम सटीकता के साथ था, और 8 सुविधा चयन एल्गोरिदम के 6 १००%¹²प्राप्त करने । जबकि ALL2 एक और अधिक कठिन डेटासेट था, इसके बाद के संस्करण 8 सुविधा चयन एल्गोरिदम से कोई बेहतर ८३.७% सटीकता प्राप्त¹². यह सबसे अच्छा सटीकता ५६ आवरण एल्गोरिथ्म, सहसंबंध आधारित सुविधा चयन (सीएफएस) द्वारा पता लगाया सुविधाओं के साथ हासिल किया गया था ।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: निंनलिखित प्रोटोकॉल सूचना का विवरण विश्लेषणात्मक प्रक्रिया और छद्म प्रमुख मॉड्यूल के कोड का वर्णन करता है । स्वचालित विश्लेषण प्रणाली अजगर संस्करण 3.6.0 और अजगर मॉड्यूल पांडा, एबीसी, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, मठ और matplotlib का उपयोग कर विकसित किया गया था । इस अध्ययन में प्रयुक्त सामग्री सामग्री की तालिकामें सूचीबद्ध हैं ।

1. डेटा मैट्रिक्स और वर्ग लेबल तैयार करें

डेटा मैट्रिक्स फ़ाइल को टैब-या अल्पविराम-सीमांकित मैट्रिक्स फ़ाइल के रूप में तैयार करें, जैसा चित्र 1aमें दिखाया गया है ।
नोट: प्रत्येक पंक्ति में एक सुविधा के सभी मान हैं, और पहला आइटम सुविधा का नाम है । microarray-आधारित transcriptome dataset के लिए एक probeset id है या किसी methylomic डेटासेट में उसके मिथाइल मान के साथ किसी cysteine अवशेषों की तरह कोई अन्य मान id हो सकता है. प्रत्येक स्तंभ दिए गए नमूने का सुविधा मान देता है, पहला आइटम नमूना नाम के साथ । पंक्ति को स्तंभों में किसी टैब (चित्र 1b) या अल्पविराम (आरेख 1C) द्वारा अलग किया जाता है । एक टैब-सीमांकित मैट्रिक्स फ़ाइल को फ़ाइल एक्सटेंशन. tsv द्वारा पहचाना गया है, और एक अल्पविराम-सीमांकित मैट्रिक्स फ़ाइल एक्सटेंशन. csv है । यह फ़ाइल किसी मैट्रिक्स को या तो. tsv या. csv स्वरूप जैसे Microsoft Excel सॉफ़्टवेयर से सहेज कर जनरेट की जा सकती है । डाटा मैट्रिक्स भी कंप्यूटर कोडिंग द्वारा उत्पंन किया जा सकता है ।
वर्ग लेबल फ़ाइल को टैब-या अल्पविराम-सीमांकित मैट्रिक्स फ़ाइल (चित्रा 1 d), डेटा मैट्रिक्स फ़ाइल के समान के रूप में तैयार करें ।
नोट: पहला स्तंभ नमूना नाम देता है, और प्रत्येक नमूने का वर्ग लेबल वर्गशीर्षक स्तंभ में दिया जाता है । अधिक से अधिक संगतता कोडन प्रक्रिया में माना जाता है, ताकि अतिरिक्त कॉलम जोड़ा जा सकता है । वर्ग लेबल फ़ाइल को. tsv या. csv फ़ाइल के रूप में स्वरूपित किया जा सकता है । स्तंभ वर्ग में नाम किसी भी पद हो सकते हैं, और नमूनों की दो से अधिक कक्षाएं हो सकती हैं । उपयोगकर्ता निंनलिखित विश्लेषण के लिए कक्षाओं के किसी भी दो चुन सकते हैं ।

2. डेटा मैट्रिक्स और वर्ग लेबल लोड

डेटा मैट्रिक्स और वर्ग लेबल सॉफ़्टवेयर में लोड करें । उपयोगकर्ता-निर्दिष्ट डेटा मैट्रिक्स फ़ाइल का चयन करने के लिए बटन लोड डेटा मैट्रिक्स क्लिक करें । संगत वर्ग लेबल फ़ाइल का चयन करने के लिए बटन लोड वर्ग लेबल क्लिक करें ।
नोट: दोनों फ़ाइलों के लोड होने के बाद, kSolutionVis दो फ़ाइलों के बीच संगतता की एक रुटीन स्क्रीन का संचालन करेगा ।
डेटा मैट्रिक्स फ़ाइल से सुविधाओं और नमूनों का सारांश । डेटा मैट्रिक्स फ़ाइल के आकार का अनुमान लगाएं ।
नमूने और वर्ग लेबल फ़ाइल से क्लासेस संक्षिप्त करें । वर्ग लेबल फ़ाइल के आकार का अनुमान लगाएं ।
परीक्षण कि क्या डेटा मैट्रिक्स से प्रत्येक नमूना एक वर्ग लेबल है । नमूनों की संख्याओं को वर्ग लेबल्स के साथ सारांशित करना.

3. सारांश और डेटासेट के आधारभूत आँकड़े प्रदर्शित

किसी भी निर्दिष्ट कीवर्ड इनपुट के बिना बटन संक्षेपमें क्लिक करें, और सॉफ्टवेयर 20 अनुक्रमित सुविधाओं और इसी सुविधाओं के नाम प्रदर्शित करेगा ।
नोट: उपयोगकर्ताओं को वे सभी इनपुट नमूनों के बीच इसके आधारभूत आँकड़े और इसी मूल्य वितरण को देखने के लिए चाहते हैं सुविधा का नाम निर्दिष्ट करने की जरूरत है.
एक कीवर्ड प्रदान करें, उदाहरण के लिए "1000_at", पाठ बॉक्स सुविधा में संक्षेप किया जा करने के लिए एक विशिष्ट सुविधा मिल. इस दी गई सुविधा के लिए आधारभूत आंकड़े प्राप्त करने के लिए बटन सारांश क्लिक करें ।
नोट: कीवर्ड, उपयोगकर्ताओं के लिए खोज प्रक्रिया को सुविधाजनक बनाने के लक्ष्य सुविधा नामों में कहीं भी दिखाई दे सकते हैं.
दिए गए कीवर्ड के साथ एक से अधिक सुविधा ढूँढने के लिए बटन सारांश पर क्लिक करें और फिर एक विशेष सुविधा सारांशित करने के ऊपर के चरण के साथ आगे बढ़ने के लिए अनन्य सुविधा ID निर्दिष्ट करे.

4. वर्ग लेबल और शीर्ष स्थान की सुविधाओं की संख्या निर्धारित करें

के नाम चुनें धनात्मक ("P (३३)") और ऋणात्मक ("N (९५)") क्लासेस ड्रॉपडाउन बॉक्स में वर्ग धनात्मक और वर्ग ऋणात्मक, जैसा चित्र 2 (मध्य) में दिखाया गया है ।
नोट: यह एक संतुलित बाइनरी वर्गीकरण dataset, यानी, सकारात्मक और नकारात्मक नमूनों की संख्या के बीच अंतर कम है चुनने के लिए सुझाव दिया है । नमूनों की संख्या दो ड्रॉपडाउन बक्सों में प्रत्येक वर्ग लेबल के नाम के बाद लघुकोष्ठक में भी दी जाती है.
ड्रॉपडाउन बॉक्स Top_X (?) में शीर्ष स्थान वाली सुविधाओं (पैरामीटर pTopX) की संख्या के रूप में 10 चुनें सुविधा सबसेट की एक व्यापक स्क्रीन के लिए ।
नोट: सॉफ़्टवेयर स्वचालित रूप से सभी सुविधाओं को पी-मान द्वारा परिकलित प्रत्येक सुविधा का धनात्मक और ऋणात्मक वर्गों की तुलना में एक t-परीक्षण द्वारा रैंक किया जाता है. एक छोटे पीमूल्य के साथ एक सुविधा के नमूनों के दो वर्गों के बीच एक बेहतर भेदभाव शक्ति है । व्यापक स्क्रीनिंग मॉड्यूल गणना सघन है । डिफ़ॉल्ट रूप से 10 पैरामीटर pTopX है । वे अच्छा वर्गीकरण प्रदर्शन के साथ संतोषजनक सुविधा उपसमुच्चय मिल जब तक उपयोगकर्ताओं, 10 से ५० की रेंज में इस पैरामीटर बदल सकते हैं ।

5. विभिन्न प्रदर्शन के लिए धुन प्रणाली मापदंडों

चयनित वर्गीकारक एक्सट्रीम लर्निंग मशीन (एल्म) के लिए ड्रॉपडाउन बॉक् स एसीसी/bAcc (?) में प्रदर्शन मापन (pMeasurement) सटीकता (एसीसी) चुनें । इस पैरामीटर का एक अंय विकल्प माप संतुलित सटीकता (bAcc) है ।
ध्यान दें: TP, एफ एन, तमिलनाडु, और FP सच सकारात्मक, झूठी नकारात्मक, सच नकारात्मक और झूठी सकारात्मक, क्रमशः की संख्या हो । माप एसीसी के रूप में परिभाषित किया गया है (tp + तमिलनाडु)/(tp + एफ एन + तमिलनाडु + FP), जो एक संतुलित डेटासेट⁶पर सबसे अच्छा काम करता है । लेकिन एक वर्गीकारक एसीसी के लिए अनुकूलित करने के लिए नकारात्मक नमूनों की संख्या सकारात्मक लोगों की तुलना में बहुत बड़ा है, तो सभी नमूनों को ऋणात्मक वर्ग को असाइन करने के लिए जाता है । bAcc (sn + Sp) के रूप में परिभाषित किया गया है/2, जहां sn = tp/(टी. पी. + एफ एन) और Sp = तमिलनाडु/(तमिलनाडु + FP) सकारात्मक और नकारात्मक नमूनों के लिए सही ढंग से अनुमानित दरों रहे हैं, क्रमशः । इसलिए, bAcc दो वर्गों पर भविष्यवाणी प्रदर्शन को सामान्य, और दो असंतुलित वर्गों पर एक संतुलित भविष्यवाणी प्रदर्शन के लिए नेतृत्व कर सकते हैं । एसीसी pMeasurementके डिफ़ॉल्ट विकल्प है । सॉफ्टवेयर वर्गीकरण प्रदर्शन की गणना करने के लिए डिफ़ॉल्ट रूप से वर्गीकारक एल्म का उपयोग करता है । उपयोगकर्ता भी SVM (समर्थन वेक्टर मशीन), KNN (कश्मीर निकटतम पड़ोसी), निर्णय पेड़, या भोली Bayes से एक वर्गीकारक चुन सकते हैं ।
इनपुट बॉक्स pCutoff:में निर्दिष्ट प्रदर्शन मापन के लिए कटऑफ मान ०.७० (पैरामीटर pCutoff) चुनें.
नोट: दोनों एसीसी और bAcc श्रेणी के बीच 0 और 1, और उपयोगकर्ता एक मान निर्दिष्ट कर सकतेहै pCutoff [0, 1] मिलान समाधान प्रदर्शित करने के लिए cutoff के रूप में । सॉफ्टवेयर एक व्यापक सुविधा सबसेट स्क्रीनिंग किया जाता है, और pCutoff का एक उपयुक्त विकल्प 3 डी दृश्य अधिक सहज और स्पष्ट कर देगा । pCutoff के लिए डिफ़ॉल्ट मान ०.७० है ।

6. पाइपलाइन चलाएँ और इंटरैक्टिव दृश्य परिणाम का उत्पादन

पाइप लाइन चलाने और विज़ुअलाइज़ेशन प्लॉट जेनरेट करने के लिए बटन का विश्लेषण करें, जैसा चित्र 2 (नीचे) में दिखाया गया है.
नोट: वाम तालिका सभी सुविधा सबसेट और उनके pMeasurement वर्गीकारक एल्म के 10 गुना पार मांयता रणनीति द्वारा गणना की, जैसा कि पहले⁵वर्णित देता है । दो 3d तितर बितर भूखंडों और दो-लाइन भूखंडों वर्तमान पैरामीटर सेटिंग्स के साथ सुविधा सबसेट स्क्रीनिंग प्रक्रिया के लिए तैयार हैं ।
pMeasurement cutoff (पैरामीटर piCutoff, इनपुट बॉक्स मान) के डिफ़ॉल्ट मान के रूप में ०.७० चुनें, और सबसे अच्छी सुविधा सबसेट (पैरामीटर piFSNum) की संख्या के डिफ़ॉल्ट के रूप में 10.
नोट: पाइपलाइन पैरामीटर pTopX, pMeasurement, और pCutoffका उपयोग कर निष्पादित है । पता लगाया सुविधा सबसेट आगे cutoff piCutoffका उपयोग करते हुए हो सकता है, हालांकि piCutoff pCutoffसे छोटी नहीं हो सकता । इसलिए, piCutoff pCutoff के रूप में प्रारंभ किया गया है और केवल सुविधा सबसेट कार्यक्षमता माप के साथ ≥ piCutoff visualized होगा । piCutoff का डिफ़ॉल्ट मान pCutoffहै । kSolutionVis कई समाधानों का पता लगाता है, और केवल सबसे अच्छा piFSNum (डिफ़ॉल्ट: 10) सुविधा सबसेट विज़ुअलाइज़ किया जाएगा । यदि सॉफ़्टवेयर द्वारा खोजे गए सुविधा सबसेट की संख्या piFSNumसे छोटी है, तो सभी सुविधा सबसेट्स विज़ुअलाइज़ हो जाएंगे ।
चित्र 3में दर्शाए अनुसार, सॉफ़्टवेयर द्वारा खोजे गए सुविधाओं को एकत्रित और उसकी व्याख्या करें ।
नोट: बाएँ बॉक्स में तालिका पता लगाया गया सुविधा सबसेट और उनके प्रदर्शन माप दिखाता है । पहले तीन स्तंभों के नाम "F1", "F2", और "F3" हैं । प्रत्येक सुविधा सबसेट में तीन सुविधाएं उनकी रैंकिंग क्रम में एक पंक्ति (F1 < F2 < F3) में दी गई हैं । अंतिम स्तंभ प्रदर्शन माप (एसीसी या bAcc) प्रत्येक सुविधा सबसेट का देता है, और इसका स्तंभ नाम (एसीसी या bAcc) pMeasurementका मान है ।

7.3 डी तितर बितर भूखंडों की व्याख्या-कल्पना और इसी तरह प्रभावी द्विआधारी वर्गीकरण प्रदर्शन 3d तितर बितर भूखंडों का उपयोग कर के साथ सुविधा सबसेट की व्याख्या

चित्र 3 (मध्य बॉक्स) में दर्शाए अनुसार, सॉफ़्टवेयर द्वारा पता लगाए गए सर्वश्रेष्ठ वर्गीकरण प्रदर्शन (एसीसी या bAcc) के साथ शीर्ष 10 फ़ीचर उपसेट्स के 3d स्कैटर प्लॉट जेनरेट करने के लिए विश्लेषण बटन क्लिक करें । अपने रैंकों के आरोही क्रम में एक सुविधा सबसेट में तीन सुविधाओं को सॉर्ट करें और f1/f2/f3 अक्ष, यानी, f1 < f2 < f3 के रूप में तीन सुविधाओं के रैंक का उपयोग करते हैं ।
नोट: एक बिंदु का रंग संगत सुविधा सबसेट के बाइनरी वर्गीकरण प्रदर्शन का प्रतिनिधित्व करता है । किसी dataset समान प्रभावी प्रदर्शन माप के साथ एकाधिक सुविधा सबसेट हो सकता है । इसलिए, एक इंटरैक्टिव और सरलीकृत तितर बितर भूखंड आवश्यक है ।
०.७० में इनपुट बॉक्स pCutoff के लिए मान परिवर्तित करें : और 3 डी स्कैटर प्लॉट की कार्यक्षमता माप ≥ piCutoffके साथ, चित्र 3 (दाएँ बॉक्स) में देखा के रूप में जनरेट करने के लिए विश्लेषण बटन क्लिक करे । 3 डी तितर बितर भूखंड के देखने के कोण को मैंयुअल रूप से ट्यून करने के लिए एक नई विंडो खोलने के लिए बटन 3d ट्यूनिंग क्लिक करें ।
नोट: प्रत्येक सुविधा सबसेट ऊपर के रूप में एक ही तरह से एक डॉट द्वारा प्रतिनिधित्व किया है । 3 डी तितर बितर भूखंड डिफ़ॉल्ट कोण में उत्पंन किया गया था । 3 डी दृश्य और ट्यूनिंग की सुविधा के लिए, एक अलग विंडो बटन 3d ट्यूनिंगक्लिक करके खोला जाएगा ।
पता लगाए गए सुविधा सबसेट के अतिरेक को कम करने के लिए बटन को कम क्लिक करें ।
नोट: उपयोगकर्ता आगे सुविधा तीन प्रबंधन का चयन करें और सुविधा सबसेट के अतिरेक को कम करने के लिए चाहते हैं, तो सॉफ्टवेयर भी mRMR सुविधा चयन एल्गोरिथ्म का उपयोग कर इस समारोह प्रदान करता है. कम बटन पर क्लिक करने के बाद, kSolutionVis सुविधा तीन प्रबंधन में उन बेमानी सुविधाओं को दूर करेगा और मेज और दो तितर बितर भूखंडों ऊपर उल्लेख किया । सुविधा तीन प्रबंधन की निकाली गई सुविधाओं को तालिका में कुंजी शब्द द्वारा प्रतिस्थापित किया जाएगा. f1/f2/f3 अक्ष में कोई नहीं के मान piFSNum (f1/f2/f3 के सामांय मूल्य की श्रेणी [1, top_x]) के मान के रूप में चिह्नित किया जाएगा । इसलिए, कोई भी मान शामिल डॉट्स 3d प्लॉट में "ग़ैर" डॉट्स होने के लिए प्रकट हो सकता है । मैन्युअल रूप से स्वरित्र 3d प्लॉट में "3d डॉट प्लॉट की मैन्युअल ट्यूनिंग" अनुपूरक सामग्री में पाई जा सकती है.

8. जीन एनोटेशन और मानव रोगों के साथ उनके संघों खोजें

नोट: चरण 8 से 10 कैसे डीएनए और प्रोटीन दोनों के अनुक्रम स्तर से एक जीन व्याख्या करने के लिए उदाहरण देकर स्पष्ट करना होगा । सबसे पहले, इसके बाद के संस्करण कदम से प्रत्येक के जीन का प्रतीक आईडी डेटाबेस दाऊद^३२से प्राप्त किया जाएगा, और फिर दो प्रतिनिधि वेब सर्वर के लिए डीएनए और प्रोटीन के स्तर से इस जीन प्रतीक का विश्लेषण किया जाएगा, क्रमशः । सर्वर GeneCard एक दिया जीन प्रतीक का एक व्यापक कार्यात्मक एनोटेशन प्रदान करता है, और आदमी डाटाबेस (OMIM) में ऑनलाइन Mendelian विरासत रोग के सबसे व्यापक उपचारात्मक-जीन संघों प्रदान करता है । सर्वर UniProtKB सबसे व्यापक प्रोटीन डाटाबेस में से एक है, और सर्वर समूह आधारित पूर्वानुमान प्रणाली (जीपीएस) kinases की एक बहुत बड़ी सूची के लिए संकेतन फास्फारिलीकरण की भविष्यवाणी की है ।

कॉपी और एक वेब ब्राउज़र में डेटाबेस डेविड के वेब लिंक पेस्ट और इस डाटाबेस के वेब पेज खोलो । लिंक पर क्लिक करें जीन आईडी चित्रा 4a में देखा रूपांतरण और इनपुट की सुविधा IDs 38319_at/38147_at/33238_at dataset ALL1 (चित्रा 4B) के पहले के उप सबसेट की । लिंक जीन सूची पर क्लिक करें और चित्र 4Bमें दिखाए गए के रूप में प्रस्तुत सूची पर क्लिक करें । ब्याज की एनोटेशन पुनः प्राप्त करने और जीन सूची दिखाएं क्लिक करें (चित्र 4c) । जीन प्रतीकों (चित्रा 4d) की सूची प्राप्त करें।
नोट: जीन प्रतीकों यहां प्राप्त अगले चरणों में आगे कार्यात्मक एनोटेशन के लिए इस्तेमाल किया जाएगा ।
कॉपी और एक वेब ब्राउज़र में डेटाबेस जीन कार्ड के वेब लिंक पेस्ट और इस डाटाबेस के वेब पेज खोलो । खोज एक जीन का नाम CD3D डेटाबेस क्वेरी इनपुट बॉक्स में और जीन कार्ड^३३^,^३४, से इस जीन के एनोटेशन ढूंढें के रूप में तालिका 1 और संख्या 5में दिखाया गया है ।
नोट: जीन कार्ड एक व्यापक जीन नॉलेजबेस है, नामकरण प्रदान, जीनोमिक्स, प्रोटियोमिक्, सेलुलर स्थानीयकरण, और शामिल रास्ते और अंय कार्यात्मक मॉड्यूल । यह भी PDB/PDB_REDO^३५, Entrez जीन^३६, OMIM^३७, और UniProtKB^३८जैसे विभिंन अंय जैव चिकित्सा डेटाबेस के लिए बाहरी लिंक प्रदान करता है । सुविधा का नाम एक मानक जीन प्रतीक नहीं है, तो इसे^३९में कनवर्ट करने के लिए डेटाबेस ENSEMBL का उपयोग करें । CD3D जीन टी सेल रिसेप्टर T3 डेल्टा श्रृंखला का नाम है ।
वेब ब्राउज़र में OMIM डेटाबेस के वेब लिंक की प्रतिलिपि बनाएं और चिपकाएं और इस डेटाबेस का वेब पेज खोलें । खोज एक जीन का नाम CD3D और डेटाबेस से इस जीन के एनोटेशन मिल OMIM^३७, के रूप में 1 तालिका में दिखाया गया है और चित्रा 5B।
नोट: OMIM अब विरासत में प्राप्त रोगों के साथ मानव जीन कनेक्शन के सबसे व्यापक और आधिकारिक सूत्रों में से एक के रूप में कार्य करता है । OMIM डॉ विक्टर ए McKusick द्वारा रोग-संबद्ध आनुवंशिक उत्परिवर्तनों^४०catalog द्वारा शुरू की गई थी । OMIM अब १५,००० से अधिक मानव जीन और ८,५०० phenotypes पर शामिल हैं, के रूप में दिसंबर 1^सेंट २०१७ ।

9. इनकोडिंग प्रोटीन और बाद अनुवाद संशोधनों व्याख्या

वेब ब्राउज़र में UniProtKB डेटाबेस के वेब लिंक की प्रतिलिपि बनाएं और चिपकाएं और इस डेटाबेस का वेब पेज खोलें । UniProtKB के वेरी इनपुट बॉक्स में एक जीन का नाम CD3D खोजें और इस जीन के एनोटेशन को डेटाबेस^३८से खोजें, जैसा कि तालिका 1 और फिगर 5Cमें दिखाया गया है ।
नोट: UniProtKB प्रोटीन के लिए एनोटेशन का एक समृद्ध स्रोत एकत्र, दोनों नामकरण और कार्यात्मक जानकारी सहित । यह डेटाबेस भी PDB/PDB_REDO^३५, OMIM^३७, और Pfam^४१सहित अंय व्यापक रूप से उपयोग किए गए डेटाबेस के लिए बाहरी लिंक उपलब्ध कराता है ।
एक वेब ब्राउज़र में वेब सर्वर GPS की वेब लिंक की प्रतिलिपि बनाएं और चिपकाएं और इस वेब सर्वर के वेब पेज को खोलें । प्राप्त प्रोटीन अनुक्रम UniProtKB डेटाबेस^३८ से CD3D द्वारा इनकोडिंग जीन है और प्रोटीन के बाद अनुवाद संशोधन (PTM) ऑनलाइन उपकरण जीपीएस का उपयोग कर अवशेषों की भविष्यवाणी, के रूप में 1 तालिका में दिखाया गया है और चित्रा 5d।
नोट: एक जैविक प्रणाली गतिशील और जटिल है, और मौजूदा डेटाबेस केवल ज्ञात जानकारी एकत्रित करते हैं । इसलिए, बायोमेडिकल पूर्वानुमान ऑनलाइन उपकरण के रूप में के रूप में अच्छी तरह से ऑफ़लाइन कार्यक्रम उपयोगी सबूत प्रदान करने के लिए एक परिकल्पना तंत्र पूरक हो सकता है । जीपीएस विकसित किया गया है और 12 साल से अधिक के लिए सुधार⁷^,^४२ और एक दिया पेप्टाइड अनुक्रम^४३^,^४४में एक प्रोटीन के PTM अवशेषों का अनुमान लगाने के लिए इस्तेमाल किया जा सकता है । उपकरण भी विभिन्न अनुसंधान विषयों के लिए उपलब्ध हैं, एक प्रोटीन के उपसेलुलर स्थान^४५ और दूसरों के बीच में प्रतिलेखन कारक बंधन रूपांकनों ^४६ की भविष्यवाणी सहित.

10. व्याख्या प्रोटीन-प्रोटीन बातचीत और उनके समृद्ध कार्यात्मक मॉड्यूल

वेब सर्वर स्ट्रिंग की वेब लिंक की प्रतिलिपि बनाएं और वेब ब्राउज़र में चिपकाएं और इस वेब सर्वर का वेब पेज खोलें । जीन CD3D और P53 के लिए सूची खोजें, और डेटाबेस स्ट्रिंग^४७का उपयोग कर अपने orchestration गुण ढूँढें । एक ही प्रक्रिया एक और वेब सर्वर, डेविड^३२का उपयोग कर बाहर किया जा सकता है ।
नोट: व्यक्तिगत जीन के लिए aforementioned एनोटेशन के अलावा, वहां कई बड़े पैमाने पर सूचना के लिए जीन के एक समूह के गुणों की जांच उपलब्ध उपकरण हैं । एक ताजा अध्ययन का प्रदर्शन किया है कि व्यक्तिगत रूप से बुरा मार्कर जीन एक बहुत बेहतर जीन सेट⁵का गठन हो सकता है । इसलिए, यह गणना लागत के लिए और अधिक जटिल के लिए स्क्रीन करने के लिए मूल्य है । डेटाबेस स्ट्रिंग के ज्ञात या अनुमानित संपर्क कनेक्शन की कल्पना कर सकते हैं, और दाऊद सर्वर महत्वपूर्ण phenotype के साथ कार्यात्मक मॉड्यूल का पता लगाने सकता है, क्वेरी जीन^४७,^३२में संघों । विभिंन अंय बड़े पैमाने पर सूचनात्मक विश्लेषण उपकरण भी उपलब्ध हैं ।

11. जनित मार्कर सबसेट और विज़ुअलाइज़ेशन भूखंडों का निर्यात करें

अधिक विश्लेषण के लिए पता लगाए गए मार्कर सबसेट को एक. tsv या. csv पाठ फ़ाइल के रूप में निर्यात करें । बटन पर क्लिक करें सभी पता चला है कि मार्की उपसमुच्चय की मेज के नीचे तालिका निर्यात और जो पाठ प्रारूप के रूप में बचाने के लिए चुनें ।
विज़ुअलाइज़ेशन प्लॉट्स को छवि फ़ाइल के रूप में निर्यात करें. प्रत्येक प्लॉट के अंतर्गत सहेजें बटन क्लिक करें और जो छवि प्रारूप के रूप में बचाने के लिए चुनें ।
नोट: सॉफ्टवेयर पिक्सेल प्रारूप. png और सदिश प्रारूप का समर्थन करता है । svg । पिक्सेल छवियां कंप्यूटर स्क्रीन पर प्रदर्शित करने के लिए अच्छी हैं, जबकि वेक्टर छवियां जर्नल प्रकाशन उद्देश्यों के लिए आवश्यक किसी भी रिज़ॉल्यूशन में कनवर्ट की जा सकती हैं ।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

इस वर्कफ़्लो का लक्ष्य (आरेख 6) एक बाइनरी वर्गीकरण dataset के लिए समान क्षमता के साथ एकाधिक-अचिह्नित सबसेट का पता लगाने के लिए है । पूरी प्रक्रिया दो उदाहरण डेटासेट द्वारा सचित्र है ALL1 और ALL2 एक हाल ही में प्रकाशित से निकाले जाने वाले मार्कर डिटेक्शन अध्ययन¹²^,^४८. एक प्रयोक्ता पूरक सामग्री में निर्देशों का पालन करके kSolutionVis स्थापित कर सकते हैं ।

डेटासेट ALL1 फाइलेड १२ ६२५ transcriptomic फीचर्स की ९५ बी-सेल और ३३ टी-सेल सभी मरीज के रक्त के नमूने । जबकि डेटासेट ALL2 ने ६५ के लिए १२ ६२५ transcriptomic सुविधाओं के अभिव्यक्ति स्तरों का पता लगाया, जो उपचार के बाद पलटा और ३५ सभी रोगियों को जो नहीं किया । उपयोगकर्ता की सुविधा के लिए, दोनों transcriptomic datasets और उनके वर्ग लेबल सॉफ़्टवेयर के संस्करण १.४ में प्रदान किए जाते हैं । दोनों डेटासेट सॉफ़्टवेयर के स्रोत कोड निर्देशिका के उपनिर्देशिका "डेटा" में हैं ।

दो डेटासेट, ALL1 और ALL2,. csv फ़ाइलों के रूप में स्वरूपित और लोड डेटा मैट्रिक्स का उपयोग कर सॉफ्टवेयर में लोड और वर्ग लेबल बटन लोड , के रूप में चित्र 7A-Bमें दिखाया गया है । चित्रा 7A दिखाता है कि १२ ६२५ सुविधाओं के साथ सभी १२८ नमूने लोड किए गए थे, और सभी १२८ नमूने भी वर्ग लेबल है । अंतिम डेटा मैट्रिक्स है ९५ नकारात्मक नमूने (बी सेल सभी) और ३३ सकारात्मक नमूने (टी सेल सभी). साथ ही, उपयोगकर्ता भी कौन-सा वर्ग लेबल धनात्मक वर्ग लेबल है (चित्रा 7A, नीचे) निर्धारित कर सकते हैं । वर्ग लेबल फ़ाइल दो से अधिक क्लासेस निर्धारित करता है, तो उपयोगकर्ता जो दो वर्ग लेबल की जांच करने के लिए चुनना चाहते हो सकता है । इसी तरह की कार्रवाई भी मुश्किल डेटासेट ALL2 के लिए आयोजित किया गया, के रूप में चित्रा 7Bमें दिखाया गया है ।

डेटा मैट्रिक्स में सुविधाओं के मूल्य वितरण, चित्र 8में दिखाए गए के रूप में सुविधा के नाम में एक उपयोगकर्ता-विशिष्ट कीवर्ड के लिए खोज करते समय बटन सारांश क्लिक करके जांच की जा सकती है । चित्र 8A dataset ALL1 में सुविधा 1012_at के हिस्टोग्राम दिखाता है । इसके अलावा, के रूप में चित्रा 8Bमें देखा, एक ही सुविधा 1012_at दोनों डेटासेट में अभिव्यक्ति का एक समान वितरण किया है । यदि उपयोगकर्ता द्वारा कोई कीवर्ड निर्दिष्ट नहीं किया गया था, तो कुछ सुविधा नाम उपयोगकर्ताओं को सारांशित की जाने वाली सुविधाओं को तय करने में मदद करने के लिए सूचीबद्ध होंगे ।

आसान डेटासेट ALL1 pMeasurement एसीसी ≥ ०.९० (pCutoff) के साथ शीर्ष 10 क्रमित सुविधाओं (pTopX) के लिए अचिह्नित सबसेट के लिए दिखलाई । बटन चलानेपर क्लिक करने के बाद, एल्गोरिथ्म निष्पादित किया गया था, और चित्र 9Aमें देखा के रूप में परिणाम, कुछ सेकंड के बाद सॉफ़्टवेयर के निचले भाग में सचित्र थे । इस से, १२० योग्य अगोचर उपसमुच्चय का पता लगाया गया और चित्रा 9Aकी बाईं तालिका में सूचीबद्ध । ALL1 एक आसान करने के लिए भेदभाव डेटासेट था, कि यह ५७ में एसीसीमें १००% के साथ triplet उपसमुच्चय है । इस प्रोटोकॉल एक बाइनरी वर्गीकरण समस्या के लिए कई इसी तरह प्रभावी समाधान के अस्तित्व पर जोर देती है । इसलिए, यदि वे वर्गीकरण प्रदर्शन एसीसी (पैरामीटर pMeasurement) ≥ कि शीर्ष 10 स्थान (पैरामीटर piFSNum की है, तो पहले 3d स्कैटर प्लॉट 10 से अधिक (पैरामीटर piFSNum) का वर्णन कर सकते हैं । ) के अगोचर सबसेट । उपयोगकर्ता भी कम मार्कर सबसेट को आरेख 9Aमें तालिका के ऊपर पैरामीटर बॉक्स में piCutoff बदलकर प्रदर्शित करने के लिए चुन सकते हैं । 3डी प्लॉट की मैनुअल ट्यूनिंग से अनुपूरक सामग्री में 3डी डॉट प्लॉट की सेक्शन मैनुअल ट्यूनिंग पाई जा सकती है ।

इसके अलावा, सभी परिणाम तालिका या तितर बितर भूखंडों के अंतर्गत तालिका निर्यात करें बटन क्लिक करके और विश्लेषण के लिए बाहरी फ़ाइलों के रूप में निर्यात किया जा सकता है, जैसा चित्र 9में दिखाया गया है ।

dataset ALL1 के लिए प्रथम अचिह्नित सबसेट (38319_at, 38147_at और 33238_at) आरेख 9Aमें दिखाए गए के रूप में कार्यात्मक जाँच के लिए चुना गया था । ENSEMBL के खोज मॉड्यूल (http://useast.ensembl.org/Multi/Search/New?db=core) भेदभाव के एक जीन क्लस्टर के रूप में इन तीन सुविधाओं की व्याख्या 3 डेल्टा (CD3D, 38319_at), सिग्नलिंग लिम्फोसाईटिक सक्रियकरण अणु-जीन संबद्ध (SH2D1A, 38147_at ) और लिम्फोसाइट कोशिका-विशिष्ट प्रोटीन-Tyrosine कळेनासे (LCK, 33238_at) । इसके अलावा, जीन रोग एसोसिएशन डाटाबेस OMIM^३७^,^४० का सुझाव दिया है कि जीन CD3D encodes टी कोशिका प्रतिजन रिसेप्टर परिसर के डेल्टा उपइकाई और 11q23 अनुवादन में शामिल अक्सर तीव्र में मनाया मनुष्यों में ल्यूकेमिया^४९^,^५०. OMIM भी सुझाव दिया है कि Xq25 के गुणसूत्र क्षेत्र में जीन SH2D1A के भीतर जीनोमिक उत्परिवर्तनों बी सेल ल्यूकेमिया^५१^,^५२के साथ जुड़ा हो सकता है । इसके अतिरिक्त, OMIM भी एक संभव टी सेल LCK और बीटा टी सेल रिसेप्टर (TCRB)^५३के सभी जुड़े फ्यूजन घटना पर प्रकाश डाला । उपयोगकर्ताओं को अपने जीन प्रतीकों के साथ इन उपमार्क्स के अंय कार्यात्मक पहलुओं की जांच कर सकते हैं, उदाहरणके लिए, Entrez जीन^३६में जीन समारोह एनोटेशन, UniProtKB^३८ या Pfam^४१में प्रोटीन समारोह एनोटेशन, 3 डी प्रोटीन PDB/PDB_REDO^३५में संरचनाएं, और जीपीएस में PTM अवशेष⁷^,^४२^,^४३^,^४४। बातचीत उप नेटवर्क (डाटाबेस स्ट्रिंग^४७) और समृद्ध कार्यात्मक मॉड्यूल (डाटाबेस डेविड^३२) भी एक संपूर्णता के रूप में इन चिह्नों के लिए जांच की जा सकती है । विभिंन अंय डेटाबेस या वेब सर्वर भी एनोटेशन की सुविधा हो सकती है और silico भविष्यवाणियों प्रतीकों या प्राथमिक जीन का उपयोग कर/

के रूप में 2 तालिकामें देखा, समान या इसी तरह प्रभावी प्रदर्शन के साथ एक से अधिक समाधान का पता लगाने की आवश्यकता स्पष्ट है, ५७ बी के बीच १००% की बाइनरी वर्गीकरण accuracies के साथ सुविधाओं के समूहों के साथ-सेल और टी सेल सभी नमूनों । इन विशेष रूप से विशिष्ट मार्की सबसेट सही समाधान कहा जाता था । काफी कुछ इन सही समाधान में अक्सर दिखाई दिया, सुझाव है कि वे प्रमुख मतभेदों का प्रतिनिधित्व कर सकते हैं, आणविक स्तर पर, बी के बीच और टी सेल सभी । यदि CD3D/SH2D1A/LCK, एक और सही समाधान CD74/एचएलए-DPB1/PRKCQ याद किया जाएगा तीन जीन का पहला सही समाधान का पता लगाने पर रोकता है । उदाहरण के लिए, एचएलए-DPB1 काफी बाल टी सेल सभी लेकिन नहीं बी-सेल सभी^५४के साथ जुड़े होने के लिए जाना जाता है ।

ALL2 के पहले के उपमार्कर सबसेट की तीन विशेषताएं क्रोमेटिन विधानसभा कारक 1 उपइकाई बी (CHAF1B, 36912_at), exonuclease 1 (EXO1, 36041_at), और संकेत transducer और प्रतिलेखन 6 (STAT6, 41222_at) के उत्प्रेरक थे । CHAF1B अत्यधिक ल्यूकेमिया सेल लाइनों में व्यक्त किया और CHAF1B इनकोडिंग प्रोटीन के खिलाफ एंटीबॉडी काफी गंभीर माइलॉयड ल्यूकेमिया (एएमएल) रोगियों में विकसित किया गया था के लिए मनाया गया था^५५। EXO1 तीव्र ल्यूकेमिया^५६के कुछ मामलों में खो गया था, और ल्यूकेमिया सेल लाइन में विनियमित-60 [आर]. यह भी करने के लिए नकारात्मक telomeres (alt) मार्ग है, जो ऑल्ट के गठन-एसोसिएटेड पीएमएल (promyelocytic ल्यूकेमिया) निकायों (APBs)^५७की सुविधा के वैकल्पिक लंबी विनियमित पाया गया है । STAT6 से चूक एएमएल^५८के मामलों में प्रो-उत्तरजीविता और प्रफलन सिगनलिंग मार्ग को सक्रिय phosphorylated था. एक साथ ले लिया, तीन जीन लेकिमिया के विकास और पतन के साथ जुड़े थे, लेकिन कोई स्पष्ट सबूत सभी पतन के साथ अपने संघों पर प्रकाशित किया गया था । यह आगे की जांच के लिए एक दिलचस्प विषय का प्रतिनिधित्व कर सकते हैं ।

एक ही एनोटेशन प्रक्रिया ALL1 और ALL2 के लिए किसी भी अगोचर सबसेट पर आयोजित किया जा सकता है । उपरोक्त खंड में खोजी गई तीन विमार्क्स की पहचान डेटासेट ALL2 में पलटाई जाने वाली मार्क्स के रूप में नहीं की गई, जैसा आरेख 9Bमें दिखाया गया है. यह पता चलता है कि phenotype-विशिष्ट है, जो एक और एक प्रमुख चुनौती है के लिए है, कई इसी तरह प्रभावी समाधान के अस्तित्व के साथ है ।

कुछ तकनीकी मॉड्यूल लागू किया गया और यहां दिलचस्पी उपयोगकर्ताओं के लिए वर्णित है । त्रुटि हैंडलिंग मॉड्यूल सूचनात्मक संदेश उपयोगकर्ता के लिए जब सॉफ़्टवेयर के निष्पादन के दौरान त्रुटियाँ हो सकती है । मुख्य त्रुटि संदेश सूचीबद्ध होते है और पूरक सामग्री में "त्रुटि संदेश" में समझाया । एक से अधिक CPU कोर के साथ कंप्यूटर्स के लिए एक समानांतर गणना को लागू किया गया था । चल रहे समय में विस्तृत सुधार पूरक सामग्री में "समानांतर चल रहे समय" में पाया जा सकता है । डेटा का पता चलता है कि अधिक cpu कोर के उपयोग के कारण भिंन cpu कोर के बीच स्विच करने की लागत चल रहे समय में सुधार नहीं हो सकता है ।

चित्र 1: transcriptome डेटासेट ALL1 से निकाले गए उदाहरण dataset पहले नौ ALL1 के नमूने के छह विशेषताएं हैं । डेटा मैट्रिक्स (a) विज़ुअलाइज़ेशन प्रपत्र, (b) टैब-सीमांकित पाठ स्वरूप फ़ाइल, और (c) अल्पविराम-सीमांकित पाठ स्वरूप फ़ाइल में स्वरूपित किया गया था । (d) वर्ग लेबल डेटा विज़ुअलाइज़ेशन प्रपत्र में स्वरूपित किया गया था । कारण टैब वर्ण अदृश्य है, यह [टैब] में (b) के रूप में सचित्र है । स्तंभ प्लेटफ़ॉर्म microarray प्लेटफ़ॉर्म Affy (b) में देता है, और कोई आवश्यक डेटा स्तंभ नहीं है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्रा 2: सॉफ्टवेयर के ग्राफिकल यूजर इंटरफेस । ऊपरी बाएँ बॉक्स में आधारभूत आँकड़े सारांशित किए जाते हैं. उपयोगकर्ता ब्याज की सुविधाओं के लिए खोज और दो शीर्ष दाएं बक्से में मान वितरण की जांच कर सकते हैं । सभी पैरामीटर का पता लगाने की प्रक्रिया के लिए मध्य क्षैतिज पट्टी में देखते हो सकता है । सभी उपमार्की सबसेट और उनके इसी दृश्य वितरण नीचे भाग में पाया जा सकता है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्र 3: अपने द्वारा जेनरेट किए गए अचिह्नक सबसेट और उनके विज़ुअलाइज़ेशन. उपयोगकर्ता आगे तालिका और दो 3d तितर बितर भूखंडों piCutoff और piFSNumपैरामीटर का उपयोग कर परिष्कृत कर सकते हैं । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्रा 4: इस अध्ययन में पाया फीचर आईडी के जीन एनोटेशन । तीन सुविधा IDs 38319_at/38147_at/33238_at dataset ALL1 के प्रथम अचिह्नित सबसेट का ले । (क) लिंक जीन आईडी रूपांतरणपर क्लिक करके आईडी रूपांतरण मॉड्यूल प्राप्त करें । (ख) लाल बॉक्स 1 में फ़ीचर IDs इनपुट, लाल बॉक्स 2 में सुविधा प्रकार का चयन (डिफ़ॉल्ट "AFFYMETRIX_3PRIME_IVT_ID" इस अध्ययन के लिए सही है), लाल बॉक्स 3 में जीन सूची चुनें, और लाल बॉक्स 4 में सबमिट सूची क्लिक करें । (ग) इस पृष्ठ में सभी कार्यात्मक एनोटेशन जाओ और क्लिक करें जीन सूची दिखाने के लिए इन क्वेरी सुविधाओं के जीन प्रतीकों मिलता है । (d) क्वेरी की गई सुविधा IDs के जीन प्रतीकों को प्राप्त करें । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्रा 5: पता लगाया सुविधा उपसमुच्चय के एनोटेशन और संवर्धन विश्लेषण । (क) जीन कार्ड से जीन एनोटेशन. (ख) OMIM प्रत्येक सुविधा के रोग संघों का वर्णन/ (ग) डेटाबेस UniProtKB में ब्याज की जीन द्वारा इनकोडिंग प्रोटीन व्याख्या । (घ) दिए गए प्रोटीन में tyrosine फास्फारिलीकरण अवशेषों की भविष्यवाणी ऑनलाइन उपकरण जीपीएस का उपयोग कर । उपयोगकर्ता को इनपुट क्वेरी डेटा के लिए क्लिक करने के लिए कहां दिखाने के लिए एक लाल बॉक्स जोड़ा गया था । उदाहरण के लिए प्रोटीन CD3D के प्राथमिक अनुक्रम (c) में लाल बॉक्स से फसता स्वरूप के रूप में प्राप्त किया जा सकता है, और (d) में लाल बॉक्स क्लिक करके क्वेरी विंडो में इनपुट । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्र 6: kSolutionVis का कार्यप्रवाह । सॉफ्टवेयर के प्रत्येक मॉड्यूल उपर्युक्त प्रोटोकॉल में वर्णित किया गया था । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्र 7: दो प्रतिनिधि डेटासेट के आधारभूत आँकड़े. नमूनों, सुविधाओं और वर्गों में (a) ALL1 और (b) ALL2 की संख्या की गणना कर रहे हैं । डेटा मैट्रिक्स और वर्ग लेबल के फ़ाइल आकार भी पाए जाते हैं । और एक नया डेटा मैट्रिक्स वर्ग लेबल के साथ नमूनों से निकाला जाता है । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्र 8: दो डेटासेट में 1012_at सुविधा का हिस्टोग्राम विज़ुअलाइज़ेशन. आधारभूत आँकड़े और हिस्टोग्राम दोनों (क) ALL1 और (ख) ALL2 के लिए उत्पन्न हुए. कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

चित्र 9: उप-चिह्न और दो डेटासेट के स्कैटर प्लॉट्स । उपयोगकर्ता पैरामीटर बक्से की दूसरी पंक्ति में और डेटासेट (a) ALL1 और (b) ALL2 के लिए 3 डी स्कैटर भूखंडों की सूचियों को आगे परिशोधित करने के लिए पैरामीटर बदल सकते हैं । कृपया यहां क्लिक करें इस आंकड़े का एक बड़ा संस्करण को देखने के लिए ।

वेब साइट	लिंक	कार्यक्षमता
GeneCards	http://www.genecards.org/cgi-bin/carddisp.pl?gene=CD3D	जीन एनोटेशन
OMIM	https://omim.org/entry/186790?search=CD3D&highlight=cd3d	जीन-रोग संघ
UniProtKB	http://www.uniprot.org/uniprot/P04234	प्रोटीन एनोटेशन
जीपीएस	http://gps.biocuckoo.org/	प्रोटीन की PTM भविष्यवाणी
स्ट्रिंग	https://string-db.org/	प्रोटीन-प्रोटीन इंटरेक्शन
डेविड	https://david.ncifcrf.gov/	जीन सेट संवर्धन विश्लेषण

तालिका 1. व्याख्या और पता लगाया है मार्क्स विश्लेषण के लिए वेबसाइटें । उपयोगी ऑनलाइन उपकरण की एक सूची है कि मदद का पता लगाया मार्क्स व्याख्या ।

f1	f2	f3	एसीसी	Symbol1	प्रतीक2	Symbol3
38319_at	38147_at	33238_at	१.००००	CD3D	SH2D1A	LCK
33238_at	35016_at	37039_at	१.००००	LCK	CD74	एचएलए-डॅा
38147_at	33238_at	35016_at	१.००००	SH2D1A	LCK	CD74
38147_at	33238_at	2059_s_at	१.००००	SH2D1A	LCK	LCK
38147_at	33238_at	37039_at	१.००००	SH2D1A	LCK	एचएलए-डॅा
38147_at	33238_at	38095_i_at	१.००००	SH2D1A	LCK	एचएलए-DPB1
38147_at	33238_at	33039_at	१.००००	SH2D1A	LCK	TRAT1
38147_at	35016_at	2059_s_at	१.००००	SH2D1A	CD74	LCK
38147_at	35016_at	33039_at	१.००००	SH2D1A	CD74	TRAT1
38147_at	35016_at	38949_at	१.००००	SH2D1A	CD74	PRKCQ
38147_at	2059_s_at	37039_at	१.००००	SH2D1A	LCK	एचएलए-डॅा
38147_at	2059_s_at	38095_i_at	१.००००	SH2D1A	LCK	एचएलए-DPB1
38147_at	37039_at	33039_at	१.००००	SH2D1A	एचएलए-डॅा	TRAT1
38147_at	37039_at	38949_at	१.००००	SH2D1A	एचएलए-डॅा	PRKCQ
38319_at	38147_at	35016_at	१.००००	CD3D	SH2D1A	CD74
38147_at	38833_at	38949_at	१.००००	SH2D1A	एचएलए-DPA1	PRKCQ
33238_at	35016_at	33039_at	१.००००	LCK	CD74	TRAT1
38319_at	38833_at	38949_at	१.००००	CD3D	एचएलए-DPA1	PRKCQ
33238_at	35016_at	38949_at	१.००००	LCK	CD74	PRKCQ
33238_at	2059_s_at	37039_at	१.००००	LCK	LCK	एचएलए-डॅा
33238_at	37039_at	38095_i_at	१.००००	LCK	एचएलए-डॅा	एचएलए-DPB1
33238_at	37039_at	33039_at	१.००००	LCK	एचएलए-डॅा	TRAT1
33238_at	37039_at	38949_at	१.००००	LCK	एचएलए-डॅा	PRKCQ
33238_at	38095_i_at	38949_at	१.००००	LCK	एचएलए-DPB1	PRKCQ
33238_at	38833_at	38949_at	१.००००	LCK	एचएलए-DPA1	PRKCQ
33238_at	33039_at	38949_at	१.००००	LCK	TRAT1	PRKCQ
35016_at	2059_s_at	33039_at	१.००००	CD74	LCK	TRAT1
35016_at	2059_s_at	38949_at	१.००००	CD74	LCK	PRKCQ
35016_at	38095_i_at	38949_at	१.००००	CD74	एचएलए-DPB1	PRKCQ
2059_s_at	37039_at	33039_at	१.००००	LCK	एचएलए-डॅा	TRAT1
2059_s_at	38095_i_at	38949_at	१.००००	LCK	एचएलए-DPB1	PRKCQ
2059_s_at	38833_at	38949_at	१.००००	LCK	एचएलए-DPA1	PRKCQ
38319_at	33039_at	38949_at	१.००००	CD3D	TRAT1	PRKCQ
38147_at	38095_i_at	38949_at	१.००००	SH2D1A	एचएलए-DPB1	PRKCQ
38319_at	33238_at	38833_at	१.००००	CD3D	LCK	एचएलए-DPA1
38319_at	2059_s_at	38833_at	१.००००	CD3D	LCK	एचएलए-DPA1
38319_at	33238_at	33039_at	१.००००	CD3D	LCK	TRAT1
38319_at	33238_at	38095_i_at	१.००००	CD3D	LCK	एचएलए-DPB1
38319_at	33238_at	37039_at	१.००००	CD3D	LCK	एचएलए-डॅा
38319_at	35016_at	38833_at	१.००००	CD3D	CD74	एचएलए-DPA1
38319_at	33238_at	2059_s_at	१.००००	CD3D	LCK	LCK
38319_at	35016_at	33039_at	१.००००	CD3D	CD74	TRAT1
38319_at	33238_at	35016_at	१.००००	CD3D	LCK	CD74
38319_at	35016_at	38949_at	१.००००	CD3D	CD74	PRKCQ
38319_at	2059_s_at	37039_at	१.००००	CD3D	LCK	एचएलए-डॅा
38319_at	38147_at	38949_at	१.००००	CD3D	SH2D1A	PRKCQ
38319_at	38147_at	33039_at	१.००००	CD3D	SH2D1A	TRAT1
38319_at	33238_at	38949_at	१.००००	CD3D	LCK	PRKCQ
38319_at	2059_s_at	38095_i_at	१.००००	CD3D	LCK	एचएलए-DPB1
38319_at	38147_at	38833_at	१.००००	CD3D	SH2D1A	एचएलए-DPA1
38319_at	2059_s_at	33039_at	१.००००	CD3D	LCK	TRAT1
38319_at	38147_at	38095_i_at	१.००००	CD3D	SH2D1A	एचएलए-DPB1
38319_at	37039_at	33039_at	१.००००	CD3D	एचएलए-डॅा	TRAT1
38319_at	38147_at	37039_at	१.००००	CD3D	SH2D1A	एचएलए-डॅा
38319_at	38147_at	2059_s_at	१.००००	CD3D	SH2D1A	LCK
38319_at	2059_s_at	38949_at	१.००००	CD3D	LCK	PRKCQ
38319_at	35016_at	2059_s_at	१.००००	CD3D	CD74	LCK
2059_s_at	37039_at	38095_i_at	०.९९२२	LCK	एचएलए-डॅा	एचएलए-DPB1
35016_at	33039_at	38949_at	०.९९२२	CD74	TRAT1	PRKCQ
2059_s_at	37039_at	38949_at	०.९९२२	LCK	एचएलए-डॅा	PRKCQ
35016_at	2059_s_at	37039_at	०.९९२२	CD74	LCK	एचएलए-डॅा
35016_at	37039_at	38949_at	०.९९२२	CD74	एचएलए-डॅा	PRKCQ
35016_at	38833_at	38949_at	०.९९२२	CD74	एचएलए-DPA1	PRKCQ
2059_s_at	33039_at	38949_at	०.९९२२	LCK	TRAT1	PRKCQ
37039_at	38833_at	38949_at	०.९९२२	एचएलए-डॅा	एचएलए-DPA1	PRKCQ
37039_at	33039_at	38949_at	०.९९२२	एचएलए-डॅा	TRAT1	PRKCQ
38319_at	38095_i_at	38949_at	०.९९२२	CD3D	एचएलए-DPB1	PRKCQ
33238_at	37039_at	38833_at	०.९९२२	LCK	एचएलए-डॅा	एचएलए-DPA1
38095_i_at	33039_at	38949_at	०.९९२२	एचएलए-DPB1	TRAT1	PRKCQ
33238_at	2059_s_at	38949_at	०.९९२२	LCK	LCK	PRKCQ
38319_at	38833_at	33039_at	०.९९२२	CD3D	एचएलए-DPA1	TRAT1
38833_at	33039_at	38949_at	०.९९२२	एचएलए-DPA1	TRAT1	PRKCQ
38147_at	33039_at	38949_at	०.९९२२	SH2D1A	TRAT1	PRKCQ
38319_at	37039_at	38833_at	०.९९२२	CD3D	एचएलए-डॅा	एचएलए-DPA1
38147_at	2059_s_at	38949_at	०.९९२२	SH2D1A	LCK	PRKCQ
38147_at	38095_i_at	38833_at	०.९९२२	SH2D1A	एचएलए-DPB1	एचएलए-DPA1
38147_at	33238_at	38949_at	०.९९२२	SH2D1A	LCK	PRKCQ
38147_at	2059_s_at	33039_at	०.९९२२	SH2D1A	LCK	TRAT1
38319_at	37039_at	38949_at	०.९९२२	CD3D	एचएलए-डॅा	PRKCQ
38319_at	38095_i_at	38833_at	०.९९२२	CD3D	एचएलए-DPB1	एचएलए-DPA1
38147_at	2059_s_at	38833_at	०.९९२२	SH2D1A	LCK	एचएलए-DPA1
33238_at	35016_at	2059_s_at	०.९९२२	LCK	CD74	LCK
38319_at	35016_at	38095_i_at	०.९९२२	CD3D	CD74	एचएलए-DPB1
33238_at	35016_at	38095_i_at	०.९९२२	LCK	CD74	एचएलए-DPB1
38319_at	35016_at	37039_at	०.९९२२	CD3D	CD74	एचएलए-डॅा
38147_at	33238_at	38833_at	०.९९२२	SH2D1A	LCK	एचएलए-DPA1
38147_at	37039_at	38095_i_at	०.९८४४	SH2D1A	एचएलए-डॅा	एचएलए-DPB1
38147_at	35016_at	38833_at	०.९८४४	SH2D1A	CD74	एचएलए-DPA1
38147_at	35016_at	38095_i_at	०.९८४४	SH2D1A	CD74	एचएलए-DPB1
35016_at	2059_s_at	38095_i_at	०.९८४४	CD74	LCK	एचएलए-DPB1
38147_at	37039_at	38833_at	०.९८४४	SH2D1A	एचएलए-डॅा	एचएलए-DPA1
35016_at	2059_s_at	38833_at	०.९८४४	CD74	LCK	एचएलए-DPA1
38319_at	37039_at	38095_i_at	०.९८४४	CD3D	एचएलए-डॅा	एचएलए-DPB1
37039_at	38095_i_at	38949_at	०.९८४४	एचएलए-डॅा	एचएलए-DPB1	PRKCQ
38147_at	38833_at	33039_at	०.९८४४	SH2D1A	एचएलए-DPA1	TRAT1
38095_i_at	38833_at	38949_at	०.९८४४	एचएलए-DPB1	एचएलए-DPA1	PRKCQ
33238_at	35016_at	38833_at	०.९८४४	LCK	CD74	एचएलए-DPA1
38319_at	38095_i_at	33039_at	०.९८४४	CD3D	एचएलए-DPB1	TRAT1
2059_s_at	37039_at	38833_at	०.९८४४	LCK	एचएलए-डॅा	एचएलए-DPA1
2059_s_at	38833_at	33039_at	०.९७६६	LCK	एचएलए-DPA1	TRAT1
2059_s_at	38095_i_at	33039_at	०.९७६६	LCK	एचएलए-DPB1	TRAT1
2059_s_at	38095_i_at	38833_at	०.९७६६	LCK	एचएलए-DPB1	एचएलए-DPA1
33238_at	2059_s_at	38095_i_at	०.९७६६	LCK	LCK	एचएलए-DPB1
35016_at	38095_i_at	33039_at	०.९७६६	CD74	एचएलए-DPB1	TRAT1
38147_at	38095_i_at	33039_at	०.९७६६	SH2D1A	एचएलए-DPB1	TRAT1
33238_at	2059_s_at	33039_at	०.९७६६	LCK	LCK	TRAT1
35016_at	37039_at	33039_at	०.९७६६	CD74	एचएलए-डॅा	TRAT1
33238_at	38095_i_at	33039_at	०.९७६६	LCK	एचएलए-DPB1	TRAT1
33238_at	38833_at	33039_at	०.९७६६	LCK	एचएलए-DPA1	TRAT1
35016_at	38833_at	33039_at	०.९७६६	CD74	एचएलए-DPA1	TRAT1
33238_at	38095_i_at	38833_at	०.९६८८	LCK	एचएलए-DPB1	एचएलए-DPA1
37039_at	38833_at	33039_at	०.९६८८	एचएलए-डॅा	एचएलए-DPA1	TRAT1
38147_at	35016_at	37039_at	०.९६८८	SH2D1A	CD74	एचएलए-डॅा
33238_at	2059_s_at	38833_at	०.९६८८	LCK	LCK	एचएलए-DPA1
37039_at	38095_i_at	33039_at	०.९६८८	एचएलए-डॅा	एचएलए-DPB1	TRAT1
38095_i_at	38833_at	33039_at	०.९६०९	एचएलए-DPB1	एचएलए-DPA1	TRAT1
35016_at	38095_i_at	38833_at	०.९६०९	CD74	एचएलए-DPB1	एचएलए-DPA1
37039_at	38095_i_at	38833_at	०.९५३१	एचएलए-डॅा	एचएलए-DPB1	एचएलए-DPA1
35016_at	37039_at	38095_i_at	०.९५३१	CD74	एचएलए-डॅा	एचएलए-DPB1
35016_at	37039_at	38833_at	०.९५३१	CD74	एचएलए-डॅा	एचएलए-DPA1

तालिका 2. डेटासेट ALL1 से सभी सुविधाओं के एनोटेशन । यह B-कक्ष और T-कक्ष सभी नमूनों के बीच एक बाइनरी वर्गीकरण dataset है । जीन प्रतीकों पिछले तीन कॉलम में सभी microarray सुविधाओं के लिए एकत्र किए गए ।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

यह अध्ययन एक आसान बहु-समाधान का पालन करने के लिए प्रस्तुत करता है एक प्रयोक्ता निर्दिष्ट द्विआधारी वर्गीकरण डेटासेट के लिए मल्टी सॉल्यूशन का पता लगाने और लक्षण वर्णन प्रोटोकॉल । सॉफ्टवेयर उपयोगकर्ता मित्रता और विभिंन फ़ाइल स्वरूपों के लिए लचीला आयात/निर्यात इंटरफेस पर जोर डालता है, एक बायोमेडिकल शोधकर्ता आसानी से सॉफ्टवेयर के जीयूआई का उपयोग कर अपने डेटासेट की जांच करने के लिए अनुमति देता है । इस अध्ययन में भी इसी तरह प्रभावी मॉडलिंग प्रदर्शन के साथ एक से अधिक समाधान पैदा करने की आवश्यकता पर प्रकाश डाला गया, पहले कई मौजूदा अचिह्नक का पता लगाने एल्गोरिदम द्वारा नजरअंदाज कर दिया. भविष्य में, नव विकसित किया गया है मार्कर का पता लगाने एल्गोरिदम पर्याप्त मॉडलिंग प्रदर्शन के साथ सभी मध्यवर्ती अगोचर सबसेट रिकॉर्डिंग द्वारा इस विकल्प शामिल हो सकते हैं.

इस प्रोटोकॉल में, चरण 1 और 5 सबसे अधिक महत्व के हैं, के रूप में सॉफ्टवेयर एक पूरी तरह से स्वचालित प्रणाली है कि सही ढंग से स्वरूपित इनपुट फ़ाइलों पर निर्भर है । यह पाया गया कि हमारे परीक्षण कदम के दौरान, डेटा मैट्रिक्स और वर्ग लेबल फ़ाइलों से नमूना नामों की एमआईएस मैच सॉफ्टवेयर में त्रुटियों का कारण हो सकता है, जहां सॉफ्टवेयर इस त्रुटि के बारे में एक चेतावनी संवाद पॉप जाएगा । इसलिए, यदि उपयोगकर्ता कोई नमूने डेटा मैट्रिक्स या वर्ग लेबल फ़ाइलों से लोड किए गए ढूँढता है, तो समस्या निवारण चाल दो इनपुट फ़ाइलों में नमूना नाम असंगत हैं कि डबल-जाँच करने के लिए है । 3 डी तितर बितर भूखंडों में कोई डॉट्स visualized थे, तो यह सबसे अच्छा समाधान से अधिक होने के pCutoff पैरामीटर के कारण हो सकता है । इस उदाहरण में, समस्या निवारण चाल के लिए cutoff वर्गीकरण प्रदर्शन माप (पैरामीटर pCutoff) को कम करने के लिए है । हालांकि, अधिकतम प्रदर्शन माप द्वारा प्राप्त की गई अचिह्नित सबसेट अभी भी एक मुश्किल डेटासेट के लिए कटऑफ द्वारा अवरुद्ध हो सकता है. एक चेतावनी संवाद यह सबसे अच्छा प्रदर्शन माप दे देंगे, और उपयोगकर्ता एक छोटे cutoff का चयन आगे विश्लेषण जारी रख सकते हैं.

सॉफ्टवेयर की मुख्य सीमाएं इसकी धीमी गणना की गति और इसकी क्षमता पर ही ध्यान केंद्रित कर रहे हैं, सबसे कम, तीन सुविधाओं. सुविधा चयन एक NP-हार्ड समस्या है, जिसका वैश्विक रूप से इष्टतम समाधान बहुपद समय^५९के भीतर हल नहीं किया जा सकता एक गणना समस्या के रूप में परिभाषित है । व्यापक अगोचर सबसेट स्क्रीनिंग कदम गणना शक्ति की एक उच्च मात्रा का उपभोग करता है । kSolutionVis के रनिंग टाइम जटिलता ओ (एन³) है जहां n पैरामीटर pTopXहै । इसके अतिरिक्त, इस बहु-चिह्न का पता लगाने एल्गोरिथ्म सुविधाओं की स्क्रीन visualizing, इसलिए तीन या उससे कम करने के लिए सुविधाओं की संख्या को परिष्कृत पर केंद्रित है । यह सीमा कठिन समस्याओं पर काम कर सकते हैं और तीन से अधिक सुविधाओं से मिलकर सुविधा उपसमुच्चय को खोजने के लिए इच्छा कुछ उपयोगकर्ताओं में बाधा हो सकती है. हालांकि, सॉफ्टवेयर 3 डी अंतरिक्ष में सुविधा सबसेट visualizes और यह सीधे तीन से अधिक आयामों में सुविधा उपसमुच्चय कल्पना करने के लिए मुश्किल है । इसके अलावा, प्रतिनिधि ऊपर प्रस्तुत परिणामों के आधार पर, एकाधिक सुविधा kSolutionVis द्वारा चयनित तीन प्रबंधन वर्गीकरण में एक बहुत प्रभावी तरीका है और महत्वपूर्ण बायोमेडिकल अर्थ के साथ महत्वपूर्ण परिणाम से पता चलता है ।

सॉफ्टवेयर मौजूदा सुविधा चयन एल्गोरिदम के लिए उपयोगी पूरक सॉफ्टवेयर का प्रतिनिधित्व करता है. चिकित्सा के क्षेत्र में, सुविधा चयन में सुधार मॉडलिंग प्रदर्शन^६०^,^६१^,^६२को प्राप्त करने की सुविधाओं के एक सबसेट को खोजने के लिए लक्ष्य के साथ, करारा है । सॉफ्टवेयर सभी triplet के एक व्यापक स्क्रीनिंग उपकरण है एक हाल ही में⁵अध्ययन में प्रस्तावित रणनीति पर आधारित सबसेट । दो प्रतिनिधि डेटासेट सॉफ्टवेयर के प्रोटोकॉल द्वारा जांच की है, और उनके परिणाम इसी तरह प्रभावी या भी समान मॉडलिंग प्रदर्शन के साथ काफी कुछ समाधान के अस्तित्व को प्रदर्शित करता है । हालांकि, अनुमानी नियम^६३^,^६४^,^६५^,^६६ उप इष्टतम समाधान खोजने के लिए नियोजित किया जा सकता है, लेकिन इस तरह के एल्गोरिदम एक मजबूत करने के लिए केवल एक समाधान का उत्पादन करने की प्रवृत्ति है, कई अन्य की अनदेखी इसी तरह प्रभावी या भी समान मॉडलिंग प्रदर्शन के साथ समाधान । इसलिए, कंप्यूटर की शक्ति और लंबे समय तक चलने वाले सॉफ़्टवेयर का भविष्य में संभावित विमार्क्स का अधिक व्यापक पता लगाना सुनिश्चित करना सार्थक है ।

प्रतिनिधि परिणाम दो transcriptome डेटासेट पर गणना की गई, हालांकि, सॉफ्टवेयर विभिन्न मानक फ़ाइल स्वरूपों में इनपुट डेटा संभालता है और भी प्रोटियोमिक् और metabolomics सहित अन्य ' omic ' डेटासेट का विश्लेषण करने के लिए इस्तेमाल किया जा सकता है. साथ ही, parallelization सॉफ़्टवेयर में की गई की गणना को तेज कर सकते है मार्कर का पता लगाने मॉड्यूल । इस प्रयोजन के लिए उपलब्ध GPGPU (सामान्य प्रयोजन चित्रमय प्रसंस्करण एकजुट) और इंटेल Xeon फी प्रोसेसर सहित कुछ बहु-कोर हार्डवेयर है. हालांकि, इन प्रौद्योगिकियों के विभिंन कोडिंग रणनीतियों की आवश्यकता है और सॉफ्टवेयर के अगले संस्करण में विचार किया जाएगा ।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

हम इस रिपोर्ट से संबंधित हित का कोई टकराव नहीं है ।

Acknowledgments

यह काम चीनी अकादमी ऑफ साइंसेज (XDB13040400) और जिलिन विश्वविद्यालय से स्टार्टअप अनुदान के सामरिक प्राथमिकता अनुसंधान कार्यक्रम द्वारा समर्थित किया गया था । अनाम समीक्षक और बायोमेडिकल परीक्षण उपयोगकर्ताओं प्रयोज्य और kSolutionVis की कार्यक्षमता में सुधार पर उनके रचनात्मक टिप्पणियों के लिए सराहना की गई ।

Materials

Name	Company	Catalog Number	Comments
Hardware
laptop	Lenovo	X1 carbon	Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name	Company	Catalog Number	Comments
Software
Python 3.0	WingWare	Wing Personal	Any python programming and running environments support Python version 3.0 or above