Summary

मेटाजेनोमिक डेटा के जैविक दृश्यों को वर्गीकृत करने के लिए डीप लर्निंग का उपयोग करने के लिए गैर-कंप्यूटर पेशेवरों के लिए एक वर्चुअल मशीन प्लेटफॉर्म

Published: September 25, 2021
doi:

Summary

यह ट्यूटोरियल मेटाजनोमिक डेटा के 2-वर्ग अनुक्रम वर्गीकरण प्रदर्शन के लिए एक गहरी सीखने की एल्गोरिदम का निर्माण करने के लिए एक सरल विधि का वर्णन करता है।

Abstract

प्रजातियों के वर्गीकरण, जीन समारोह वर्गीकरण और वायरल होस्ट वर्गीकरण जैसे विभिन्न जैविक अनुक्रम वर्गीकरण कार्यों, कई मेटाजन्नोमिक डेटा विश्लेषणों में अपेक्षित प्रक्रियाएं हैं। चूंकि मेटाजन्नोमिक डेटा में बड़ी संख्या में उपन्यास प्रजातियां और जीन होते हैं, इसलिए कई अध्ययनों में उच्च प्रदर्शन करने वाले वर्गीकरण एल्गोरिदम की आवश्यकता होती है। जीवविज्ञानी अक्सर किसी विशिष्ट कार्य के लिए उपयुक्त अनुक्रम वर्गीकरण और एनोटेशन टूल खोजने में चुनौतियों का सामना करते हैं और अक्सर आवश्यक गणितीय और कम्प्यूटेशनल ज्ञान की कमी के कारण अपने दम पर एक संबंधित एल्गोरिदम का निर्माण करने में सक्षम नहीं होते हैं। डीप लर्निंग तकनीक हाल ही में एक लोकप्रिय विषय बन गई है और कई वर्गीकरण कार्यों में मजबूत फायदे दिखाती है। आज तक, कई अत्यधिक पैक किए गए डीप लर्निंग पैकेज, जो जीव विज्ञानियों के लिए एल्गोरिदम विवरणों के गहन ज्ञान के बिना अपनी आवश्यकताओं के अनुसार गहरे सीखने के ढांचे का निर्माण करना संभव बनाते हैं, विकसित किए गए हैं। इस ट्यूटोरियल में, हम पर्याप्त गणितीय ज्ञान या प्रोग्रामिंग कौशल की आवश्यकता के बिना अनुक्रम वर्गीकरण के लिए एक आसान-से-उपयोग डीप लर्निंग फ्रेमवर्क के निर्माण के लिए एक दिशानिर्देश प्रदान करते हैं। सभी कोड को एक आभासी मशीन में अनुकूलित किया जाता है ताकि उपयोगकर्ता सीधे अपने डेटा का उपयोग करके कोड चला सकें।

Introduction

मेटाजेनोमिक अनुक्रमण तकनीक तनाव अलगाव प्रक्रिया को नजरअंदाज करती है और सीधे पर्यावरणीय नमूने में कुल डीएनए को दृश्यों करती है। इस प्रकार, मेटाजन्नोमिक डेटा में विभिन्न जीवों से डीएनए होता है, और अधिकांश जैविक दृश्य उपन्यास जीवों से होते हैं जो वर्तमान डेटाबेस में मौजूद नहीं हैं। विभिन्न शोध उद्देश्यों के अनुसार, जीवविज्ञानियों को इन दृश्यों को विभिन्न दृष्टिकोणों से वर्गीकृत करने की आवश्यकता है, जैसे वर्गीकरण वर्गीकरण1,वायरस-बैक्टीरिया वर्गीकरण2,3,4,गुणसूत्र-प्लाज्मिड वर्गीकरण3,5,6,7,और जीन फंक्शन एनोटेशन (जैसे एंटीबायोटिक प्रतिरोध जीन वर्गीकरण8 और उग्रता कारक वर्गीकरण9 ). चूंकि मेटाजेनोमिक डेटा में बड़ी संख्या में उपन्यास प्रजातियां और जीन होते हैं, एबी इनिटियो एल्गोरिदम, जो अनुक्रम वर्गीकरण (डीएनए वर्गीकरण और प्रोटीन वर्गीकरण सहित) के लिए ज्ञात डेटाबेस पर भरोसा नहीं करते हैं, मेटाजनोमिक डेटा विश्लेषण में एक महत्वपूर्ण दृष्टिकोण हैं। हालांकि, इस तरह के एल्गोरिदम के डिजाइन के लिए पेशेवर गणित ज्ञान और प्रोग्रामिंग कौशल की आवश्यकता होती है; इसलिए, कई जीवविज्ञानियों और एल्गोरिदम डिजाइन शुरुआती लोगों को अपनी आवश्यकताओं के अनुरूप वर्गीकरण एल्गोरिदम का निर्माण करने में कठिनाई होती है।

आर्टिफिशियल इंटेलिजेंस के विकास के साथ, मेटाजेनोमिक विश्लेषण में अनुक्रम वर्गीकरण जैसे कार्यों को पूरा करने के लिए बायोइन्फॉर्मेटिक्स के क्षेत्र में डीप लर्निंग एल्गोरिदम का व्यापक रूप से उपयोग किया गया है। शुरुआती लोगों को डीप लर्निंग एल्गोरिदम को समझने में मदद करने के लिए, हम नीचे एक आसान-से-समझ फैशन में एल्गोरिदम का वर्णन करते हैं।

एक गहरी सीखने की तकनीक का अवलोकन चित्र 1में दिखाया गया है । एक डीप लर्निंग एल्गोरिदम की मुख्य तकनीक एक कृत्रिम तंत्रिका नेटवर्क है, जो मानव मस्तिष्क की संरचना से प्रेरित है। एक गणितीय दृष्टिकोण से, एक कृत्रिम तंत्रिका नेटवर्क को एक जटिल कार्य के रूप में माना जा सकता है। प्रत्येक वस्तु (जैसे डीएनए अनुक्रम, एक तस्वीर या वीडियो) पहले डिजिटाइज्ड होती है। डिजिटाइज्ड ऑब्जेक्ट को तब फ़ंक्शन में आयात किया जाता है। आर्टिफिशियल न्यूरल नेटवर्क का काम इनपुट डेटा के हिसाब से सही रिस्पॉन्स देना है। उदाहरण के लिए, यदि 2-श्रेणी वर्गीकरण कार्य करने के लिए एक कृत्रिम तंत्रिका नेटवर्क का निर्माण किया जाता है, तो नेटवर्क को एक संभावना स्कोर आउटपुट करना चाहिए जो प्रत्येक वस्तु के लिए 0-1 के बीच है। तंत्रिका नेटवर्क को नकारात्मक वस्तु को कम स्कोर देते समय सकारात्मक वस्तु को उच्च स्कोर (जैसे 0.5 से अधिक स्कोर) देना चाहिए। इस लक्ष्य को प्राप्त करने के लिए, प्रशिक्षण और परीक्षण प्रक्रियाओं के साथ एक कृत्रिम तंत्रिका नेटवर्क का निर्माण किया जाता है। इन प्रक्रियाओं के दौरान, ज्ञात डेटाबेस से डेटा डाउनलोड किया जाता है और फिर एक प्रशिक्षण सेट और परीक्षण सेट में विभाजित किया जाता है। प्रत्येक वस्तु को उचित तरीके से डिजिटाइज्ड किया जाता है और सकारात्मक वस्तुओं के लिए एक लेबल (“1” और नकारात्मक वस्तुओं के लिए “0” दिया जाता है)। प्रशिक्षण प्रक्रिया में, प्रशिक्षण सेट में डिजिटाइज्ड डेटा तंत्रिका नेटवर्क में इनपुट किया जाता है। कृत्रिम तंत्रिका नेटवर्क एक नुकसान फ़ंक्शन का निर्माण करता है जो इनपुट ऑब्जेक्ट के आउटपुट स्कोर और ऑब्जेक्ट के संबंधित लेबल के बीच विघटन का प्रतिनिधित्व करता है। उदाहरण के लिए, यदि इनपुट ऑब्जेक्ट का लेबल “1” है, जबकि आउटपुट स्कोर “0.1” है, तो नुकसान फ़ंक्शन अधिक होगा; और यदि इनपुट ऑब्जेक्ट का लेबल “0” है, जबकि आउटपुट स्कोर “0.1” है, तो नुकसान का कार्य कम होगा। कृत्रिम तंत्रिका नेटवर्क एक विशिष्ट पुनरावृत्ति एल्गोरिदम को नियोजित करता है जो नुकसान के कार्य को कम करने के लिए तंत्रिका नेटवर्क के मापदंडों को समायोजित करता है। प्रशिक्षण प्रक्रिया खत्म जब नुकसान समारोह स्पष्ट रूप से और अधिक कम नहीं किया जा सकता है । अंत में, परीक्षण सेट में डेटा का उपयोग निश्चित तंत्रिका नेटवर्क का परीक्षण करने के लिए किया जाता है, और उपन्यास वस्तुओं के लिए सही लेबल की गणना करने के लिए तंत्रिका नेटवर्क की क्षमता का मूल्यांकन किया जाता है। डीप लर्निंग एल्गोरिदम के अधिक सिद्धांत लेकुन एट अल में समीक्षा में पाए जा सकते हैं। 10.

यद्यपि डीप लर्निंग एल्गोरिदम के गणितीय सिद्धांत जटिल हो सकते हैं, हाल ही में कई अत्यधिक पैक किए गए डीप लर्निंग पैकेज विकसित किए गए हैं, और प्रोग्रामर सीधे कोड की कुछ पंक्तियों के साथ एक सरल कृत्रिम तंत्रिका नेटवर्क का निर्माण कर सकते हैं।

अधिक तेजी से गहरी शिक्षा का उपयोग करने में शुरू होने में जीव विज्ञानियों और एल्गोरिदम डिजाइन शुरुआती की सहायता करने के लिए, यह ट्यूटोरियल अनुक्रम वर्गीकरण के लिए एक आसान-से-उपयोग गहरे सीखने के ढांचे के निर्माण के लिए एक दिशानिर्देश प्रदान करता है। यह फ्रेमवर्क जैविक दृश्यों को डिजिटाइज करने के लिए गणितीय मॉडल के रूप में “एक-गर्म” एन्कोडिंग फॉर्म का उपयोग करता है और वर्गीकरण कार्य करने के लिए एक जटिल तंत्रिका नेटवर्क का उपयोग करता है (पूरक सामग्रीदेखें)। इस दिशानिर्देश का उपयोग करने से पहले उपयोगकर्ताओं को केवल एक चीज की आवश्यकता है कि “फास्टा” प्रारूप में चार अनुक्रम फ़ाइलें तैयार करना है। पहली फ़ाइल में प्रशिक्षण प्रक्रिया के लिए सकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “p_train.fasta” कहा जाता है); दूसरी फ़ाइल में प्रशिक्षण प्रक्रिया के लिए नकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “n_train.fasta” कहा जाता है); तीसरी फ़ाइल में परीक्षण प्रक्रिया के लिए सकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “p_test.fasta” कहा जाता है); और अंतिम फ़ाइल में परीक्षण प्रक्रिया के लिए नकारात्मक वर्ग के सभी दृश्य शामिल हैं (जिसे “n_test.fasta” कहा जाता है)। इस ट्यूटोरियल के फ्लोचार्ट का अवलोकन चित्र 2में प्रदान किया गया है, और अधिक विवरण नीचे उल्लेख किया जाएगा।

Protocol

1. वर्चुअल मशीन की स्थापना (https://github.com/zhenchengfang/DL-VM) से वर्चुअल मशीन फाइल डाउनलोड करें। https://www.virtualbox.org से वर्चुअलबॉक्स सॉफ्टवेयर डाउनलोड करें। “7-ज़िप”, “WinRAR” या “WinZip” जैसे संबंधित सॉफ़्टवेयर का उपयोग करके “.7z” फ़?…

Representative Results

अपने पिछले काम में, हमने इस ट्यूटोरियल3,11, 12के समान दृष्टिकोण का उपयोग करके मेटाजेनोमिक डेटा के लिए अनुक्रम वर्गीकरणउपकरणोंकी एक श्रृंखला विकसित की। एक उदाहरण के रू?…

Discussion

यह ट्यूटोरियल जीव विज्ञानियों और एल्गोरिदम डिजाइन शुरुआती लोगों के लिए एक अवलोकन प्रदान करता है कि मेटाजेनोमिक डेटा में जैविक अनुक्रम वर्गीकरण के लिए एक आसान-से-उपयोग गहरे सीखने के ढांचे का निर्माण ?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

इस जांच को नेशनल नेचुरल साइंस फाउंडेशन ऑफ चाइना (81925026, 82002201, 81800746, 82102508) ने आर्थिक रूप से समर्थन दिया था ।

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).
check_url/62250?article_type=t

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video