यहां, हम एक नई और पूरी तरह से स्वचालित माइआरएनए पाइपलाइन प्रस्तुत करते हैं, mirMachine कि 1) ज्ञात और उपन्यास MIRNA को अधिक सटीक रूप से पहचान सकता है और 2) पूरी तरह से स्वचालित और स्वतंत्र रूप से उपलब्ध है। उपयोगकर्ता अब पूरी तरह से स्वचालित mirMachine पाइपलाइन चलाने के लिए एक छोटी सबमिशन स्क्रिप्ट निष्पादित कर सकते हैं।
विभिन्न प्रकार के नॉनकोडिंग आरएनए में से, माइक्रोआरएनए (एमआईआरएनए) यकीनन पिछले एक दशक में सुर्खियों में रहे हैं। जीन अभिव्यक्ति के पोस्ट-ट्रांसक्रिप्शनल नियामकों के रूप में, एमआईआरएनए विभिन्न सेलुलर मार्गों में महत्वपूर्ण भूमिका निभाते हैं, जिसमें विकास और जैविक तनाव के लिए प्रतिक्रिया दोनों शामिल हैं, जैसे कि सूखा और बीमारियां। उच्च गुणवत्ता वाले संदर्भ जीनोम अनुक्रमों के होने से कई पौधों की प्रजातियों में एमआईआरएनए की पहचान और एनोटेशन सक्षम होता है, जहां एमआईआरएनए अनुक्रम अत्यधिक संरक्षित होते हैं। चूंकि कम्प्यूटेशनल एमआरएनए पहचान और एनोटेशन प्रक्रियाएं ज्यादातर त्रुटि-प्रवण प्रक्रियाएं हैं, होमोलॉजी-आधारित भविष्यवाणियां भविष्यवाणी सटीकता को बढ़ाती हैं। हमने पिछले दशक में एमआईआरएनए एनोटेशन पाइपलाइन, सुमीर को विकसित और बेहतर बनाया है, जिसका उपयोग तब से कई पौधों के जीनोम के लिए किया गया है।
यह अध्ययन एक पूरी तरह से स्वचालित, नई मिआरएनए पाइपलाइन, mirMachine (mirNA मशीन) प्रस्तुत करता है, (i) द्वितीयक संरचना भविष्यवाणियों पर एक अतिरिक्त फ़िल्टरिंग चरण जोड़कर, (ii) इसे पूरी तरह से स्वचालित बनाना, और (iii) पिछली पाइपलाइन का उपयोग करके छोटे आरएनए अनुक्रमण के आधार पर होमोलोगोलॉजी या उपन्यास एमआईआरएनए के आधार पर ज्ञात माइआरएनए की भविष्यवाणी करने के लिए नए विकल्प पेश करना। नई एमआईआरएनए पाइपलाइन, मीरमशीन का परीक्षण एराबिडोप्सिस सूचना संसाधन, टीएआईआर 10, एराबिडोप्सिस जीनोम की रिहाई और अंतर्राष्ट्रीय गेहूं जीनोम अनुक्रमण कंसोर्टियम (आईडब्ल्यूजीएससी) गेहूं संदर्भ जीनोम वी 2 का उपयोग करके किया गया था।
अगली पीढ़ी की अनुक्रमण प्रौद्योगिकियों में प्रगति ने आरएनए संरचनाओं और नियामक तत्वों की समझ को व्यापक बनाया है, कार्यात्मक रूप से महत्वपूर्ण गैर-कोडिंग आरएनए (एनसीआरएनए) का खुलासा किया है। विभिन्न प्रकार के एनसीआरएनए में, माइक्रोआरएनए (एमआईआरएनए) पौधों 1,2 में 19 और 24 न्यूक्लियोटाइड के बीच लंबाई के साथ छोटे आरएनए का एक मौलिक नियामक वर्ग बनाते हैं। नेमाटोड केनोरहाब्डिस एलिगेंस3 में पहले माइआरएनए की खोज के बाद से, माइआरएनए की उपस्थिति और कार्यों का जानवरों और पौधों के जीनोम के साथ-साथ 4,5,6 में बड़े पैमाने पर अध्ययन किया गया है। माइआरएनए दरार या ट्रांसलेशनल दमन के लिए एमआरएनए को लक्षित करके कार्यकरते हैं। साक्ष्य जमा करने से यह भी पता चला है कि एमआईआरएनए पौधों में जैविक प्रक्रियाओं की एक विस्तृत श्रृंखला में शामिल हैं जिनमें विकास और विकास8, स्व-बायोजेनेसिस9, और कई जैविक और अजैविक तनाव प्रतिक्रियाएंशामिल हैं।
पौधों में, एमआईआरएनए को शुरू में लंबे प्राथमिक प्रतिलेख से संसाधित किया जाता है जिसे प्री-एमआईआरएनए11 कहा जाता है। नाभिक के अंदर आरएनए पोलीमरेज़ II द्वारा उत्पन्न ये प्री-एमआईआरएनए एक अपूर्ण फोल्ड-बैक संरचना12 बनाने वाले लंबे प्रतिलेख हैं। प्री-एमआईआरएनए बाद में प्री-एमआईआरएनए11 नामक एमआईआरएनए के अंतर्जात एकल-फंसे (एसएस) हेयरपिन अग्रदूतों का उत्पादन करने के लिए एक दरार प्रक्रिया से गुजरते हैं। प्री-माइआरएनए एक हेयरपिन जैसी संरचना बनाता है जिसमें एक एकल स्ट्रैंड एक डबल-स्ट्रैंड संरचना में फोल्ड होता है ताकि एक एमआईआरएनए डुप्लेक्स (एमआईआरएनए / एमआईआरएनए *) 13 का उत्पादन किया जा सके। डाइसर जैसा प्रोटीन एमआईआरएनए / एमआईआरएनए * डुप्लेक्स के दोनों किस्में काटता है, जिससे 2-न्यूक्लियोटाइड 3′-ओवरहैंग14,15 रह जाते हैं। मिआरएनए डुप्लेक्स नाभिक के अंदर मिथाइलेटेड होता है, जो माइआरएनए के 3′-अंत को क्षरण और यूरिनाइलेशन गतिविधि16,17 से बचाता है। एक हेलिकेस निर्यात के बाद मिथाइलेटेड मिआरएनए डुप्लेक्स को खोल देता है और परिपक्व एमआईआरएनए को साइटोसोल18 में आरएनए-प्रेरित साइलेंसिंग कॉम्प्लेक्स (आरआईएससी) में उजागर करता है। डुप्लेक्स का एक स्ट्रैंड परिपक्व मिआरएनए है जिसे आरआईएससी में शामिल किया गया है, जबकि दूसरा स्ट्रैंड, एमआईआरएनए *, अवक्रमित है। MIRNA-RISC कॉम्प्लेक्स लक्ष्य अनुक्रम को बांधता है जिससे पूर्ण पूरकता के मामले में या तो एमआरएनए क्षरण होता है या आंशिक पूरकताके मामले में ट्रांसलेशनल दमन होता है।
अभिव्यक्ति और बायोजेनेसिस विशेषताओं के आधार पर, एमआईआरएनए एनोटेशन के लिए दिशानिर्देश15,19 वर्णित किए गए हैं। परिभाषित दिशानिर्देशों के साथ, लुकास और बुदक ने पौधों 9 में सिलिको मिआरएनए पहचान में होमोलॉजी-आधारित होमोलॉजी करने के लिए सुमीर पाइपलाइन विकसितकी। सुमीर पाइपलाइन दो लिपियों से बनी थी: सुमीरफाइंड और सुमीरफोल्ड। एसयूमिरफाइंड नेशनल सेंटर फॉर बायोटेक्नोलॉजी इंफॉर्मेशन (एनसीबीआई) बेसिक लोकल एलाइनमेंट सर्च टूल (ब्लास्ट) स्क्रीनिंग के माध्यम से ज्ञात एमआईआरएनए डेटासेट के खिलाफ समानता खोज करता है, जिसमें केवल 2 या उससे कम बेमेल वाले हिट शामिल होते हैं और छोटे हिट (ब्लास्टन-शॉर्ट-अनकैप्ड-पेनल्टी -1-रिवॉर्ड 1) के प्रति पूर्वाग्रह से बचने के लिए। एसयूमिरफोल्ड यूएनएफोल्ड21 का उपयोग करके ब्लास्ट20 परिणामों से कथित मिआरएनए अनुक्रमों की द्वितीयक संरचना का मूल्यांकन करता है। एसयूमिरफोल्ड हेयरपिन संरचना की विशेषताओं की पहचान करके छोटे हस्तक्षेप करने वाले आरएनए से एमआईआरएनए को अलग करता है। इसके अलावा, यह मापदंडों द्वारा टीआरएनए और आरआरएनए जैसे अन्य एसएसआरएनए से एमआईआरएनए को अलग करता है, न्यूनतम गुना ऊर्जा सूचकांक > 0.67 और जीसी सामग्री 24-71% है। इस पाइपलाइन को हाल ही में दो अतिरिक्त चरणों को जोड़कर अपडेट किया गया है (i) संवेदनशीलता में वृद्धि, (ii) एनोटेशन सटीकता में वृद्धि, और (iii) अनुमानित MIRNA जीन22 का जीनोमिक वितरण प्रदान करना। प्लांट मिआरएनएअनुक्रम23 के उच्च संरक्षण को देखते हुए, इस पाइपलाइन को मूल रूप से होमोलॉजी-आधारित मिआरएनए भविष्यवाणी के लिए डिज़ाइन किया गया था। हालांकि, इस जैव सूचना विज्ञान विश्लेषण के साथ नोवेल एमआईआरएनए को सटीक रूप से पहचाना नहीं जा सका क्योंकि यह निकटता से संबंधित प्रजातियों के बीच एमआईआरएनए के अनुक्रम संरक्षण पर बहुत अधिक निर्भर था।
यह पेपर एक नई और पूरी तरह से स्वचालित माइआरएनए पाइपलाइन प्रस्तुत करता है, mirMachine कि 1) ज्ञात और उपन्यास MIRNA को अधिक सटीक रूप से पहचान सकता है (उदाहरण के लिए, पाइपलाइन अब sRNA-seq-आधारित उपन्यास MIRNA भविष्यवाणियों के साथ-साथ होमोलॉजी-आधारित MIRNA पहचान का उपयोग करती है) और 2) पूरी तरह से स्वचालित और स्वतंत्र रूप से उपलब्ध है। आउटपुट में अनुमानित एमआईआरएनए के जीनोमिक वितरण भी शामिल हैं। गेहूं और एराबिडोप्सिस जीनोम में होमोलॉजी-आधारित और एसआरएनए-सेक-आधारित भविष्यवाणियों दोनों के लिए मीरमशीन का परीक्षण किया गया था। हालांकि शुरू में मुफ्त सॉफ्टवेयर के रूप में जारी किया गया था, यूएनएफोल्ड पिछले दशक में एक वाणिज्यिक सॉफ्टवेयर बन गया। इस उन्नयन के साथ, द्वितीयक संरचना पूर्वानुमान उपकरण को UNAfold से RNAfold में बदल दिया गया था ताकि mirMachine स्वतंत्र रूप से उपलब्ध हो सके। उपयोगकर्ता अब पूरी तरह से स्वचालित mirMachine पाइपलाइन को चलाने के लिए एक छोटी सबमिशन स्क्रिप्ट निष्पादित कर सकते हैं (उदाहरण https://github.com/hbusra/mirMachine.git पर प्रदान किए जाते हैं)।
हमारी एमआईआरएनए पाइपलाइन, सुमीर, का उपयोग पिछले दशक से कई संयंत्र एमआईआरएनए की पहचान के लिए किया गया है। यहां, हमने एक नया, पूरी तरह से स्वचालित, और स्वतंत्र रूप से उपलब्ध एमआईआरएनए पहचान और एनोटेशन पाइ?…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |