Summary

डिकोएक्सप्रेस के साथ मल्टीफैक्टोरियल आरएनए-सेक प्रयोगों का विश्लेषण करना

Published: July 29, 2022
doi:

Summary

डिकोएक्सप्रेस गुणवत्ता नियंत्रण से सह-अभिव्यक्ति तक आरएनए-सेक विश्लेषण करने के लिए आर में कार्यान्वित एक स्क्रिप्ट-आधारित उपकरण है। डिकोएक्सप्रेस 2 जैविक कारकों तक पूर्ण और असंतुलित डिजाइन को संभालता है। यह वीडियो ट्यूटोरियल डिकोएक्सप्रेस की विभिन्न विशेषताओं के माध्यम से उपयोगकर्ता का मार्गदर्शन करता है।

Abstract

एनजीएस डेटा विश्लेषण में सांख्यिकीय मॉडलिंग के उचित उपयोग के लिए उन्नत स्तर की विशेषज्ञता की आवश्यकता होती है। हाल ही में आरएनए-सेक डेटा के अंतर विश्लेषण के लिए सामान्यीकृत रैखिक मॉडल का उपयोग करने और सह-अभिव्यक्ति विश्लेषण करने के लिए मिश्रण मॉडल के लाभ पर बढ़ती सहमति रही है। इन मॉडलिंग दृष्टिकोणों का उपयोग करने के लिए एक प्रबंधित सेटिंग प्रदान करने के लिए, हमने डिकोएक्सप्रेस विकसित किया जो आरएनए-सेक विश्लेषण करने के लिए एक मानकीकृत आर पाइपलाइन प्रदान करता है। सांख्यिकी या आर प्रोग्रामिंग में किसी विशेष ज्ञान के बिना, शुरुआती एक सामान्यीकृत रैखिक मॉडल के अंदर विरोधाभासों के आधार पर अंतर विश्लेषण के माध्यम से गुणवत्ता नियंत्रण से सह-अभिव्यक्ति तक एक पूर्ण आरएनए-सेक विश्लेषण कर सकते हैं। एक संवर्धन विश्लेषण अलग-अलग व्यक्त जीन की सूचियों और सह-व्यक्त जीन समूहों दोनों पर प्रस्तावित है। इस वीडियो ट्यूटोरियल को एक चरण-दर-चरण प्रोटोकॉल के रूप में कल्पना की गई है ताकि उपयोगकर्ताओं को डीआईसीओएक्सप्रेस का पूरा लाभ उठाने और आरएनए-सेक प्रयोग की जैविक व्याख्या को सशक्त बनाने में इसकी क्षमता का पूरा लाभ उठाने में मदद मिल सके।

Introduction

अगली पीढ़ी के आरएनए अनुक्रमण (आरएनए-सेक) तकनीक अब ट्रांसक्रिप्टोम विश्लेषण का स्वर्ण मानक है1. प्रौद्योगिकी के शुरुआती दिनों से, जैव सूचना विज्ञानियों और जैव सांख्यिकीविदों के संयुक्त प्रयासों के परिणामस्वरूप मैपिंग से ट्रांसक्रिप्ट परिमाणीकरण2 तक ट्रांसक्रिप्टोमिक विश्लेषण के सभी आवश्यक चरणों से निपटने के लिए कई तरीकों का विकास हुआ है। जीवविज्ञानी के लिए आज उपलब्ध अधिकांश उपकरण सांख्यिकीय कंप्यूटिंग और रेखांकन 3 के लिए आर सॉफ्टवेयर वातावरण के भीतर विकसितकिए गए हैं, और जैविक डेटा विश्लेषण के लिए कई पैकेज बायोकंडक्टर रिपॉजिटरी4 में उपलब्ध हैं। ये पैकेज विश्लेषण के कुल नियंत्रण और अनुकूलन की पेशकश करते हैं, लेकिन वे कमांड-लाइन इंटरफ़ेस के व्यापक उपयोग की कीमत पर आते हैं। क्योंकि कई जीवविज्ञानी “बिंदु और क्लिक” दृष्टिकोण5 के साथ अधिक सहज हैं, आरएनए-सेक विश्लेषण के लोकतंत्रीकरण के लिए अधिक उपयोगकर्ता के अनुकूल इंटरफेस या प्रोटोकॉल6 के विकास की आवश्यकता होती है। उदाहरण के लिए, चमकदार7 का उपयोग करके आर पैकेज के वेब इंटरफेस का निर्माण करना संभव है, और कमांड-लाइन डेटा विश्लेषण को आर-स्टूडियो8 इंटरफ़ेस के साथ अधिक सहज ज्ञान युक्त बनाया जाता है। समर्पित, चरण-दर-चरण ट्यूटोरियल का विकास भी उपन्यास उपयोगकर्ता की मदद कर सकता है। विशेष रूप से, एक वीडियो ट्यूटोरियल एक क्लासिक पाठ की खुराक देता है, जिससे सभी प्रक्रिया चरणों की गहरी समझ होती है।

हमने हाल ही में डिकोएक्सप्रेस9 विकसित किया है, जो तटस्थ तुलना अध्ययन10,11,12 के आधार पर सबसे अच्छे माने जाने वाले तरीकों का उपयोग करके आर में बहुआयामी आरएनए-सेक प्रयोगों का विश्लेषण करने के लिए एक उपकरण है। एक गिनती तालिका से शुरू करते हुए, डिकोएक्सप्रेस एक डेटा गुणवत्ता नियंत्रण चरण का प्रस्ताव करता है जिसके बाद एक सामान्यीकृत रैखिक मॉडल (जीएलएम) का उपयोग करके एक अंतर जीन अभिव्यक्ति विश्लेषण (एजआर पैकेज13) और गाऊसी मिश्रण मॉडल (कोसेक पैकेज12) का उपयोग करके सह-अभिव्यक्ति समूहों की पीढ़ी होती है। डिकोएक्सप्रेस 2 जैविक कारकों (यानी, जीनोटाइप और उपचार) और एक तकनीकी कारक (यानी, दोहराने) तक पूर्ण और असंतुलित डिजाइन को संभालता है। डिकोएक्सप्रेस की मौलिकता इसकी निर्देशिका वास्तुकला में डेटा, स्क्रिप्ट और परिणामों को संग्रहीत और व्यवस्थित करने और विरोधाभासों के लेखन के स्वचालन में निहित है जो उपयोगकर्ता को एक ही सांख्यिकीय मॉडल के भीतर कई प्रश्नों की जांच करने की अनुमति देती है। सांख्यिकीय परिणामों को दर्शाने वाले ग्राफिकल आउटपुट प्रदान करने का भी प्रयास किया गया था।

डिकोएक्सप्रेस कार्यक्षेत्र https://forgemia.inra.fr/GNet/dicoexpress पर उपलब्ध है। इसमें चार निर्देशिकाएं, दो पीडीएफ और दो टेक्स्ट फाइलें हैं। निर्देशिका में इनपुट डेटासेट होते हैं; इस प्रोटोकॉल के लिए, हम “ट्यूटोरियल” डेटासेट का उपयोग करेंगे। निर्देशिका में विश्लेषण करने के लिए आवश्यक सात आर फ़ंक्शन होते हैं, और उपयोगकर्ता द्वारा संशोधित नहीं किया जाना चाहिए। निर्देशिका Template_scripts में संग्रहीत स्क्रिप्ट का उपयोग करके विश्लेषण चलाया जाता है। इस प्रोटोकॉल में उपयोग किए जाने वाले को DiCoExpress_Tutorial_JoVE कहा जाता है और इसे आसानी से किसी भी ट्रांसक्रिप्टोमिक प्रोजेक्ट के लिए अनुकूलित किया जा सकता है। निर्देशिका में लिखे गए हैं और परियोजना के अनुसार नामित एक उपनिर्देशिका में संग्रहीत किए गए हैं। README.md फ़ाइल में उपयोगी स्थापना जानकारी होती है, और विधि और इसके उपयोग से संबंधित कोई भी विशिष्ट विवरण DiCoExpress_Reference_Manual.pdf फ़ाइल में पाया जा सकता है।

यह वीडियो ट्यूटोरियल कमांड-लाइन-आधारित टूल का उपयोग करके जीवविज्ञानियों द्वारा महसूस की गई अनिच्छा को दूर करने के उद्देश्य से डिकोएक्सप्रेस की विभिन्न विशेषताओं के माध्यम से उपयोगकर्ता का मार्गदर्शन करता है। हम यहां एक कृत्रिम आरएनए-सेक डेटासेट का विश्लेषण प्रस्तुत करते हैं जो उपचार के साथ या बिना चार जीनोटाइप के तीन जैविक प्रतिकृतियों में जीन अभिव्यक्ति का वर्णन करता है। अब हम चित्र 1 में सचित्र डिकोएक्सप्रेस वर्कफ़्लो के विभिन्न चरणों के माध्यम से जाएंगे। प्रोटोकॉल अनुभाग में वर्णित स्क्रिप्ट और इनपुट फ़ाइलें साइट पर उपलब्ध हैं: https://forgemia.inra.fr/GNet/dicoexpress

डेटा फ़ाइलें तैयार करें
निर्देशिका में संग्रहीत चार सीएसवी फ़ाइलों को परियोजना के नाम के अनुसार नामित किया जाना चाहिए। हमारे उदाहरण में, सभी नाम, इसलिए, “ट्यूटोरियल” से शुरू होते हैं, और हम प्रोटोकॉल के चरण 4 में Project_Name = “ट्यूटोरियल” सेट करेंगे। सीएसवी फ़ाइलों में उपयोग किए जाने वाले विभाजक को चरण 4 में सितंबर चर में इंगित किया जाना चाहिए। हमारे “ट्यूटोरियल” डेटासेट में, विभाजक एक सारणीकरण है। उन्नत उपयोगकर्ताओं के लिए पूर्ण डेटासेट को फ़िल्टर चर के माध्यम से निर्देशों की एक सूची और एक नया Project_Name प्रदान करके सबसेट में कम किया जा सकता है। यह विकल्प इनपुट फ़ाइलों की अनावश्यक प्रतियों से बचा जाता है और फेयर सिद्धांतों14 को सत्यापित करता है।

चार सीएसवी फाइलों में से, केवल काउंट्स और टारगेट फाइलें अनिवार्य हैं। उनमें प्रत्येक जीन (यहां Tutorial_COUNTS.csv) और प्रयोगात्मक डिजाइन विवरण (यहां Tutorial_TARGET.csv) के लिए कच्ची गिनती होती है। लक्ष्य.csv फ़ाइल प्रत्येक जैविक या तकनीकी कारक (स्तंभों में) के लिए एक साधन के साथ प्रत्येक नमूना (प्रति पंक्ति एक नमूना) का वर्णन करती है। हम दृढ़ता से अनुशंसा करते हैं कि तौर-तरीकों के लिए चुने गए नाम एक अक्षर से शुरू होते हैं, न कि एक संख्या से। अंतिम स्तंभ का नाम (“प्रतिकृति”) परिवर्तित नहीं किया जा सकता. अंत में, नमूना नाम (पहला कॉलम) काउंट्स.csv फ़ाइल (हमारे उदाहरण में Genotype1_control_rep1) के शीर्षकों में नामों से मेल खाना चाहिए। संवर्धन.csv फ़ाइल जिसमें प्रत्येक पंक्ति में एक Gene_ID होता है और एक एनोटेशन शब्द केवल तभी आवश्यक होता है जब उपयोगकर्ता संवर्धन विश्लेषण चलाने की योजना बनाता है। यदि एक जीन में कई एनोटेशन हैं, तो उन्हें अलग-अलग लाइनों पर लिखना होगा। एनोटेशन.csv फ़ाइल वैकल्पिक है और आउटपुट फ़ाइलों में प्रत्येक जीन का संक्षिप्त विवरण जोड़ने के लिए उपयोग किया जाता है। एनोटेशन फ़ाइल प्राप्त करने का सबसे अच्छा तरीका समर्पित डेटाबेस से जानकारी प्राप्त करना है (उदाहरण के लिए, थेलेमीन: अरबिडोप्सिस के लिए https://bar.utoronto.ca/thalemine/begin.do)।

डाइकोएक्सप्रेस की स्थापना
डिकोएक्सप्रेस को विशिष्ट आर पैकेज की आवश्यकता होती है। कमांड लाइन स्रोत का उपयोग करें(“.. /स्रोत/Install_Packages.R”) आवश्यक पैकेज स्थापना स्थिति की जाँच करने के लिए R कंसोल में। लिनक्स पर उपयोगकर्ताओं के लिए, एक और समाधान डिकोएक्सप्रेस को समर्पित कंटेनर स्थापित करना है और https://forgemia.inra.fr/GNet/dicoexpress/container_registry पर उपलब्ध है। परिभाषा के अनुसार, इस कंटेनर में आवश्यक सभी भागों, जैसे पुस्तकालयों और अन्य निर्भरताओं के साथ डिकोएक्सप्रेस होता है।

Protocol

1. डिकोएक्सप्रेस एक आर स्टूडियो सत्र खोलें और निर्देशिका को Template_scripts पर सेट करें। आर स्टूडियो में DiCoExpress_Tutorial स्क्रिप्ट खोलें। निम्न आदेशों के साथ आर सत्र में डिकोएक्सप्रेस फ़ंक्शन लोड करें:> स्?…

Representative Results

सभी डिकोएक्सप्रेस आउटपुट ट्यूटोरियल / निर्देशिका में सहेजे जाते हैं, जो स्वयं परिणाम / निर्देशिका के भीतर रखे जाते हैं। हम विश्लेषण की समग्र गुणवत्ता का आकलन करने के लिए यहां कुछ मार्गदर्शन प्रदान करत…

Discussion

चूंकि आरएनए-सेक जैविक अध्ययन में एक सर्वव्यापी विधि बन गया है, इसलिए बहुमुखी और उपयोगकर्ता के अनुकूल विश्लेषणात्मक उपकरण विकसित करने की निरंतर आवश्यकता है। अधिकांश विश्लेषणात्मक वर्कफ़्लो के भीतर ?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

यह काम मुख्य रूप से एएनआर मानस (एएनआर -16-सीई 20-0009) द्वारा समर्थित था। लेखकों ने डिकोएक्सप्रेस के कंटेनर के निर्माण के लिए एफ डेसप्रेज़ को धन्यवाद दिया। केबी काम भविष्य के एएनआर -10-बीटीबीआर-01-01 अमायिंग कार्यक्रम के लिए निवेश द्वारा समर्थित है। जीक्यूई और आईपीएस 2 प्रयोगशालाओं को सैक्ले प्लांट साइंसेज-एसपीएस (एएनआर -17-यूरो -0007) के समर्थन से लाभ होता है।

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video