Summary
यहां प्रस्तुत प्रोटोकॉल आरएनए-अनुक्रमण ट्रांसक्रिप्टोम डेटा का विश्लेषण करने के लिए एक पूर्ण पाइपलाइन का वर्णन करता है कच्चे पठन से कार्यात्मक विश्लेषण तक, जिसमें गुणवत्ता नियंत्रण और उन्नत सांख्यिकीय विश्लेषणात्मक दृष्टिकोणों के लिए प्रीप्रोसेसिंग चरण शामिल हैं।
Abstract
रोगजनकों संक्रामक रोगों की एक विस्तृत विविधता का कारण बन सकता है। संक्रमण के जवाब में मेजबान द्वारा प्रेरित जैविक प्रक्रियाएं बीमारी की गंभीरता को निर्धारित करती हैं। इस तरह की प्रक्रियाओं का अध्ययन करने के लिए, शोधकर्ता उच्च-थ्रूपुट अनुक्रमण तकनीकों (आरएनए-सेक) का उपयोग कर सकते हैं जो संक्रमण, नैदानिक परिणामों या बीमारी की गंभीरता के विभिन्न चरणों में मेजबान ट्रांसक्रिप्टोम के गतिशील परिवर्तनों को मापते हैं। यह जांच बीमारियों की बेहतर समझ पैदा कर सकती है, साथ ही संभावित दवा लक्ष्यों और उपचारों को उजागर कर सकती है। यहां प्रस्तुत प्रोटोकॉल आरएनए-अनुक्रमण डेटा का विश्लेषण करने के लिए एक पूर्ण पाइपलाइन का वर्णन करता है जो कच्चे पठन से कार्यात्मक विश्लेषण तक है। पाइपलाइन को पांच चरणों में विभाजित किया गया है: (1) डेटा का गुणवत्ता नियंत्रण; (2) जीन का मानचित्रण और एनोटेशन; (3) विभेदक रूप से व्यक्त जीन और सह-व्यक्त जीन की पहचान करने के लिए सांख्यिकीय विश्लेषण; (4) नमूनों की गड़बड़ी की आणविक डिग्री का निर्धारण; और (5) कार्यात्मक विश्लेषण। चरण 1 तकनीकी कलाकृतियों को हटा देता है जो डाउनस्ट्रीम विश्लेषण की गुणवत्ता को प्रभावित कर सकते हैं। चरण 2 में, जीन को मानक लाइब्रेरी प्रोटोकॉल के अनुसार मैप और एनोटेट किया जाता है। चरण 3 में सांख्यिकीय विश्लेषण उन जीनों की पहचान करता है जो गैर-संक्रमित लोगों की तुलना में संक्रमित नमूनों में अलग-अलग रूप से व्यक्त या सह-व्यक्त किए जाते हैं। नमूना परिवर्तनशीलता और संभावित जैविक outliers की उपस्थिति चरण 4 में गड़बड़ी दृष्टिकोण की आणविक डिग्री का उपयोग करके सत्यापित कर रहे हैं। अंत में, चरण 5 में कार्यात्मक विश्लेषण रोग फेनोटाइप से जुड़े मार्गों का पता चलता है। प्रस्तुत पाइपलाइन का उद्देश्य मेजबान-रोगज़नक़ इंटरैक्शन अध्ययनों से आरएनए-सेक डेटा विश्लेषण के माध्यम से शोधकर्ताओं का समर्थन करना है और विट्रो या विवो प्रयोगों में भविष्य को ड्राइव करना है, जो संक्रमण के आणविक तंत्र को समझने के लिए आवश्यक हैं।
Introduction
Arboviruses, जैसे डेंगू, पीला बुखार, चिकनगुनिया, और जीका, व्यापक रूप से कई स्थानिक प्रकोपों के साथ जुड़े हुए हैं और पिछले दशकों में मनुष्यों को संक्रमित करने के लिए जिम्मेदार मुख्य रोगजनकों में से एक के रूप में उभरे हैं1,2। चिकनगुनिया वायरस (CHIKV) से संक्रमित व्यक्तियों को अक्सर बुखार, सिरदर्द, दाने, पॉलीआर्थ्राल्जिया और गठिया 3,4,5 होता है। वायरस सेल की जीन अभिव्यक्ति को नष्ट कर सकते हैं और विभिन्न मेजबान सिग्नलिंग मार्गों को प्रभावित कर सकते हैं। हाल ही में, रक्त ट्रांसक्रिप्टोम अध्ययनों ने आरएनए-सेक का उपयोग किया ताकि आरएनए-सेक का उपयोग किया जा सके जो कि तीव्र CHIKV संक्रमण से जुड़े विभेदक रूप से व्यक्त जीन (डीईजी) की पहचान करने के लिए है, जो कि convalescence6 या स्वस्थ नियंत्रण 7 की तुलना में है। CHIKV-संक्रमित बच्चों में अप-विनियमित जीन थे जो जन्मजात प्रतिरक्षा में शामिल होते हैं, जैसे कि वायरल आरएनए, जेएके / एसटीएटी सिग्नलिंग के लिए सेलुलर सेंसर से संबंधित, और टोल-जैसे रिसेप्टर सिग्नलिंग पाथवे 6। CHIKV से गंभीर रूप से संक्रमित वयस्कों ने भी जन्मजात प्रतिरक्षा से संबंधित जीनों का प्रेरण दिखाया, जैसे कि मोनोसाइट्स और डेंड्राइटिक सेल सक्रियण से संबंधित, और एंटीवायरल प्रतिक्रियाओं 7 से संबंधित। डाउन-विनियमित जीन के साथ समृद्ध सिग्नलिंग मार्गों में अनुकूली प्रतिरक्षा से संबंधित लोग शामिल थे, जैसे कि टी सेल सक्रियण और टी और बी कोशिकाओं में भेदभाव और संवर्धन।
मेजबान और रोगज़नक़ जीन के ट्रांसक्रिप्टोम डेटा का विश्लेषण करने के लिए कई तरीकों का उपयोग किया जा सकता है। अक्सर, आरएनए-सेक लाइब्रेरी की तैयारी परिपक्व पॉली-ए टेपों के संवर्धन के साथ शुरू होती है। यह चरण अधिकांश राइबोसोमल आरएनए (आरआरएनए) को हटा देता है और कुछ मामलों में वायरल / बैक्टीरियल आरएनए को हटा देता है। हालांकि, जब जैविक प्रश्न में रोगज़नक़ प्रतिलेख का पता लगाना शामिल होता है और आरएनए को पिछले चयन से स्वतंत्र अनुक्रमित किया जाता है, तो अनुक्रमण द्वारा कई अन्य अलग-अलग टेपों का पता लगाया जा सकता है। उदाहरण के लिए, subgenomic mRNA को बीमारियों की गंभीरता को सत्यापित करने के लिए एक महत्वपूर्ण कारक दिखाया गया है8। इसके अलावा, कुछ वायरस जैसे कि CHIKV और SARS-CoV-2 के लिए, यहां तक कि पॉली-ए समृद्ध पुस्तकालय वायरल रीड्स उत्पन्न करते हैं जिनका उपयोग डाउनस्ट्रीम विश्लेषण9,10 में किया जा सकता है। जब मेजबान ट्रांसक्रिप्टोम के विश्लेषण पर ध्यान केंद्रित किया जाता है, तो शोधकर्ता नमूनों में जैविक गड़बड़ी की जांच कर सकते हैं, विभेदक रूप से व्यक्त जीन और समृद्ध मार्गों की पहचान कर सकते हैं, और सह-अभिव्यक्ति मॉड्यूल 7,11,12 उत्पन्न कर सकते हैं। यह प्रोटोकॉल विभिन्न जैव सूचनात्मक दृष्टिकोणों (चित्रा 1 ए) का उपयोग करके चिकवी-संक्रमित रोगियों और स्वस्थ व्यक्तियों के ट्रांसक्रिप्टोम विश्लेषण पर प्रकाश डालता है। पहले प्रकाशित एक अध्ययन 7 से डेटा जिसमें 20 स्वस्थ और 39 CHIKV तीव्र रूप से संक्रमित व्यक्तियों को शामिल किया गया था, का उपयोग प्रतिनिधि परिणाम उत्पन्न करने के लिए किया गया था।
Subscription Required. Please recommend JoVE to your librarian.
Protocol
इस प्रोटोकॉल में उपयोग किए जाने वाले नमूनों को साओ पाउलो विश्वविद्यालय में बायोमेडिकल साइंसेज संस्थान के माइक्रोबायोलॉजी विभाग और सर्गिप के संघीय विश्वविद्यालय (प्रोटोकॉल: 54937216.5.0000.5467 और 54835916.2.0000.5546, क्रमशः) दोनों से नैतिकता समितियों द्वारा अनुमोदित किया गया था।
1. डॉकर डेस्कटॉप स्थापना
नोट:: डॉकर वातावरण तैयार करने के लिए चरण ऑपरेटिंग सिस्टम (OSs) के बीच भिन्न हैं। इसलिए, मैक उपयोगकर्ताओं को 1.1 के रूप में सूचीबद्ध चरणों का पालन करना होगा, Linux उपयोगकर्ताओं को 1.2 के रूप में सूचीबद्ध चरणों का पालन करना होगा, और Windows उपयोगकर्ताओं को 1.3 के रूप में सूचीबद्ध चरणों का पालन करना होगा।
- MacOS पर स्थापित करें।
- Get Docker वेबसाइट (सामग्री की तालिका) का उपयोग करें, मैक के लिए डॉकर डेस्कटॉप पर क्लिक करें और फिर डॉकर हब से डाउनलोड करें लिंक पर क्लिक करें।
- डॉकर प्राप्त करें बटन पर क्लिक करके स्थापना फ़ाइल डाउनलोड करें।
- इंस्टॉलर को खोलने के लिए डॉकर.dmg फ़ाइल निष्पादित करें, और उसके बाद चिह्न अनुप्रयोग फ़ोल्डर में खींचें। प्रोग्राम को प्रारंभ करने के लिए अनुप्रयोग फ़ोल्डर में Docker.app स्थानीयकृत और निष्पादित करें।
नोट:: शीर्ष स्थिति पट्टी में सॉफ़्टवेयर विशिष्ट मेनू इंगित करता है कि सॉफ़्टवेयर चल रहा है और यह किसी टर्मिनल से पहुँच योग्य है।
- Linux OS पर कंटेनर प्रोग्राम स्थापित करें।
- गेट डॉकर लिनक्स वेबसाइट (सामग्री की तालिका) तक पहुँचें और डॉकर लिनक्स रिपॉजिटरी लिंक पर उपलब्ध रिपॉजिटरी अनुभाग का उपयोग करके स्थापित करने के लिए निर्देशों का पालन करें।
- आदेश पंक्ति का उपयोग कर सभी Linux पैकेज अद्यतन करें:
sudo apt-get update - डॉकर के लिए आवश्यक पैकेज स्थापित करें:
sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release - कोई सॉफ़्टवेयर संग्रह keyring फ़ाइल बनाएँ:
कर्ल -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg - source.list फ़ाइल में Docker deb जानकारी जोड़ें:
गूंज "deb [arch = amd64 हस्ताक्षरित द्वारा = / usr / शेयर / keyrings / docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $ (lsb_release -cs) स्थिर" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null - हाल ही में जोड़े गए पैकेजों सहित सभी पैकेजों को फिर से अद्यतन करें:
sudo apt-get update - डेस्कटॉप संस्करण स्थापित करें:
sudo apt-get install docker-ce docker-ce-cli containerd.io - स्थापना प्रक्रिया को पूरा करने के लिए भौगोलिक क्षेत्र और समय क्षेत्र का चयन करें।
- Windows OS पर कंटेनर प्रोग्राम स्थापित करें।
- गेट डॉकर वेबसाइट (सामग्री की तालिका) का उपयोग करें और आरंभ करें पर क्लिक करें। Windows के लिए डॉकर डेस्कटॉप के लिए इंस्टॉलर ढूँढें. फ़ाइलों को डाउनलोड करें और उन्हें कंप्यूटर पर स्थानीय रूप से स्थापित करें।
- डाउनलोड करने के बाद, स्थापना फ़ाइल (.exe) प्रारंभ करें और डिफ़ॉल्ट पैरामीटर रखें। सुनिश्चित करें कि दो विकल्प WSL 2 के लिए आवश्यक Windows घटक स्थापित करें और डेस्कटॉप के लिए शॉर्टकट जोड़ें चिह्नित किए गए हैं।
नोट:: कुछ मामलों में, जब यह सॉफ़्टवेयर सेवा प्रारंभ करने का प्रयास करता है, तो यह एक त्रुटि दिखाता है: WSL स्थापना अपूर्ण है। इस त्रुटि का पता लगाने के लिए, वेबसाइट WSL2-कर्नेल (सामग्री की तालिका) तक पहुँचें। - डाउनलोड करें और नवीनतम WSL2 Linux कर्नेल स्थापित करें।
- PowerShell टर्मिनल को व्यवस्थापक के रूप में एक्सेस करें और आदेश निष्पादित करें:
dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart - सुनिश्चित करें कि सॉफ़्टवेयर डॉकर डेस्कटॉप सफलतापूर्वक स्थापित है।
- डॉकर हब (सामग्री की तालिका) पर CSBL रिपॉजिटरी से छवि डाउनलोड करें।
- डॉकर डेस्कटॉप खोलें और सत्यापित करें कि स्थिति उपकरण पट्टी के नीचे बाईं ओर "चल रही है" है।
- Windows PowerShell टर्मिनल आदेश पंक्ति पर जाएँ। डॉकर हब पर CSBL रिपॉजिटरी से इस प्रोटोकॉल के लिए Linux कंटेनर छवि डाउनलोड करें। छवि को डाउनलोड करने के लिए निम्न आदेश निष्पादित करें:
डॉकर पुल csblusp/
नोट:: छवि को डाउनलोड करने के बाद, फ़ाइल डॉकर डेस्कटॉप में देखा जा सकता है। कंटेनर बनाने के लिए, Windows उपयोगकर्ताओं को चरण 1.5 का पालन करना होगा, जबकि Linux उपयोगकर्ताओं को चरण 1.6 का पालन करना होगा।
- Windows OS पर सर्वर संग्राहक प्रारंभ करें।
- उपकरण पट्टी से डेस्कटॉप अनुप्रयोग प्रबंधक में डॉकर छवि फ़ाइल देखें और छवियाँ पृष्ठ तक पहुँचें।
नोट:: यदि पाइपलाइन छवि सफलतापूर्वक डाउनलोड किया गया था, तो एक csblusp/transcriptome छवि उपलब्ध होगी। - चलाएँ बटन पर क्लिक करके csblusp/transcriptum छवि से कंटेनर प्रारंभ करें। कंटेनर को कॉन्फ़िगर करने के लिए वैकल्पिक सेटिंग्स का विस्तार करें।
- कंटेनर नाम (जैसे, सर्वर) निर्धारित करें।
- डॉकर के अंदर फ़ोल्डर के साथ स्थानीय कंप्यूटर में कोई फ़ोल्डर संबद्ध करें। ऐसा करने के लिए, होस्ट पथ निर्धारित करें। संसाधित डेटा को संग्रहीत करने के लिए स्थानीय मशीन में कोई फ़ोल्डर सेट करें जिसे अंत में डाउनलोड किया जाएगा. कंटेनर पथ सेट करें। परिभाषित करें और csblusp/transcriptome कंटेनर फ़ोल्डर को स्थानीय मशीन पथ से लिंक करें (कंटेनर पथ के लिए "/opt/transferdata" नाम का उपयोग करें)।
- इसके बाद, csblusp/transcriptome कंटेनर बनाने के लिए Run पर क्लिक करें।
- Csblusp/transcriptome कंटेनर से Linux टर्मिनल तक पहुँचने के लिए, CLI बटन पर क्लिक करें.
- एक बेहतर अनुभव प्राप्त करने के लिए बैश टर्मिनल में टाइप करें। इसके लिए, आदेश निष्पादित करें:
मार - बैश कमांड निष्पादित करने के बाद, सुनिश्चित करें कि टर्मिनल दिखाता है (root@<कॉन्टेनरआईडी>:/#):
root@ac12c583b731:/ #
- उपकरण पट्टी से डेस्कटॉप अनुप्रयोग प्रबंधक में डॉकर छवि फ़ाइल देखें और छवियाँ पृष्ठ तक पहुँचें।
- Linux OS के लिए सर्वर कंटेनर प्रारंभ करें।
- छवि के आधार पर डॉकर कंटेनर बनाने के लिए इस आदेश को निष्पादित करें:
डॉकर रन -d --rm --name server -v:/opt/transferdata csblusp/transcriptum
नोट:: <होस्ट पथ>: स्थानीय फ़ोल्डर मशीन का कोई पथ निर्धारित करें। - डॉकर संग्राहक के आदेश टर्मिनल तक पहुँचने के लिए इस आदेश को निष्पादित करें:
डॉकर exec -it सर्वर बैश - कमांड लाइन का उपयोग करके किसी भी प्रोग्राम / स्क्रिप्ट को निष्पादित करने के लिए लिनक्स टर्मिनल की उपलब्धता सुनिश्चित करें।
- बैश कमांड निष्पादित करने के बाद, सुनिश्चित करें कि टर्मिनल दिखाता है (root@<कॉन्टेनरआईडी>:/#):
root@ac12c583b731:/ #
नोट:: रूट पासवर्ड डिफ़ॉल्ट रूप से "ट्रांसक्रिप्टोम" है। यदि वांछित है, तो रूट पासवर्ड कमांड निष्पादित करके बदला जा सकता है:
पास्वर्ड - सबसे पहले, सभी उपकरण उपलब्ध हैं यह सुनिश्चित करने के लिए addpath.sh करने के लिए स्रोत आदेश निष्पादित करें। आदेश निष्पादित करें:
स्रोत /opt/addpath.sh
- छवि के आधार पर डॉकर कंटेनर बनाने के लिए इस आदेश को निष्पादित करें:
- RNA अनुक्रमण फ़ोल्डर की संरचना की जाँच करें।
- ट्रांसक्रिप्टोम पाइपलाइन स्क्रिप्ट फ़ोल्डर तक पहुँचें और सुनिश्चित करें कि आरएनए अनुक्रमण से सभी डेटा फ़ोल्डर के अंदर संग्रहीत हैं: /home/transcriptum-पाइपलाइन/data.
- सुनिश्चित करें कि विश्लेषण से प्राप्त सभी परिणाम पथ / घर / ट्रांसक्रिप्टोम-पाइपलाइन / परिणामों के फ़ोल्डर के अंदर संग्रहीत हैं।
- सुनिश्चित करें कि जीनोम और एनोटेशन संदर्भ फ़ाइलें पथ / घर / ट्रांसक्रिप्टोम-पाइपलाइन / डेटासेट के फ़ोल्डर के अंदर संग्रहीत की जाती हैं। ये फ़ाइलें सभी विश्लेषणों का समर्थन करने में मदद करेंगी।
- सुनिश्चित करें कि सभी स्क्रिप्ट पथ / घर / ट्रांसक्रिप्टोम-पाइपलाइन / स्क्रिप्ट के फ़ोल्डर में संग्रहीत हैं और नीचे वर्णित प्रत्येक चरण द्वारा अलग किए गए हैं।
- एनोटेशन और मानव जीनोम डाउनलोड करें।
- स्क्रिप्ट फ़ोल्डर तक पहुँचें:
cd/home/transcriptome-pipeline/scripts - संदर्भ मानव जीनोम डाउनलोड करने के लिए इस आदेश को निष्पादित करें:
बैश downloadGenome.sh - एनोटेशन डाउनलोड करने के लिए, आदेश निष्पादित करें:
बैश downloadAnnotation.sh
- स्क्रिप्ट फ़ोल्डर तक पहुँचें:
- एनोटेशन या संदर्भ जीनोम का संस्करण परिवर्तित करें।
- प्रत्येक फ़ाइल का URL परिवर्तित करने के लिए downloadAnnotation.sh और downloadGenome.sh खोलें.
- downloadAnnotation.sh की प्रतिलिपि बनाएँ और स्थानांतरण क्षेत्र में फ़ाइलों को downloadGenome.sh करें और स्थानीय OS में संपादित करें.
cd/home/transcriptome-pipeline/scripts
cp downloadAnnotation.sh downloadGenome.sh/opt/transferdata - चरण 1.5.4 में होस्ट और डॉकर संग्राहक के बीच लिंक करने के लिए चयनित होस्ट पथ फ़ोल्डर खोलें।
- पसंदीदा संपादक सॉफ़्टवेयर का उपयोग कर फ़ाइलों को संपादित करें और सहेजें। अंत में, संशोधित फ़ाइलों को स्क्रिप्ट फ़ोल्डर में रखें। आदेश निष्पादित करें:
cd/opt/transferdata
cp downloadAnnotation.sh downloadGenome.sh /home/transcriptum-pipeline/scripts
नोट:: इन फ़ाइलों को सीधे vim या नैनो Linux संपादक का उपयोग कर संपादित किया जा सकता है।
- अगला, आदेश पंक्ति के साथ fastq-डंप उपकरण कॉन्फ़िगर करें:
vdb-config --इंटरैक्टिव
नोट:: यह उदाहरण डेटा से अनुक्रमण फ़ाइलों को डाउनलोड करने के लिए अनुमति देता है।- टैब कुंजी का उपयोग करके उपकरण पृष्ठ नेविगेट करें और वर्तमान फ़ोल्डर विकल्प का चयन करें. सहेजें विकल्प पर नेविगेट करें और ठीक पर क्लिक करें। उसके बाद, fastq-डंप उपकरण से बाहर निकलें ।
- पहले से प्रकाशित paper7 से पढ़ता है के डाउनलोड शुरू करें. प्रत्येक नमूने की SRA परिग्रहण संख्या आवश्यक है। SRA NCBI वेबसाइट (सामग्री की तालिका) से SRA नंबर प्राप्त करें।
नोट:: सार्वजनिक डेटाबेस पर उपलब्ध RNA-Seq डेटा का विश्लेषण करने के लिए, चरण 1.12 का पालन करें। निजी RNA-seq डेटा का विश्लेषण करने के लिए, चरण 1.13 का पालन करें। - विशिष्ट सार्वजनिक डेटा का विश्लेषण करें।
- जैव प्रौद्योगिकी सूचना के लिए राष्ट्रीय केंद्र (एनसीबीआई) वेबसाइट का उपयोग करें और एक विशिष्ट विषय के लिए खोजशब्दों की तलाश करें।
- जीनोम अनुभाग में BioProject के लिए परिणाम लिंक पर क्लिक करें।
- चुनें और एक विशिष्ट अध्ययन पर क्लिक करें। SRA Experiments पर क्लिक करें। एक नया पृष्ठ खुलता है, जो इस अध्ययन के लिए उपलब्ध सभी नमूनों को दिखाता है।
- परिग्रहण संख्या के ऊपर "भेजें:" पर क्लिक करें। "गंतव्य चुनें" विकल्प में फ़ाइल और स्वरूप विकल्प का चयन करें , RunInfo का चयन करें। सभी लाइब्रेरी जानकारी निर्यात करने के लिए "Create File" पर क्लिक करें।
- SraRunInfo.csv फ़ाइल को 1.5.4 चरण में निर्धारित होस्ट पथ में सहेजें और डाउनलोड स्क्रिप्ट निष्पादित करें:
cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
cd/home/transcriptome-pipeline/scripts
बैश downloadAllLibraries.sh
- निजी और अप्रकाशित अनुक्रमण डेटा का विश्लेषण करें.
- अनुक्रमण डेटा को पठन नाम के फ़ोल्डर में व्यवस्थित करें.
नोट:: पढ़ता है फ़ोल्डर के अंदर, प्रत्येक नमूने के लिए एक फ़ोल्डर बनाएँ। इन फ़ोल्डरों में प्रत्येक नमूने के लिए समान नाम होना आवश्यक है. इसकी निर्देशिका के अंदर प्रत्येक नमूने का डेटा जोड़ें. यदि यह एक युग्मित-अंत आरएनए-सेक है, तो प्रत्येक नमूना निर्देशिका में दो FASTQ फ़ाइलें होनी चाहिए, जिन्हें क्रमशः पैटर्न {sample}_1.fastq.gz और {sample}_2.fastq.gz, आगे और रिवर्स अनुक्रमों के अनुसार समाप्त होने वाले नाम प्रस्तुत करने चाहिए। उदाहरण के लिए, "Healthy_control" नामक एक नमूने में एक ही नाम के साथ एक निर्देशिका और Healthy_control_1.fastq.gz और Healthy_control_2.fastq.gz नाम की FASTQ फ़ाइलें होनी चाहिए. फिर भी, यदि लाइब्रेरी अनुक्रमण एक एकल-अंत रणनीति है, तो डाउनस्ट्रीम विश्लेषण के लिए केवल एक रीड फ़ाइल सहेजी जानी चाहिए। उदाहरण के लिए, एक ही नमूना, "स्वस्थ नियंत्रण", Healthy_control.fastq.gz नाम की एक अद्वितीय FASTQ फ़ाइल होना आवश्यक है। - सभी नमूना नामों वाली एक फेनोटाइपिक फ़ाइल बनाएँ: पहले स्तंभ को 'नमूना' के रूप में और दूसरे स्तंभ को 'वर्ग' के रूप में नाम दें. नमूना नामों के साथ नमूना स्तंभ भरें, जो नमूना निर्देशिकाओं के लिए एक ही नाम होना चाहिए और प्रत्येक नमूने के फेनोटाइपिक समूह (जैसे, नियंत्रण या संक्रमित) के साथ वर्ग स्तंभ को भरें। अंत में, "metadata.tsv" नाम के साथ एक फ़ाइल को सहेजें और इसे /home/transcriptome-पाइपलाइन/data/directory पर भेजें। फेनोटाइपिक फ़ाइल के स्वरूप को समझने के लिए मौजूदा metadata.tsv देखें।
cp /opt/transferdata/metadata.tsv
/home/transcriptome-पाइपलाइन/data/metadata.tsv - चरण 1.5.4 में परिभाषित होस्ट पथ निर्देशिका तक पहुँचें और नई संरचित निर्देशिकाओं के नमूने की प्रतिलिपि बनाएँ। अंत में, नमूने /opt/transferdata से पाइपलाइन डेटा निर्देशिका में ले जाएँ।
cp -rf /opt/transferdata/reads/*
/home/transcriptome-pipeline/data/reads/
- अनुक्रमण डेटा को पठन नाम के फ़ोल्डर में व्यवस्थित करें.
- ध्यान दें कि सभी रीड्स फ़ोल्डर / होम / ट्रांसक्रिप्टोम-पाइपलाइन / डेटा / रीड्स में संग्रहीत हैं।
2. डेटा की गुणवत्ता नियंत्रण
नोट:: मूल्यांकन करें, ग्राफ़िक रूप से, अनुक्रमण में त्रुटियों की संभावना पढ़ता है। सभी तकनीकी अनुक्रमों को हटा दें, उदाहरण के लिए, एडेप्टर।
- FastQC उपकरण के साथ पुस्तकालयों की अनुक्रमण गुणवत्ता तक पहुँचें।
- गुणवत्ता रेखांकन उत्पन्न करने के लिए, fastqc प्रोग्राम चलाएँ। आदेश निष्पादित करें:
बैश FastQC.sh
नोट:: परिणाम /home/transcriptome-पाइपलाइन/परिणाम/FastQC फ़ोल्डर में सहेजा जाएगा। चूंकि अनुक्रम एडाप्टर का उपयोग लाइब्रेरी की तैयारी और अनुक्रमण के लिए किया जाता है, इसलिए कुछ मामलों में एडाप्टर अनुक्रम के टुकड़े मैपिंग प्रक्रिया में हस्तक्षेप कर सकते हैं।
- गुणवत्ता रेखांकन उत्पन्न करने के लिए, fastqc प्रोग्राम चलाएँ। आदेश निष्पादित करें:
- एडाप्टर अनुक्रम निकालें और निम्न-गुणवत्ता पढ़ता है। स्क्रिप्ट फ़ोल्डर तक पहुँचने और Trimmomatic उपकरण के लिए आदेश निष्पादित करें:
cd/home/transcriptome-pipeline/scripts
बैश trimmomatic.sh
नोट:: अनुक्रमण फ़िल्टर के लिए उपयोग किए जाने वाले पैरामीटर हैं: अग्रणी कम गुणवत्ता या 3 आधारों (गुणवत्ता 3 से नीचे) (अग्रणी: 3) को निकालें; अनुगामी कम गुणवत्ता या 3 ठिकानों (गुणवत्ता 3 से नीचे) निकालें (TRAILING:3); एक 4-बेस चौड़ी स्लाइडिंग विंडो के साथ पढ़ने को स्कैन करें, जब प्रति आधार औसत गुणवत्ता 20 से नीचे गिर जाती है (स्लाइडिंगविंडो: 4: 20); और ड्रॉप 36 ठिकानों लंबे (MINLEN: 36) के नीचे पढ़ता है. इन पैरामीटर्स को Trimmomatic स्क्रिप्ट फ़ाइल को संपादित करके परिवर्तित किया जा सकता है।- सुनिश्चित करें कि परिणाम निम्न फ़ोल्डर में सहेजे गए हैं: /home/transcriptum-पाइपलाइन/results/trimreads. आदेश निष्पादित करें:
ls /home/transcriptome-पाइपलाइन/results/trimreads
- सुनिश्चित करें कि परिणाम निम्न फ़ोल्डर में सहेजे गए हैं: /home/transcriptum-पाइपलाइन/results/trimreads. आदेश निष्पादित करें:
3. मानचित्रण और नमूनों की एनोटेशन
नोट: अच्छी गुणवत्ता प्राप्त करने के बाद पढ़ता है, इन्हें संदर्भ जीनोम में मैप करने की आवश्यकता होती है। इस चरण के लिए, STAR मैपर उदाहरण नमूने मैप करने के लिए उपयोग किया गया था। स्टार मैपर उपकरण को पढ़ने और जीनोम मैपिंग को लोड करने और निष्पादित करने के लिए 32 जीबी रैम मेमोरी की आवश्यकता होती है। जिन उपयोगकर्ताओं के पास 32 GB RAM मेमोरी नहीं है, उनके लिए पहले से मैप किए गए रीड्स का उपयोग किया जा सकता है। ऐसे मामलों में चरण 3.3 पर कूदें या Bowtie2 मैपर का उपयोग करें। इस अनुभाग में STAR (सभी आंकड़ों में दिखाए गए परिणाम) और Bowtie2 (कम-मेमोरी आवश्यक मैपर) के लिए स्क्रिप्ट हैं।
- पहले मानचित्रण प्रक्रिया के लिए संदर्भ जीनोम को अनुक्रमित करें:
- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
cd/home/transcriptome-pipeline/scripts - STAR मैपर के लिए, निष्पादित करें:
बैश indexGenome.sh - Bowtie मैपर के लिए, निष्पादित करें:
बैश indexGenomeBowtie2.sh
- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
- संदर्भ जीनोम (GRCh38 संस्करण) के लिए फ़िल्टर किए गए पठनों (चरण 2 से प्राप्त) को मैप करने के लिए निम्न आदेश निष्पादित करें। दोनों स्टार और Bowtie2 मैपर डिफ़ॉल्ट पैरामीटर का उपयोग कर प्रदर्शन कर रहे हैं।
- STAR मैपर के लिए, निष्पादित करें:
बैश mapSTAR.sh - Bowtie2 मैपर के लिए, निष्पादित करें:
बैश mapBowtie2.sh
नोट:: अंतिम परिणाम बाइनरी संरेखण मानचित्र (BAM) फ़ाइलें हैं प्रत्येक नमूने के लिए /home/transcriptome-पाइपलाइन/results/mapreads में संग्रहीत।
- STAR मैपर के लिए, निष्पादित करें:
- प्रत्येक जीन के लिए कच्चे गिनती प्राप्त करने के लिए FeatureCounts उपकरण का उपयोग कर मैप किए गए पठनों को एनोटेट करें. स्क्रिप्ट चलाएँ जो पढ़ता है एनोटेट करें।
नोट:: FeatureCounts उपकरण जीनोमिक सुविधाओं के लिए मैप किए गए अनुक्रमण पढ़ता है असाइन करने के लिए जिम्मेदार है। जीनोम एनोटेशन के सबसे महत्वपूर्ण पहलुओं को जैविक प्रश्न के बाद बदला जा सकता है, में शामिल हैं, आइसोफॉर्म का पता लगाना, एकाधिक मैप किए गए रीड्स और एक्सोन-एक्सोन जंक्शन, पैरामीटर के अनुरूप, GTF.attrType = "gene_name" जीन के लिए या मेटा-फीचर स्तर के लिए पैरामीटर निर्दिष्ट नहीं करते हैं, क्रमशः मूलतः ओवरलैप = TRUE, और juncCounts = TRUE की अनुमति देते हैं।- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
cd/home/transcriptome-pipeline/scripts - प्रति जीन कच्चे गिनती प्राप्त करने के लिए मैप किए गए रीड्स को एनोटेट करने के लिए, कमांड लाइन निष्पादित करें:
Rscript एनोटेशन. R
नोट:: एनोटेशन प्रक्रिया के लिए उपयोग किए जाने वाले पैरामीटर थे: जीन छोटा नाम वापस करें (GTF.attrType = "gene_name"); एकाधिक ओवरलैप की अनुमति दें (अनुमति देंMultiOverlap = TRUE); और इंगित करें कि लायब्रेरी युग्मित-अंत है (isPairedEnd = TRUE)। एकल-अंत रणनीति के लिए, पैरामीटर isPairedEnd = FALSE का उपयोग करें। परिणाम /home/transcriptome-पाइपलाइन/countreads फ़ोल्डर में सहेजे जाएँगे.
- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
- जीन अभिव्यक्ति को सामान्य करें।
नोट: जीन अभिव्यक्ति को सामान्य बनाना परिणामों के बीच परिणामों की तुलना करने के लिए आवश्यक है (उदाहरण के लिए, स्वस्थ और संक्रमित नमूने)। सह-अभिव्यक्ति और आण्विक डिग्री के विश्लेषण को करने के लिए सामान्यीकरण की भी आवश्यकता होती है।- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
cd/home/transcriptome-pipeline/scripts - जीन अभिव्यक्ति को सामान्य करें। इसके लिए, आदेश पंक्ति निष्पादित करें:
Rscript नमूने normalizes. R
नोट:: इस प्रयोग में, कच्चे गिनती व्यंजक, M-मान (TMM) और प्रति मिलियन (CPM) विधियों की छंटनी माध्य का उपयोग कर सामान्यीकृत किए गए थे। इस चरण का उद्देश्य तकनीकी प्रभाव के कारण जीन अभिव्यक्ति में अंतर को दूर करना है, पुस्तकालय आकार सामान्यीकरण करके। परिणाम /home/transcriptome-पाइपलाइन/countreads फ़ोल्डर में सहेजे जाएँगे.
- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
4. विभेदक रूप से व्यक्त जीन और सह व्यक्त जीन
- ओपन-सोर्स EdgeR पैकेज का उपयोग करके विभेदक रूप से व्यक्त जीन की पहचान करें। इसमें उन जीनों को ढूंढना शामिल है जिनकी अभिव्यक्ति नियंत्रण की तुलना में अधिक या कम है।
- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
cd/home/transcriptome-pipeline/scripts - विभेदक रूप से व्यक्त जीन की पहचान करने के लिए, कमांड लाइन का उपयोग करके DEG_edgeR आर स्क्रिप्ट निष्पादित करें:
Rscript DEG_edgeR.R
नोट:: विभेदक रूप से व्यक्त जीन वाले परिणाम /home/transcriptome-पाइपलाइन/results/degs फ़ोल्डर में सहेजे जाएँगे. डेटा को एक व्यक्तिगत कंप्यूटर पर स्थानांतरित किया जा सकता है।
- आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
- csblusp/transcriptum कंटेनर से डेटा डाउनलोड करें।
- संसाधित डेटा /home/transcriptome-पाइपलाइन से /opt/transferdata फ़ोल्डर (स्थानीय कंप्यूटर) में स्थानांतरित करें.
- आदेश पंक्ति को निष्पादित करके स्थानीय कंप्यूटर पर सभी फ़ाइलों की प्रतिलिपि बनाएँ:
cp -rf /home/transcriptum-pipeline/results/opt/transferdata/pipeline
cp -rf /home/transcriptum-pipeline/data/opt/transferdata/pipeline
नोट:: अब, सभी परिणाम, डेटासेट, और डेटा होस्ट पथ में डाउनलोड करने के लिए उपलब्ध हैं यह सुनिश्चित करने के लिए स्थानीय कंप्यूटर पर जाएँ।
- सह-अभिव्यक्ति मॉड्यूल की पहचान करें।
- सह अभिव्यक्ति मॉड्यूल पहचान उपकरण (CEMiTool) वेबसाइट तक पहुँच (की तालिका
सामग्री)। यह उपकरण उपयोगकर्ताओं द्वारा प्रदान किए गए अभिव्यक्ति डेटासेट से सह-अभिव्यक्ति मॉड्यूल की पहचान करता है। मुख्य पृष्ठ पर, ऊपर दाईं ओर चलाएँ पर क्लिक करें। यह अभिव्यक्ति फ़ाइल अपलोड करने के लिए एक नया पृष्ठ खोलेगा। - अभिव्यक्ति फ़ाइल अनुभाग के नीचे फ़ाइल चुनें पर क्लिक करें और होस्ट पथ से सामान्यीकृत जीन अभिव्यक्ति मैट्रिक्स 'tmm_expression.tsv' अपलोड करें।
नोट: चरण 4.4. गैर-अनिवार्य है।
- सह अभिव्यक्ति मॉड्यूल पहचान उपकरण (CEMiTool) वेबसाइट तक पहुँच (की तालिका
- सह-अभिव्यक्ति मॉड्यूल के जैविक अर्थ का अन्वेषण करें।
- नमूना फेनोटाइप्स अनुभाग में फ़ाइल चुनें पर क्लिक करें और डाउनलोड डेटा चरण 4.2.2 से नमूना फेनोटाइप metadata_cemitool.tsv के साथ फ़ाइल अपलोड करें। एक जीन सेट संवर्धन विश्लेषण (GSEA) करने के लिए।
- जीन इंटरैक्शन (cemitool-interactions.tsv) के साथ कोई फ़ाइल अपलोड करने के लिए जीन इंटरैक्शन अनुभाग में फ़ाइल चुनें दबाएँ. WebCEMiTool द्वारा एक उदाहरण के रूप में प्रदान की गई जीन इंटरैक्शन की फ़ाइल का उपयोग करना संभव है। इंटरैक्शन प्रोटीन-प्रोटीन इंटरैक्शन, प्रतिलेखन कारक और उनके ट्रांसक्रिप्टेड जीन, या चयापचय मार्ग हो सकते हैं। यह चरण प्रत्येक सह-अभिव्यक्ति मॉड्यूल के लिए एक इंटरैक्शन नेटवर्क उत्पन्न करता है।
- जीन मैट्रिक्स ट्रांसपोज़्ड (GMT) प्रारूप फ़ाइल में कार्यात्मक रूप से संबंधित जीन की एक सूची अपलोड करने के लिए जीन सेट अनुभाग में फ़ाइल चुनें अनुभाग पर क्लिक करें। जीन सेट फ़ाइल उपकरण को प्रत्येक सह-अभिव्यक्ति मॉड्यूल के लिए संवर्धन विश्लेषण करने में सक्षम बनाती है, यानी, एक अति-प्रतिनिधित्व विश्लेषण (ओआरए)।
नोट: जीन की यह सूची मार्ग, गो शर्तें, या miRNA-लक्ष्य जीन को शामिल कर सकती है। शोधकर्ता इस विश्लेषण के लिए जीन सेट के रूप में रक्त प्रतिलेखन मॉड्यूल (बीटीएम) का उपयोग कर सकता है। BTM फ़ाइल (BTM_for_GSEA.gmt).
- सह-अभिव्यक्ति विश्लेषण करने के लिए पैरामीटर सेट करें और इसके परिणाम प्राप्त करें।
- अगला पैरामीटर अनुभाग का विस्तार करें, डिफ़ॉल्ट पैरामीटर प्रदर्शित करने के लिए धन चिह्न पर क्लिक करके। यदि आवश्यक हो, तो उन्हें बदलें। VST लागू करें बॉक्स को चेक करें।
- ई-मेल को ईमेल के रूप में परिणाम प्राप्त करने के लिए ई-मेल अनुभाग में लिखें. यह चरण वैकल्पिक है।
- CEMiTool चलाएँ बटन दबाएँ।
- शीर्ष दाईं ओर डाउनलोड पूर्ण रिपोर्ट पर क्लिक करके पूर्ण विश्लेषण रिपोर्ट डाउनलोड करें. यह cemitool_results.zip एक संपीड़ित फ़ाइल डाउनलोड करेगा।
- WinRAR के साथ cemitool_results.zip की सामग्री निकालें।
नोट:: निकाले गए सामग्री के साथ फ़ोल्डर विश्लेषण और उनके स्थापित पैरामीटर के सभी परिणामों के साथ कई फ़ाइलें शामिल हैं।
5. नमूनों की गड़बड़ी की आणविक डिग्री का निर्धारण
- आण्विक डिग्री ऑफ डिस्टर्बेंस (एमडीपी) वेब संस्करण।
- MDP चलाने के लिए, MDP वेबसाइट (सामग्री की तालिका) तक पहुँचें। एमडीपी संदर्भ से प्रत्येक नमूने की आणविक दूरी की गणना करता है। रन बटन पर क्लिक करें।
- फ़ाइल चुनें लिंक पर, अभिव्यक्ति फ़ाइल tmm_expression.tsv अपलोड करें। उसके बाद, डाउनलोड डेटा चरण 4.2.2 से फेनोटाइपिक डेटा फ़ाइल metadata.tsv अपलोड करें। रोग से जुड़े मार्गों के गड़बड़ी स्कोर की गणना करने के लिए GMT प्रारूप में एक Pathway एनोटेशन फ़ाइल सबमिट करना भी संभव है।
- एक बार डेटा अपलोड होने के बाद, उस वर्ग स्तंभ को परिभाषित करें जिसमें MDP द्वारा उपयोग की जाने वाली फेनोटाइपिक जानकारी होती है। उसके बाद, नियंत्रण वर्ग से संगत लेबल का चयन करके नियंत्रण वर्ग निर्धारित करें।
नोट:: कुछ वैकल्पिक पैरामीटर ्स हैं जो प्रभावित करेंगे कि नमूना स्कोर की गणना कैसे की जाती है. यदि आवश्यक हो, तो उपयोगकर्ता सांख्यिकी औसत विधि, मानक विचलन, और परेशान जीन के शीर्ष प्रतिशत को बदलने में सक्षम है। - उसके बाद, चलाएँ MDP बटन दबाएँ और MDP परिणाम दिखाए जाएँगे। उपयोगकर्ता प्रत्येक प्लॉट में डाउनलोड प्लॉट पर क्लिक करके आंकड़े डाउनलोड कर सकता है, साथ ही साथ डाउनलोड एमडीपी स्कोर फ़ाइल बटन पर एमडीपी स्कोर भी कर सकता है।
नोट:: फ़ाइलों को सबमिट करने के तरीके के बारे में प्रश्नों के मामले में या MDP कैसे काम करता है, बस ट्यूटोरियल और वेबपृष्ठों के बारे में के माध्यम से जाएँ।
6. कार्यात्मक संवर्धन विश्लेषण
- डाउन-विनियमित डीईजी की एक सूची बनाएं और अप-विनियमित डीईजी की दूसरी। जीन नाम एंट्रेज़ जीन प्रतीकों के अनुसार होना चाहिए। सूची के प्रत्येक जीन को एक पंक्ति पर रखा जाना चाहिए।
- जीन सूचियों को txt या tsv स्वरूप में सहेजें.
- कार्यात्मक विश्लेषण करने के लिए Enrichr वेबसाइट (सामग्री की तालिका) तक पहुँचें।
- फ़ाइल चुनें पर क्लिक करके जीन की सूची का चयन करें. DEGs सूची में से एक का चयन करें और सबमिट बटन दबाएँ।
- ओआरए दृष्टिकोण के साथ कार्यात्मक संवर्धन विश्लेषण करने के लिए वेबपेज के शीर्ष पर Pathways पर क्लिक करें।
- कोई पाथवे डेटाबेस चुनें. "Reactome 2016" Pathway Database का उपयोग मोटे तौर पर मानव डेटा के जैविक अर्थ को प्राप्त करने के लिए किया जाता है।
- पाथवे डेटाबेस के नाम पर फिर से क्लिक करें। पट्टी ग्राफ़ का चयन करें और जाँचें कि क्या यह p-मान रैंकिंग द्वारा सॉर्ट किया गया है. यदि नहीं, तो बार ग्राफ़ पर तब तक क्लिक करें जब तक कि इसे पी-मान द्वारा सॉर्ट नहीं किया जाता है। इस बार ग्राफ में पी-मानों के अनुसार शीर्ष 10 मार्ग शामिल हैं।
- कॉन्फ़िगरेशन बटन दबाएं और नीचे-विनियमित जीन विश्लेषण के लिए अप-विनियमित जीन विश्लेषण या नीले रंग के लिए लाल रंग का चयन करें। svg, png, और jpg पर क्लिक करके कई स्वरूपों में बार ग्राफ़ सहेजें।
- तालिका का चयन करें और एक txt फ़ाइल में कार्यात्मक संवर्धन विश्लेषण परिणाम प्राप्त करने के लिए बार ग्राफ के नीचे बाईं ओर तालिका में निर्यात प्रविष्टियों पर क्लिक करें।
नोट: इस कार्यात्मक संवर्धन परिणाम फ़ाइल में प्रत्येक पंक्ति में एक मार्ग का नाम, प्रस्तुत डीईजी सूची और मार्ग के बीच ओवरलैप किए गए जीन की संख्या, पी-मूल्य, समायोजित पी-मूल्य, बाधाओं का अनुपात, संयुक्त स्कोर, और डीईजी सूची में मौजूद जीन का जीन प्रतीक शामिल है जो मार्ग में भाग लेते हैं। - अन्य DEGs सूची के साथ एक ही चरण ों को दोहराएँ।
नोट: डाउन-विनियमित डीईजी के साथ विश्लेषण डाउन-विनियमित जीन के लिए समृद्ध मार्ग प्रदान करता है और अप-विनियमित जीन के साथ विश्लेषण अप-विनियमित जीन के लिए समृद्ध मार्ग प्रदान करता है।
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
ट्रांसक्रिप्टोम विश्लेषण के लिए कंप्यूटिंग वातावरण बनाया गया था और डॉकर प्लेटफ़ॉर्म पर कॉन्फ़िगर किया गया था। यह दृष्टिकोण शुरुआती लिनक्स उपयोगकर्ताओं को एक प्राथमिकता प्रबंधन ज्ञान के बिना लिनक्स टर्मिनल सिस्टम का उपयोग करने की अनुमति देता है। डॉकर प्लेटफ़ॉर्म होस्ट OS के संसाधनों का उपयोग एक सेवा कंटेनर बनाने के लिए करता है जिसमें विशिष्ट उपयोगकर्ताओं के उपकरण (चित्रा 1B) शामिल हैं। लिनक्स ओएस उबंटू 20.04 वितरण पर आधारित एक कंटेनर बनाया गया था और इसे पूरी तरह से ट्रांसक्रिप्टोमिक विश्लेषण के लिए कॉन्फ़िगर किया गया था, जो कमांड-लाइन टर्मिनल के माध्यम से सुलभ है। इस कंटेनर में, डेटासेट और स्क्रिप्ट के लिए एक पूर्वनिर्धारित फ़ोल्डर संरचना है जो सभी पाइपलाइन विश्लेषणों (चित्रा 1 C) के लिए आवश्यक है। हमारे शोध समूह 7 द्वारा प्रकाशित एक अध्ययन का उपयोग विश्लेषण के लिए किया गया था, और इसमें स्वस्थ व्यक्तियों से 20 नमूने और CHIKV तीव्र रूप से संक्रमित व्यक्तियों (चित्रा 1 डी) से 39 नमूने शामिल थे।
कुल आरएनए अनुक्रमण की प्रक्रिया पढ़ने की त्रुटियों को उत्पन्न कर सकती है, जो दो या दो से अधिक टेपों के साथ एक क्लस्टर या अभिकर्मकों की कमी के कारण हो सकती है। अनुक्रमण प्लेटफ़ॉर्म "FASTQ" फ़ाइलों का एक सेट लौटाते हैं जिसमें अनुक्रम (पढ़ा जाता है) और प्रत्येक न्यूक्लियोटाइड बेस (चित्रा 2A) के लिए संबंधित गुणवत्ता होती है। Phred गुणवत्ता पैमाने प्रत्येक आधार (चित्रा 2B) के एक गलत पढ़ने की संभावना को इंगित करता है। कम गुणवत्ता वाले पढ़ने से एक पूर्वाग्रह या अनुचित जीन अभिव्यक्ति उत्पन्न हो सकती है, जो डाउनस्ट्रीम विश्लेषण के लिए क्रमिक त्रुटियों को ट्रिगर करती है। ट्रिमोमैटिक जैसे उपकरण नमूनों से कम गुणवत्ता वाले पढ़ने की पहचान करने और हटाने और मैपिंग पढ़ने की संभावना बढ़ाने के लिए विकसित किए गए थे (चित्रा 2 सी, डी)।
मानचित्रण मॉड्यूल को स्टार संरेखक और GRCh38 मानव होस्ट के साथ संदर्भ जीनोम के रूप में पूर्व-कॉन्फ़िगर किया गया था। इस चरण में, पिछले चरण से पुनर्प्राप्त उच्च-गुणवत्ता वाले रीड्स का उपयोग मानव संदर्भ जीनोम (चित्रा 3 ए) के खिलाफ संरेखित करने के लिए इनपुट के रूप में किया जाता है। STAR aligner BAM प्रारूप फ़ाइल में एक संदर्भ जीनोम के लिए मैप किए गए रीड्स का एक संरेखण आउटपुट करता है। इस संरेखण के आधार पर, FeatureCounts उपकरण जीटीएफ फ़ाइल प्रारूप (चित्रा 3 बी) में मानव होस्ट के संदर्भ एनोटेशन का उपयोग करके उन संरेखित पठनों की सुविधाओं (जीन) की एनोटेशन निष्पादित करता है। अंत में, एक पंक्ति के रूप में प्रत्येक जीन नाम के साथ अभिव्यक्ति मैट्रिक्स, और एक कॉलम के रूप में प्रत्येक नमूना उत्पन्न होता है (चित्रा 3 सी)। नमूना नाम और संबंधित नमूना समूहों वाली एक अतिरिक्त मेटाडेटा फ़ाइल को भी आगे डाउनस्ट्रीम विश्लेषण के लिए प्रदान करने की आवश्यकता है। जीन अभिव्यक्ति मैट्रिक्स नमूनों के बीच प्रत्येक जीन के लिए मैप की गई गणनाओं की संख्या का प्रतिनिधित्व करता है, जिसका उपयोग डीईजी की पहचान करने के लिए एजआर इनपुट के रूप में किया जा सकता है। इसके अलावा, इस जीन अभिव्यक्ति मैट्रिक्स को तकनीकी परिवर्तनशीलता को हटाने और नमूनों के बीच कुल पुस्तकालय आकार में व्यक्त जीन के अनुपात पर विचार करके आरएनए-सेक माप को सही करने के लिए टीएमएम और सीपीएम का उपयोग करके सामान्यीकृत किया गया था। इस मैट्रिक्स को आगे सह-अभिव्यक्ति और एमडीपी विश्लेषण के लिए इनपुट के रूप में उपयोग किया गया था।
CEMiTool सह-अभिव्यक्ति मॉड्यूल 12 की पहचान करता है और विश्लेषण करता है। जीन जो एक ही मॉड्यूल में हैं, सह-व्यक्त किए जाते हैं, जिसका अर्थ है कि वे डेटासेट के नमूनों में अभिव्यक्ति के समान पैटर्न प्रदर्शित करते हैं। यह उपकरण प्रत्येक पहचाने गए मॉड्यूल के जैविक महत्व की खोज की भी अनुमति देता है। इसके लिए, यह तीन वैकल्पिक विश्लेषण प्रदान करता है - जीएसईए द्वारा कार्यात्मक संवर्धन विश्लेषण, ओवर रिप्रेजेंटेशन एनालिसिस (ओआरए) द्वारा कार्यात्मक संवर्धन विश्लेषण, और नेटवर्क विश्लेषण। जीएसईए द्वारा कार्यात्मक संवर्धन विश्लेषण प्रत्येक फेनोटाइप (चित्रा 4 ए) पर प्रत्येक मॉड्यूल की जीन अभिव्यक्ति के बारे में जानकारी प्रदान करता है। इसके अनुसार, यह मॉड्यूल की पहचान को सक्षम बनाता है जो प्रत्येक फेनोटाइप पर दमित या प्रेरित होते हैं। ओआरए विश्लेषण समायोजित पी-मूल्यों द्वारा क्रमबद्ध प्रत्येक मॉड्यूल के शीर्ष 10 महत्वपूर्ण रूप से समृद्ध जैविक कार्यों को दर्शाता है। बिगड़ा हुआ जैविक प्रक्रियाओं की पहचान करने के लिए जीएसईए और ओआरए परिणामों को संयोजित करना संभव है और यदि उन्हें ब्याज के फेनोटाइप द्वारा दमित या प्रेरित किया जा रहा है। नेटवर्क विश्लेषण प्रत्येक मॉड्यूल (चित्रा 4A) का एक इंटरैक्टोम प्रदान करते हैं। यह कैसे प्रत्येक मॉड्यूल के जीन बातचीत के दृश्य सक्षम बनाता है. इसके अलावा, नेटवर्क विश्लेषण सबसे जुड़े जीन, हब के बारे में जानकारी प्रदान करता है, जिन्हें नेटवर्क में उनके नामों से पहचाना जाता है। नोड्स का आकार कनेक्टिविटी की डिग्री का प्रतिनिधित्व करता है।
डीईजी की पहचान करने के लिए, एक इन-हाउस स्क्रिप्ट को एकल-वे और संक्षिप्त कमांड लाइन में एंड-टू-एंड डिफरेंशियल विश्लेषण चलाने के लिए विकसित किया गया था। स्क्रिप्ट एक DEG विश्लेषण करने के लिए आवश्यक सभी चरणों को निष्पादित करता है, एक मेटाडेटा फ़ाइल में उपयोगकर्ता द्वारा प्रदान किए गए विभिन्न नमूना समूहों की तुलना करता है। इसके अलावा, डीईजी परिणामों को डाउन-विनियमित और अप-विनियमित जीन की अलग-अलग सूचियों में संग्रहीत किया जाता है, और फिर बायोकंडक्टर से एन्हांस्डवोल्केनो आर पैकेज का उपयोग करके एक प्रकाशन-तैयार आंकड़े (चित्रा 4 बी) में संकलित किया जाता है।
एमडीपी उपकरण द्वारा किए गए गड़बड़ी की आणविक डिग्री का विश्लेषण हमें स्वस्थ और संक्रमित व्यक्तियों से परेशान नमूनों की पहचान करने की अनुमति देता है11। प्रत्येक CHIKV-संक्रमित नमूने के लिए सभी व्यक्त जीनों पर विचार करते हुए और संदर्भ समूह (चित्रा 5A) के रूप में स्वस्थ नमूनों पर विचार करते हुए गड़बड़ी स्कोर की गणना की जाती है। एमडीपी उन नमूनों से सबसे अधिक परेशान जीन के केवल शीर्ष 25% का उपयोग करके विश्लेषण भी करता है (चित्रा 5 बी)। नमूने आनुवंशिक पृष्ठभूमि, उम्र, लिंग, या अन्य पूर्व बीमारियों को देखते हुए एक महान परिवर्तनशीलता पेश कर सकते हैं। ये कारक ट्रांसक्रिप्टोम प्रोफ़ाइल को बदल सकते हैं। इसके आधार पर, एमडीपी से पता चलता है कि कौन से नमूने संभावित जैविक आउटलेटर हैं जो उन्हें हटाने और डाउनस्ट्रीम परिणामों में सुधार करने के लिए हैं (चित्रा 5 ए, बी)।
ओआरए द्वारा एक कार्यात्मक संवर्धन विश्लेषण डीईजी के जैविक अर्थ की पहचान करने के लिए एनरिचर का उपयोग करके किया जा सकता है। डाउन-विनियमित जीन की सूची के आधार पर प्रदान किए गए परिणाम अध्ययन किए गए फेनोटाइप में दमित जैविक प्रक्रियाओं को इंगित करते हैं, जबकि अप-विनियमित जीन की सूची के आधार पर प्रदान किए गए परिणाम जैविक प्रक्रियाओं को प्रस्तुत करते हैं जो ब्याज के फेनोटाइप में प्रेरित होते हैं। एनरिचर द्वारा उत्पन्न बार ग्राफ में दिखाई गई जैविक प्रक्रियाएं पी-वैल्यू रैंकिंग (चित्रा 6) के आधार पर शीर्ष 10 समृद्ध जीन सेट हैं।
चित्रा 1: पर्यावरण डॉकर और उदाहरण अध्ययन. (A) डॉकर प्लेटफ़ॉर्म ट्रांसक्रिप्टोम विश्लेषण के लिए उपकरण वाले लिनक्स सिस्टम के लिए "कंटेनर" बनाने के लिए OS होस्ट संसाधनों का उपयोग करता है। (बी) डॉकर कंटेनर पाइपलाइन स्क्रिप्ट निष्पादित करने के लिए एक लिनक्स सिस्टम का अनुकरण करता है। (सी) ट्रांसक्रिप्टोम पाइपलाइन फ़ोल्डर संरचना को विश्लेषण के लिए डेटासेट और स्क्रिप्ट स्टोर करने के लिए बनाया और व्यवस्थित किया गया था। (डी) हमारे समूह के अध्ययन का उपयोग ट्रांसक्रिप्टोम विश्लेषण के उदाहरण के रूप में किया गया था। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्र 2: अनुक्रमण का गुणवत्ता नियंत्रण। (A) FASTQ प्रारूप फ़ाइल का उपयोग अनुक्रम और न्यूक्लियोटाइड आधार गुणवत्ता का प्रतिनिधित्व करने के लिए किया जाता है। (बी) फ्रेड स्कोर समीकरण, जहां हर 10 एक लॉग संभावना गलत तरीके से पढ़े गए आधार को बढ़ाता है। (सी) और (डी) बॉक्सप्लॉट क्रमशः ट्रिमोमैटिक निष्पादन से पहले और बाद में प्रत्येक न्यूक्लियोटाइड आधार के गुणवत्ता वितरण का प्रतिनिधित्व करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 3: अनुक्रम से जीन गिनती अभिव्यक्ति के लिए मानचित्रण और एनोटेशन प्रक्रिया। (ए) मैपिंग में जीनोमिक स्थानीयकरण की पहचान करने के लिए ट्रांसक्रिप्ट से अनुक्रम और जीनोम से अनुक्रम को संरेखित करना शामिल है। (बी) संदर्भ जीनोम के लिए मैप किए गए रीड्स को ओवरलैपिंग के उनके जीनोमिक स्थानीयकरण के आधार पर एनोटेट किया जाता है। (C) मैपिंग फ़ाइल उपकरणों जैसे featureCounts के आधार पर, जीन अभिव्यक्ति को संक्षेप में प्रस्तुत किया जाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 4: सह-व्यक्त जीन नेटवर्क और डीईजी का सांख्यिकीय विश्लेषण(ए) जीन अभिव्यक्ति और मॉड्यूल जीन से प्रोटीन-प्रोटीन इंटरैक्शन नेटवर्क के आधार पर सह-अभिव्यक्ति के मॉड्यूल। (बी) CHIKV तीव्र रूप से संक्रमित और स्वस्थ व्यक्तियों का सांख्यिकीय विश्लेषण, और लाल (पी-मूल्य और लॉग 2 एफ सी मानदंड), बैंगनी (केवल पी-मूल्य), हरा (केवल लॉग 2 एफ सी), और ग्रे (कोई महत्व नहीं) में विभेदक जीन अभिव्यक्ति। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 5: CHIKV की आणविक डिग्री (MDP) तीव्र रूप से संक्रमित और स्वस्थ व्यक्तियों की. (A) ट्रांसक्रिप्टोम से सभी व्यक्त जीनों का उपयोग करके प्रत्येक नमूने के लिए MDP स्कोर। (बी) प्रत्येक नमूने के लिए एमडीपी स्कोर केवल सबसे अधिक परेशान जीन के शीर्ष 25% का उपयोग करके। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 6: DEGs के लिए कार्यात्मक विश्लेषण (A) अप-विनियमित और (B) डाउन-विनियमित जीन को जैविक मार्गों या प्रतिनिधि जीन सेटों का आकलन करने के लिए एनरिचर वेबसाइट टूल में प्रस्तुत किया गया था। प्रत्येक मार्ग के लिए पी-मानों की गणना की गई थी और ग्राफिक में केवल महत्वपूर्ण अंतर दिखाए गए थे। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
Subscription Required. Please recommend JoVE to your librarian.
Discussion
अनुक्रमण पुस्तकालयों की तैयारी जैविक प्रश्नों का सर्वोत्तम संभव तरीके से उत्तर देने की दिशा में एक महत्वपूर्ण कदम है। अध्ययन की रुचि के टेपों का प्रकार मार्गदर्शन करेगा कि किस प्रकार के अनुक्रमण पुस्तकालय को चुना जाएगा और जैव सूचना विज्ञान विश्लेषण को चलाया जाएगा। उदाहरण के लिए, एक रोगज़नक़ और मेजबान इंटरैक्शन के अनुक्रमण से, अनुक्रमण के प्रकार के अनुसार, मेजबान टेपों से या सिर्फ दोनों से अनुक्रमों की पहचान करना संभव है।
अगली पीढ़ी के अनुक्रमण उपकरण, उदाहरण के लिए, इलुमिना प्लेटफ़ॉर्म, अनुक्रमण गुणवत्ता स्कोर को मापता है, जो इस संभावना के लिए खड़ा है कि आधार को गलत तरीके से कहा जाता है। डाउनस्ट्रीम विश्लेषण कम गुणवत्ता वाले अनुक्रमों के प्रति बहुत संवेदनशील होते हैं और अंडर-रीड या गलत पढ़े गए जीन अभिव्यक्ति का कारण बनते हैं। सही विश्लेषण और व्याख्या करने में एक और बाधा एडाप्टर अनुक्रम हैं। एडाप्टर अनुक्रम लाइब्रेरी की तैयारी और अनुक्रमण में मदद करते हैं, और अधिकांश मामलों में, एडाप्टर भी अनुक्रमित होते हैं। हाल के अध्ययनों ने पहचान की है कि अंतिम परिणामों पर मानचित्रण उपकरण का प्रभाव न्यूनतम है13। हालांकि, रोगज़नक़-मेजबान अध्ययनों में, बहु-मैप किए गए लोकस अनुक्रमों की समस्या को कम करने के लिए विभिन्न थ्रेसहोल्ड का परीक्षण करते समय मैपिंग प्रक्रिया थोड़ा बेहतर परिणाम उत्पन्न कर सकती है।
विभेदक जीन अभिव्यक्ति परिणामों को एक निश्चित सावधानी के साथ व्याख्या की जानी चाहिए, खासकर जब प्रति समूह नमूनों की संख्या बहुत कम होती है और नमूने अलग-अलग assays से आते हैं और डीईजी परिणाम के बैच प्रभावों से हस्तक्षेप करते हैं। ये परिणाम कई कारकों के प्रति संवेदनशील हैं: (i) लागू किए गए डेटा फ़िल्टरिंग, जैसे कि कम व्यक्त जीन को हटाना और बनाए रखने के लिए नमूनों की संख्या; (ii) अध्ययन डिजाइन, केवल नमूना समूहों या प्रत्येक संक्रमित रोगी बनाम सभी नियंत्रण रोगियों के बीच तुलना करने के लिए, जैसा कि CHIKV अध्ययन 7 में दिखाया गया है; और (iii) डीईजी की पहचान करने के लिए उपयोग की जाने वाली सांख्यिकीय विधि। यहां, हम 0.05 के थ्रेशोल्ड पी-मान को मानते हुए डीईजी की पहचान करने के लिए EdgeR के साथ एक बुनियादी उदाहरण का वर्णन करते हैं। साहित्य में यह भी जाना जाता है कि, अन्य बेंचमार्क विधियों की तुलना में, EdgeR में DEGs14 की पहचान करने में परिवर्तनशीलता की एक बड़ी श्रृंखला हो सकती है। कोई भी इस तरह के विभिन्न तरीकों के बीच व्यापार-बंद पर विचार कर सकता है और उपलब्ध प्रतिकृतियों की संख्या और प्रयोगात्मक डिजाइन 14 की जटिलता को ध्यान में रख सकता है।
CEMiTool सह-अभिव्यक्ति मॉड्यूल विश्लेषण 12 निष्पादित करता है। यह उपकरण Bioconductor रिपॉजिटरी पर आर पैकेज के माध्यम से उपलब्ध है और यह webCEMiTool के माध्यम से एक उपयोगकर्ता के अनुकूल संस्करण में भी उपलब्ध है; उत्तरार्द्ध इस वर्तमान प्रोटोकॉल में उपयोग किया जाने वाला संस्करण है। यह WGCNA15 के संबंध में एक वैकल्पिक सॉफ्टवेयर है जो उत्तरार्द्ध 16 की तुलना में कई लाभ प्रस्तुत करता है, जिसमें यह तथ्य भी शामिल है कि यह अधिक उपयोगकर्ता के अनुकूल है17। इसके अलावा, इस उपकरण में जीन को फ़िल्टर करने के लिए एक स्वचालित विधि है, जबकि WGCNA में उपयोगकर्ता को WGCNA उपयोग से पहले जीन को फ़िल्टर करना चाहिए। इसके अलावा, इस उपकरण में डिफ़ॉल्ट पैरामीटर स्थापित हैं, जबकि WGCNA में उपयोगकर्ता को मैन्युअल रूप से पैरामीटर विश्लेषण का चयन करना चाहिए। मैन्युअल पैरामीटर चयन reproducibility impairs; इसलिए, स्वचालित पैरामीटर चयन बेहतर reproducibility की गारंटी देता है।
कुछ मामलों में, CEMiTool एक उपयुक्त नरम-थ्रेशोल्ड खोजने में सक्षम नहीं है, जिसे β मान भी कहा जाता है। इस मामले में, उपयोगकर्ता को यह जांचना चाहिए कि क्या आरएनए-सेक डेटा मजबूत माध्य-प्रसरण निर्भरता प्रस्तुत करता है। यदि माध्य प्रसरण के साथ एक मजबूत रैखिक संबंध प्रदर्शित करता है (सभी जीनों पर विचार करते हुए), तो उपयोगकर्ता को ट्रांसक्रिप्टोमिक डेटा की माध्य-प्रसरण निर्भरता को हटाने के लिए "लागू करें वीएसटी" पैरामीटर की जांच करने वाले विश्लेषणों को फिर से चलाना होगा। यह जांचना हमेशा महत्वपूर्ण होता है कि डेटा में एक मजबूत माध्य-विचरण निर्भरता है या नहीं और जब यह मौजूद होता है तो इसे हटा दें।
CEMiTool का उपयोग व्यापक रूप से सह-अभिव्यक्ति मॉड्यूल के जैविक अर्थ की पहचान करने और उनका पता लगाने के लिए किया गया है। एक CHIKV तीव्र संक्रमण अध्ययन ने लक्षणों की शुरुआत के 2 से 4 दिनों के बाद रोगियों में उच्च गतिविधि के साथ एक मॉड्यूल दिखाया। ओआरए द्वारा इस मॉड्यूल के कार्यात्मक संवर्धन ने मोनोसाइट्स और न्यूट्रोफिल 7 में वृद्धि का प्रदर्शन किया। बेसलाइन से दिन 7 तक रक्त ट्रांसक्रिप्टोम का उपयोग करके एक इन्फ्लूएंजा टीकाकरण अध्ययन ने टी, बी, और प्राकृतिक हत्यारा कोशिकाओं, मोनोसाइट्स, न्यूट्रोफिल, इंटरफेरॉन प्रतिक्रियाओं और प्लेटलेट सक्रियण 18 से संबंधित जैविक प्रक्रियाओं के लिए कार्यात्मक रूप से समृद्ध सह-अभिव्यक्ति मॉड्यूल प्रस्तुत किए।
ट्रांसक्रिप्टोमिक डेटासेट से परिवर्तनशीलता को ध्यान में रखते हुए, डेटा विषमता की पहचान करें और मात्रा निर्धारित करें एक चुनौती हो सकती है क्योंकि कई चर जीन अभिव्यक्ति प्रोफ़ाइल 7,11 को प्रभावित कर सकते हैं। एमडीपी इन चरणों का पालन करके स्वस्थ और संक्रमित विषयों से परेशान नमूनों की पहचान करने और मापने का एक तरीका प्रदान करता है: (i) एक केंद्रीयता विधि (माध्यिका या माध्य) और नियंत्रण नमूनों के मानक विचलन की गणना करें; (ii) सभी जीनों के जेड-स्कोर की गणना करने के लिए प्राप्त मूल्यों का उपयोग करें; (iii) नियंत्रण नमूनों से प्रतिनिधि विचलन को दर्शाते हुए, 2 से अधिक एक थ्रेशोल्ड जेड-स्कोर निरपेक्ष सेट करें; और (iv) प्रत्येक नमूने के लिए फ़िल्टर किए गए स्कोर का उपयोग करके जीन मूल्यों के औसत की गणना करें। scRNA-seq विश्लेषण के लिए कुछ सीमाएं होने के बावजूद, यह उपकरण माइक्रोएरे और आरएनए-सेक डेटा 11 से गड़बड़ी स्कोर को निर्धारित करने में कार्यात्मक था। इसके अलावा, पिछले एक अध्ययन ने इस उपकरण का उपयोग तपेदिक और मधुमेह मेलिटस रोगियों में रक्त ट्रांसक्रिप्टोम पर ऊंचा गड़बड़ी की आणविक डिग्री को प्रदर्शित करने के लिए किया है। इस काम में, संदर्भ समूह के रूप में स्वस्थ व्यक्तियों का उपयोग करके नियंत्रण और CHIKV तीव्र रूप से संक्रमित नमूनों की गड़बड़ी को दिखाया गया है।
एनरिचर द्वारा किया गया कार्यात्मक संवर्धन विश्लेषण ORA20,21 है। ORA एक प्रकार का कार्यात्मक संवर्धन विश्लेषण है जिसमें उपयोगकर्ता को उपकरण को DEGs की सूची प्रदान करनी चाहिए। डीईजी की सूची आमतौर पर एक डाउन-विनियमित डीईजी सूची में और एक अप-विनियमित डीईजी सूची में अलग की जाती है। ओआरए करने के लिए अन्य उपकरण हैं, उनमें से, gProfiler, जो उपयोगकर्ता के अनुकूल वेब संस्करण 22 और goseq23 में उपलब्ध है जो Bioconductor पर एक आर पैकेज के रूप में उपलब्ध है। कार्यात्मक संवर्धन विश्लेषण का एक अन्य प्रकार GSEA है। GSEA करने के लिए, उपयोगकर्ता को एक रैंक सूची में सभी जीन प्रदान करना होगा। इस सूची को आमतौर पर गुना परिवर्तन में जीन अभिव्यक्ति के अनुसार स्थान दिया जाता है।
एनरिचर हमेशा बार ग्राफ परिणाम में उनके पी-मूल्यों के आधार पर समृद्ध शीर्ष 10 जीन सेट प्रदान करता है। इसलिए, परिणामों की व्याख्या करते समय उपयोगकर्ता को सतर्क रहना चाहिए, यदि 10 से कम समृद्ध जीन सेट हैं, तो बार ग्राफ भी गैर-समृद्ध जैविक प्रक्रियाओं को दिखाएगा। इस त्रुटि से बचने के लिए, उपयोगकर्ता को पी-मान के लिए एक कटऑफ स्थापित करना चाहिए और यह मानने से पहले कि बार ग्राफ के सभी जीन सेट समृद्ध हैं, मार्गों के पी-मूल्यों का निरीक्षण करना चाहिए। इसके अलावा, उपयोगकर्ता को पता होना चाहिए कि बार ग्राफ में प्रदर्शित 10 जीन सेट का क्रम पी-मानों के अनुसार है, न कि समायोजित पी-मानों के अनुसार। यदि उपयोगकर्ता एक बार ग्राफ में सभी समृद्ध मार्गों को दिखाना चाहता है या यहां तक कि समायोजित पी-मानों के अनुसार पुन: क्रमबद्ध करना चाहता है, तो यह अनुशंसा की जाती है कि उपयोगकर्ता डाउनलोड की गई तालिका का उपयोग करके अपना स्वयं का बार ग्राफ़ बनाए। उपयोगकर्ता एक्सेल या यहां तक कि आर सॉफ़्टवेयर का उपयोग करके एक नया बार ग्राफ़ बना सकता है।
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।
Acknowledgments
एचएन को FAPESP (अनुदान संख्या: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5, और 2013/08216-2) और CNPq (313662/2017-7) द्वारा वित्त पोषित किया जाता है।
हम विशेष रूप से अध्येताओं के लिए निम्नलिखित अनुदानों के लिए आभारी हैं: ANAG (FAPESP प्रक्रिया 2019/13880-5), VEM (FAPESP प्रक्रिया 2019/16418-0), IMSC (FAPESP प्रक्रिया 2020/05284-0), APV (FAPESP प्रक्रिया 2019/27146-1) और, RLTO (CNPq प्रक्रिया 134204/2019-0)।
Materials
Name | Company | Catalog Number | Comments |
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/ |
References
- Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
- Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
- Hua, C., Combe, B.
Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017). - Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P.
Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012). - Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
- Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
- Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
- Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
- Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
- Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
- Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
- Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
- Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
- Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
- Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
- Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
- Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
- de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
- Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
- Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
- Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
- Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
- Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).