Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

होस्ट-रोगज़नक़ इंटरैक्शन की जांच के लिए उच्च-थ्रूपुट ट्रांसक्रिप्टोम विश्लेषण

Published: March 5, 2022 doi: 10.3791/62324

Summary

यहां प्रस्तुत प्रोटोकॉल आरएनए-अनुक्रमण ट्रांसक्रिप्टोम डेटा का विश्लेषण करने के लिए एक पूर्ण पाइपलाइन का वर्णन करता है कच्चे पठन से कार्यात्मक विश्लेषण तक, जिसमें गुणवत्ता नियंत्रण और उन्नत सांख्यिकीय विश्लेषणात्मक दृष्टिकोणों के लिए प्रीप्रोसेसिंग चरण शामिल हैं।

Abstract

रोगजनकों संक्रामक रोगों की एक विस्तृत विविधता का कारण बन सकता है। संक्रमण के जवाब में मेजबान द्वारा प्रेरित जैविक प्रक्रियाएं बीमारी की गंभीरता को निर्धारित करती हैं। इस तरह की प्रक्रियाओं का अध्ययन करने के लिए, शोधकर्ता उच्च-थ्रूपुट अनुक्रमण तकनीकों (आरएनए-सेक) का उपयोग कर सकते हैं जो संक्रमण, नैदानिक परिणामों या बीमारी की गंभीरता के विभिन्न चरणों में मेजबान ट्रांसक्रिप्टोम के गतिशील परिवर्तनों को मापते हैं। यह जांच बीमारियों की बेहतर समझ पैदा कर सकती है, साथ ही संभावित दवा लक्ष्यों और उपचारों को उजागर कर सकती है। यहां प्रस्तुत प्रोटोकॉल आरएनए-अनुक्रमण डेटा का विश्लेषण करने के लिए एक पूर्ण पाइपलाइन का वर्णन करता है जो कच्चे पठन से कार्यात्मक विश्लेषण तक है। पाइपलाइन को पांच चरणों में विभाजित किया गया है: (1) डेटा का गुणवत्ता नियंत्रण; (2) जीन का मानचित्रण और एनोटेशन; (3) विभेदक रूप से व्यक्त जीन और सह-व्यक्त जीन की पहचान करने के लिए सांख्यिकीय विश्लेषण; (4) नमूनों की गड़बड़ी की आणविक डिग्री का निर्धारण; और (5) कार्यात्मक विश्लेषण। चरण 1 तकनीकी कलाकृतियों को हटा देता है जो डाउनस्ट्रीम विश्लेषण की गुणवत्ता को प्रभावित कर सकते हैं। चरण 2 में, जीन को मानक लाइब्रेरी प्रोटोकॉल के अनुसार मैप और एनोटेट किया जाता है। चरण 3 में सांख्यिकीय विश्लेषण उन जीनों की पहचान करता है जो गैर-संक्रमित लोगों की तुलना में संक्रमित नमूनों में अलग-अलग रूप से व्यक्त या सह-व्यक्त किए जाते हैं। नमूना परिवर्तनशीलता और संभावित जैविक outliers की उपस्थिति चरण 4 में गड़बड़ी दृष्टिकोण की आणविक डिग्री का उपयोग करके सत्यापित कर रहे हैं। अंत में, चरण 5 में कार्यात्मक विश्लेषण रोग फेनोटाइप से जुड़े मार्गों का पता चलता है। प्रस्तुत पाइपलाइन का उद्देश्य मेजबान-रोगज़नक़ इंटरैक्शन अध्ययनों से आरएनए-सेक डेटा विश्लेषण के माध्यम से शोधकर्ताओं का समर्थन करना है और विट्रो या विवो प्रयोगों में भविष्य को ड्राइव करना है, जो संक्रमण के आणविक तंत्र को समझने के लिए आवश्यक हैं।

Introduction

Arboviruses, जैसे डेंगू, पीला बुखार, चिकनगुनिया, और जीका, व्यापक रूप से कई स्थानिक प्रकोपों के साथ जुड़े हुए हैं और पिछले दशकों में मनुष्यों को संक्रमित करने के लिए जिम्मेदार मुख्य रोगजनकों में से एक के रूप में उभरे हैं1,2 चिकनगुनिया वायरस (CHIKV) से संक्रमित व्यक्तियों को अक्सर बुखार, सिरदर्द, दाने, पॉलीआर्थ्राल्जिया और गठिया 3,4,5 होता है। वायरस सेल की जीन अभिव्यक्ति को नष्ट कर सकते हैं और विभिन्न मेजबान सिग्नलिंग मार्गों को प्रभावित कर सकते हैं। हाल ही में, रक्त ट्रांसक्रिप्टोम अध्ययनों ने आरएनए-सेक का उपयोग किया ताकि आरएनए-सेक का उपयोग किया जा सके जो कि तीव्र CHIKV संक्रमण से जुड़े विभेदक रूप से व्यक्त जीन (डीईजी) की पहचान करने के लिए है, जो कि convalescence6 या स्वस्थ नियंत्रण 7 की तुलना में है। CHIKV-संक्रमित बच्चों में अप-विनियमित जीन थे जो जन्मजात प्रतिरक्षा में शामिल होते हैं, जैसे कि वायरल आरएनए, जेएके / एसटीएटी सिग्नलिंग के लिए सेलुलर सेंसर से संबंधित, और टोल-जैसे रिसेप्टर सिग्नलिंग पाथवे 6। CHIKV से गंभीर रूप से संक्रमित वयस्कों ने भी जन्मजात प्रतिरक्षा से संबंधित जीनों का प्रेरण दिखाया, जैसे कि मोनोसाइट्स और डेंड्राइटिक सेल सक्रियण से संबंधित, और एंटीवायरल प्रतिक्रियाओं 7 से संबंधित। डाउन-विनियमित जीन के साथ समृद्ध सिग्नलिंग मार्गों में अनुकूली प्रतिरक्षा से संबंधित लोग शामिल थे, जैसे कि टी सेल सक्रियण और टी और बी कोशिकाओं में भेदभाव और संवर्धन।

मेजबान और रोगज़नक़ जीन के ट्रांसक्रिप्टोम डेटा का विश्लेषण करने के लिए कई तरीकों का उपयोग किया जा सकता है। अक्सर, आरएनए-सेक लाइब्रेरी की तैयारी परिपक्व पॉली-ए टेपों के संवर्धन के साथ शुरू होती है। यह चरण अधिकांश राइबोसोमल आरएनए (आरआरएनए) को हटा देता है और कुछ मामलों में वायरल / बैक्टीरियल आरएनए को हटा देता है। हालांकि, जब जैविक प्रश्न में रोगज़नक़ प्रतिलेख का पता लगाना शामिल होता है और आरएनए को पिछले चयन से स्वतंत्र अनुक्रमित किया जाता है, तो अनुक्रमण द्वारा कई अन्य अलग-अलग टेपों का पता लगाया जा सकता है। उदाहरण के लिए, subgenomic mRNA को बीमारियों की गंभीरता को सत्यापित करने के लिए एक महत्वपूर्ण कारक दिखाया गया है8। इसके अलावा, कुछ वायरस जैसे कि CHIKV और SARS-CoV-2 के लिए, यहां तक कि पॉली-ए समृद्ध पुस्तकालय वायरल रीड्स उत्पन्न करते हैं जिनका उपयोग डाउनस्ट्रीम विश्लेषण9,10 में किया जा सकता है। जब मेजबान ट्रांसक्रिप्टोम के विश्लेषण पर ध्यान केंद्रित किया जाता है, तो शोधकर्ता नमूनों में जैविक गड़बड़ी की जांच कर सकते हैं, विभेदक रूप से व्यक्त जीन और समृद्ध मार्गों की पहचान कर सकते हैं, और सह-अभिव्यक्ति मॉड्यूल 7,11,12 उत्पन्न कर सकते हैं। यह प्रोटोकॉल विभिन्न जैव सूचनात्मक दृष्टिकोणों (चित्रा 1 ए) का उपयोग करके चिकवी-संक्रमित रोगियों और स्वस्थ व्यक्तियों के ट्रांसक्रिप्टोम विश्लेषण पर प्रकाश डालता है। पहले प्रकाशित एक अध्ययन 7 से डेटा जिसमें 20 स्वस्थ और 39 CHIKV तीव्र रूप से संक्रमित व्यक्तियों को शामिल किया गया था, का उपयोग प्रतिनिधि परिणाम उत्पन्न करने के लिए किया गया था।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

इस प्रोटोकॉल में उपयोग किए जाने वाले नमूनों को साओ पाउलो विश्वविद्यालय में बायोमेडिकल साइंसेज संस्थान के माइक्रोबायोलॉजी विभाग और सर्गिप के संघीय विश्वविद्यालय (प्रोटोकॉल: 54937216.5.0000.5467 और 54835916.2.0000.5546, क्रमशः) दोनों से नैतिकता समितियों द्वारा अनुमोदित किया गया था।

1. डॉकर डेस्कटॉप स्थापना

नोट:: डॉकर वातावरण तैयार करने के लिए चरण ऑपरेटिंग सिस्टम (OSs) के बीच भिन्न हैं। इसलिए, मैक उपयोगकर्ताओं को 1.1 के रूप में सूचीबद्ध चरणों का पालन करना होगा, Linux उपयोगकर्ताओं को 1.2 के रूप में सूचीबद्ध चरणों का पालन करना होगा, और Windows उपयोगकर्ताओं को 1.3 के रूप में सूचीबद्ध चरणों का पालन करना होगा।

  1. MacOS पर स्थापित करें।
    1. Get Docker वेबसाइट (सामग्री की तालिका) का उपयोग करें, मैक के लिए डॉकर डेस्कटॉप पर क्लिक करें और फिर डॉकर हब से डाउनलोड करें लिंक पर क्लिक करें।
    2. डॉकर प्राप्त करें बटन पर क्लिक करके स्थापना फ़ाइल डाउनलोड करें।
    3. इंस्टॉलर को खोलने के लिए डॉकर.dmg फ़ाइल निष्पादित करें, और उसके बाद चिह्न अनुप्रयोग फ़ोल्डर में खींचें। प्रोग्राम को प्रारंभ करने के लिए अनुप्रयोग फ़ोल्डर में Docker.app स्थानीयकृत और निष्पादित करें।
      नोट:: शीर्ष स्थिति पट्टी में सॉफ़्टवेयर विशिष्ट मेनू इंगित करता है कि सॉफ़्टवेयर चल रहा है और यह किसी टर्मिनल से पहुँच योग्य है।
  2. Linux OS पर कंटेनर प्रोग्राम स्थापित करें।
    1. गेट डॉकर लिनक्स वेबसाइट (सामग्री की तालिका) तक पहुँचें और डॉकर लिनक्स रिपॉजिटरी लिंक पर उपलब्ध रिपॉजिटरी अनुभाग का उपयोग करके स्थापित करने के लिए निर्देशों का पालन करें।
    2. आदेश पंक्ति का उपयोग कर सभी Linux पैकेज अद्यतन करें:
      sudo apt-get update
    3. डॉकर के लिए आवश्यक पैकेज स्थापित करें:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. कोई सॉफ़्टवेयर संग्रह keyring फ़ाइल बनाएँ:
      कर्ल -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. source.list फ़ाइल में Docker deb जानकारी जोड़ें:
      गूंज "deb [arch = amd64 हस्ताक्षरित द्वारा = / usr / शेयर / keyrings / docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $ (lsb_release -cs) स्थिर" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. हाल ही में जोड़े गए पैकेजों सहित सभी पैकेजों को फिर से अद्यतन करें:
      sudo apt-get update
    7. डेस्कटॉप संस्करण स्थापित करें:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. स्थापना प्रक्रिया को पूरा करने के लिए भौगोलिक क्षेत्र और समय क्षेत्र का चयन करें।
  3. Windows OS पर कंटेनर प्रोग्राम स्थापित करें।
    1. गेट डॉकर वेबसाइट (सामग्री की तालिका) का उपयोग करें और आरंभ करें पर क्लिक करें। Windows के लिए डॉकर डेस्कटॉप के लिए इंस्टॉलर ढूँढें. फ़ाइलों को डाउनलोड करें और उन्हें कंप्यूटर पर स्थानीय रूप से स्थापित करें।
    2. डाउनलोड करने के बाद, स्थापना फ़ाइल (.exe) प्रारंभ करें और डिफ़ॉल्ट पैरामीटर रखें। सुनिश्चित करें कि दो विकल्प WSL 2 के लिए आवश्यक Windows घटक स्थापित करें और डेस्कटॉप के लिए शॉर्टकट जोड़ें चिह्नित किए गए हैं।
      नोट:: कुछ मामलों में, जब यह सॉफ़्टवेयर सेवा प्रारंभ करने का प्रयास करता है, तो यह एक त्रुटि दिखाता है: WSL स्थापना अपूर्ण है। इस त्रुटि का पता लगाने के लिए, वेबसाइट WSL2-कर्नेल (सामग्री की तालिका) तक पहुँचें।
    3. डाउनलोड करें और नवीनतम WSL2 Linux कर्नेल स्थापित करें।
    4. PowerShell टर्मिनल को व्यवस्थापक के रूप में एक्सेस करें और आदेश निष्पादित करें:
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. सुनिश्चित करें कि सॉफ़्टवेयर डॉकर डेस्कटॉप सफलतापूर्वक स्थापित है।
  4. डॉकर हब (सामग्री की तालिका) पर CSBL रिपॉजिटरी से छवि डाउनलोड करें।
    1. डॉकर डेस्कटॉप खोलें और सत्यापित करें कि स्थिति उपकरण पट्टी के नीचे बाईं ओर "चल रही है" है।
    2. Windows PowerShell टर्मिनल आदेश पंक्ति पर जाएँ। डॉकर हब पर CSBL रिपॉजिटरी से इस प्रोटोकॉल के लिए Linux कंटेनर छवि डाउनलोड करें। छवि को डाउनलोड करने के लिए निम्न आदेश निष्पादित करें:
      डॉकर पुल csblusp/
      नोट:: छवि को डाउनलोड करने के बाद, फ़ाइल डॉकर डेस्कटॉप में देखा जा सकता है। कंटेनर बनाने के लिए, Windows उपयोगकर्ताओं को चरण 1.5 का पालन करना होगा, जबकि Linux उपयोगकर्ताओं को चरण 1.6 का पालन करना होगा।
  5. Windows OS पर सर्वर संग्राहक प्रारंभ करें।
    1. उपकरण पट्टी से डेस्कटॉप अनुप्रयोग प्रबंधक में डॉकर छवि फ़ाइल देखें और छवियाँ पृष्ठ तक पहुँचें।
      नोट:: यदि पाइपलाइन छवि सफलतापूर्वक डाउनलोड किया गया था, तो एक csblusp/transcriptome छवि उपलब्ध होगी।
    2. चलाएँ बटन पर क्लिक करके csblusp/transcriptum छवि से कंटेनर प्रारंभ करें। कंटेनर को कॉन्फ़िगर करने के लिए वैकल्पिक सेटिंग्स का विस्तार करें।
    3. कंटेनर नाम (जैसे, सर्वर) निर्धारित करें।
    4. डॉकर के अंदर फ़ोल्डर के साथ स्थानीय कंप्यूटर में कोई फ़ोल्डर संबद्ध करें। ऐसा करने के लिए, होस्ट पथ निर्धारित करें। संसाधित डेटा को संग्रहीत करने के लिए स्थानीय मशीन में कोई फ़ोल्डर सेट करें जिसे अंत में डाउनलोड किया जाएगा. कंटेनर पथ सेट करें। परिभाषित करें और csblusp/transcriptome कंटेनर फ़ोल्डर को स्थानीय मशीन पथ से लिंक करें (कंटेनर पथ के लिए "/opt/transferdata" नाम का उपयोग करें)।
    5. इसके बाद, csblusp/transcriptome कंटेनर बनाने के लिए Run पर क्लिक करें।
    6. Csblusp/transcriptome कंटेनर से Linux टर्मिनल तक पहुँचने के लिए, CLI बटन पर क्लिक करें.
    7. एक बेहतर अनुभव प्राप्त करने के लिए बैश टर्मिनल में टाइप करें। इसके लिए, आदेश निष्पादित करें:
      मार
    8. बैश कमांड निष्पादित करने के बाद, सुनिश्चित करें कि टर्मिनल दिखाता है (root@<कॉन्टेनरआईडी>:/#):
      root@ac12c583b731:/ #
  6. Linux OS के लिए सर्वर कंटेनर प्रारंभ करें।
    1. छवि के आधार पर डॉकर कंटेनर बनाने के लिए इस आदेश को निष्पादित करें:
      डॉकर रन -d --rm --name server -v :/opt/transferdata csblusp/transcriptum
      नोट:: <होस्ट पथ>: स्थानीय फ़ोल्डर मशीन का कोई पथ निर्धारित करें।
    2. डॉकर संग्राहक के आदेश टर्मिनल तक पहुँचने के लिए इस आदेश को निष्पादित करें:
      डॉकर exec -it सर्वर बैश
    3. कमांड लाइन का उपयोग करके किसी भी प्रोग्राम / स्क्रिप्ट को निष्पादित करने के लिए लिनक्स टर्मिनल की उपलब्धता सुनिश्चित करें।
    4. बैश कमांड निष्पादित करने के बाद, सुनिश्चित करें कि टर्मिनल दिखाता है (root@<कॉन्टेनरआईडी>:/#):
      root@ac12c583b731:/ #
      नोट:: रूट पासवर्ड डिफ़ॉल्ट रूप से "ट्रांसक्रिप्टोम" है। यदि वांछित है, तो रूट पासवर्ड कमांड निष्पादित करके बदला जा सकता है:
      पास्वर्ड
    5. सबसे पहले, सभी उपकरण उपलब्ध हैं यह सुनिश्चित करने के लिए addpath.sh करने के लिए स्रोत आदेश निष्पादित करें। आदेश निष्पादित करें:
      स्रोत /opt/addpath.sh
  7. RNA अनुक्रमण फ़ोल्डर की संरचना की जाँच करें।
    1. ट्रांसक्रिप्टोम पाइपलाइन स्क्रिप्ट फ़ोल्डर तक पहुँचें और सुनिश्चित करें कि आरएनए अनुक्रमण से सभी डेटा फ़ोल्डर के अंदर संग्रहीत हैं: /home/transcriptum-पाइपलाइन/data.
    2. सुनिश्चित करें कि विश्लेषण से प्राप्त सभी परिणाम पथ / घर / ट्रांसक्रिप्टोम-पाइपलाइन / परिणामों के फ़ोल्डर के अंदर संग्रहीत हैं।
    3. सुनिश्चित करें कि जीनोम और एनोटेशन संदर्भ फ़ाइलें पथ / घर / ट्रांसक्रिप्टोम-पाइपलाइन / डेटासेट के फ़ोल्डर के अंदर संग्रहीत की जाती हैं। ये फ़ाइलें सभी विश्लेषणों का समर्थन करने में मदद करेंगी।
    4. सुनिश्चित करें कि सभी स्क्रिप्ट पथ / घर / ट्रांसक्रिप्टोम-पाइपलाइन / स्क्रिप्ट के फ़ोल्डर में संग्रहीत हैं और नीचे वर्णित प्रत्येक चरण द्वारा अलग किए गए हैं।
  8. एनोटेशन और मानव जीनोम डाउनलोड करें।
    1. स्क्रिप्ट फ़ोल्डर तक पहुँचें:
      cd/home/transcriptome-pipeline/scripts
    2. संदर्भ मानव जीनोम डाउनलोड करने के लिए इस आदेश को निष्पादित करें:
      बैश downloadGenome.sh
    3. एनोटेशन डाउनलोड करने के लिए, आदेश निष्पादित करें:
      बैश downloadAnnotation.sh
  9. एनोटेशन या संदर्भ जीनोम का संस्करण परिवर्तित करें।
    1. प्रत्येक फ़ाइल का URL परिवर्तित करने के लिए downloadAnnotation.sh और downloadGenome.sh खोलें.
    2. downloadAnnotation.sh की प्रतिलिपि बनाएँ और स्थानांतरण क्षेत्र में फ़ाइलों को downloadGenome.sh करें और स्थानीय OS में संपादित करें.
      cd/home/transcriptome-pipeline/scripts
      cp downloadAnnotation.sh downloadGenome.sh/opt/transferdata
    3. चरण 1.5.4 में होस्ट और डॉकर संग्राहक के बीच लिंक करने के लिए चयनित होस्ट पथ फ़ोल्डर खोलें।
    4. पसंदीदा संपादक सॉफ़्टवेयर का उपयोग कर फ़ाइलों को संपादित करें और सहेजें। अंत में, संशोधित फ़ाइलों को स्क्रिप्ट फ़ोल्डर में रखें। आदेश निष्पादित करें:
      cd/opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptum-pipeline/scripts

      नोट:: इन फ़ाइलों को सीधे vim या नैनो Linux संपादक का उपयोग कर संपादित किया जा सकता है।
  10. अगला, आदेश पंक्ति के साथ fastq-डंप उपकरण कॉन्फ़िगर करें:
    vdb-config --इंटरैक्टिव
    नोट:: यह उदाहरण डेटा से अनुक्रमण फ़ाइलों को डाउनलोड करने के लिए अनुमति देता है।
    1. टैब कुंजी का उपयोग करके उपकरण पृष्ठ नेविगेट करें और वर्तमान फ़ोल्डर विकल्प का चयन करें. सहेजें विकल्प पर नेविगेट करें और ठीक पर क्लिक करें। उसके बाद, fastq-डंप उपकरण से बाहर निकलें
  11. पहले से प्रकाशित paper7 से पढ़ता है के डाउनलोड शुरू करें. प्रत्येक नमूने की SRA परिग्रहण संख्या आवश्यक है। SRA NCBI वेबसाइट (सामग्री की तालिका) से SRA नंबर प्राप्त करें।
    नोट:: सार्वजनिक डेटाबेस पर उपलब्ध RNA-Seq डेटा का विश्लेषण करने के लिए, चरण 1.12 का पालन करें। निजी RNA-seq डेटा का विश्लेषण करने के लिए, चरण 1.13 का पालन करें।
  12. विशिष्ट सार्वजनिक डेटा का विश्लेषण करें।
    1. जैव प्रौद्योगिकी सूचना के लिए राष्ट्रीय केंद्र (एनसीबीआई) वेबसाइट का उपयोग करें और एक विशिष्ट विषय के लिए खोजशब्दों की तलाश करें।
    2. जीनोम अनुभाग में BioProject के लिए परिणाम लिंक पर क्लिक करें।
    3. चुनें और एक विशिष्ट अध्ययन पर क्लिक करें। SRA Experiments पर क्लिक करें। एक नया पृष्ठ खुलता है, जो इस अध्ययन के लिए उपलब्ध सभी नमूनों को दिखाता है।
    4. परिग्रहण संख्या के ऊपर "भेजें:" पर क्लिक करें। "गंतव्य चुनें" विकल्प में फ़ाइल और स्वरूप विकल्प का चयन करें , RunInfo का चयन करें। सभी लाइब्रेरी जानकारी निर्यात करने के लिए "Create File" पर क्लिक करें।
    5. SraRunInfo.csv फ़ाइल को 1.5.4 चरण में निर्धारित होस्ट पथ में सहेजें और डाउनलोड स्क्रिप्ट निष्पादित करें:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd/home/transcriptome-pipeline/scripts
      बैश downloadAllLibraries.sh
  13. निजी और अप्रकाशित अनुक्रमण डेटा का विश्लेषण करें.
    1. अनुक्रमण डेटा को पठन नाम के फ़ोल्डर में व्यवस्थित करें.
      नोट:: पढ़ता है फ़ोल्डर के अंदर, प्रत्येक नमूने के लिए एक फ़ोल्डर बनाएँ। इन फ़ोल्डरों में प्रत्येक नमूने के लिए समान नाम होना आवश्यक है. इसकी निर्देशिका के अंदर प्रत्येक नमूने का डेटा जोड़ें. यदि यह एक युग्मित-अंत आरएनए-सेक है, तो प्रत्येक नमूना निर्देशिका में दो FASTQ फ़ाइलें होनी चाहिए, जिन्हें क्रमशः पैटर्न {sample}_1.fastq.gz और {sample}_2.fastq.gz, आगे और रिवर्स अनुक्रमों के अनुसार समाप्त होने वाले नाम प्रस्तुत करने चाहिए। उदाहरण के लिए, "Healthy_control" नामक एक नमूने में एक ही नाम के साथ एक निर्देशिका और Healthy_control_1.fastq.gz और Healthy_control_2.fastq.gz नाम की FASTQ फ़ाइलें होनी चाहिए. फिर भी, यदि लाइब्रेरी अनुक्रमण एक एकल-अंत रणनीति है, तो डाउनस्ट्रीम विश्लेषण के लिए केवल एक रीड फ़ाइल सहेजी जानी चाहिए। उदाहरण के लिए, एक ही नमूना, "स्वस्थ नियंत्रण", Healthy_control.fastq.gz नाम की एक अद्वितीय FASTQ फ़ाइल होना आवश्यक है।
    2. सभी नमूना नामों वाली एक फेनोटाइपिक फ़ाइल बनाएँ: पहले स्तंभ को 'नमूना' के रूप में और दूसरे स्तंभ को 'वर्ग' के रूप में नाम दें. नमूना नामों के साथ नमूना स्तंभ भरें, जो नमूना निर्देशिकाओं के लिए एक ही नाम होना चाहिए और प्रत्येक नमूने के फेनोटाइपिक समूह (जैसे, नियंत्रण या संक्रमित) के साथ वर्ग स्तंभ को भरें। अंत में, "metadata.tsv" नाम के साथ एक फ़ाइल को सहेजें और इसे /home/transcriptome-पाइपलाइन/data/directory पर भेजें। फेनोटाइपिक फ़ाइल के स्वरूप को समझने के लिए मौजूदा metadata.tsv देखें।
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-पाइपलाइन/data/metadata.tsv
    3. चरण 1.5.4 में परिभाषित होस्ट पथ निर्देशिका तक पहुँचें और नई संरचित निर्देशिकाओं के नमूने की प्रतिलिपि बनाएँ। अंत में, नमूने /opt/transferdata से पाइपलाइन डेटा निर्देशिका में ले जाएँ।
      cp -rf /opt/transferdata/reads/*
      /home/transcriptome-pipeline/data/reads/
  14. ध्यान दें कि सभी रीड्स फ़ोल्डर / होम / ट्रांसक्रिप्टोम-पाइपलाइन / डेटा / रीड्स में संग्रहीत हैं।

2. डेटा की गुणवत्ता नियंत्रण

नोट:: मूल्यांकन करें, ग्राफ़िक रूप से, अनुक्रमण में त्रुटियों की संभावना पढ़ता है। सभी तकनीकी अनुक्रमों को हटा दें, उदाहरण के लिए, एडेप्टर।

  1. FastQC उपकरण के साथ पुस्तकालयों की अनुक्रमण गुणवत्ता तक पहुँचें।
    1. गुणवत्ता रेखांकन उत्पन्न करने के लिए, fastqc प्रोग्राम चलाएँ। आदेश निष्पादित करें:
      बैश FastQC.sh
      नोट:: परिणाम /home/transcriptome-पाइपलाइन/परिणाम/FastQC फ़ोल्डर में सहेजा जाएगा। चूंकि अनुक्रम एडाप्टर का उपयोग लाइब्रेरी की तैयारी और अनुक्रमण के लिए किया जाता है, इसलिए कुछ मामलों में एडाप्टर अनुक्रम के टुकड़े मैपिंग प्रक्रिया में हस्तक्षेप कर सकते हैं।
  2. एडाप्टर अनुक्रम निकालें और निम्न-गुणवत्ता पढ़ता है। स्क्रिप्ट फ़ोल्डर तक पहुँचने और Trimmomatic उपकरण के लिए आदेश निष्पादित करें:
    cd/home/transcriptome-pipeline/scripts
    बैश trimmomatic.sh

    नोट:: अनुक्रमण फ़िल्टर के लिए उपयोग किए जाने वाले पैरामीटर हैं: अग्रणी कम गुणवत्ता या 3 आधारों (गुणवत्ता 3 से नीचे) (अग्रणी: 3) को निकालें; अनुगामी कम गुणवत्ता या 3 ठिकानों (गुणवत्ता 3 से नीचे) निकालें (TRAILING:3); एक 4-बेस चौड़ी स्लाइडिंग विंडो के साथ पढ़ने को स्कैन करें, जब प्रति आधार औसत गुणवत्ता 20 से नीचे गिर जाती है (स्लाइडिंगविंडो: 4: 20); और ड्रॉप 36 ठिकानों लंबे (MINLEN: 36) के नीचे पढ़ता है. इन पैरामीटर्स को Trimmomatic स्क्रिप्ट फ़ाइल को संपादित करके परिवर्तित किया जा सकता है।
    1. सुनिश्चित करें कि परिणाम निम्न फ़ोल्डर में सहेजे गए हैं: /home/transcriptum-पाइपलाइन/results/trimreads. आदेश निष्पादित करें:
      ls /home/transcriptome-पाइपलाइन/results/trimreads

3. मानचित्रण और नमूनों की एनोटेशन

नोट: अच्छी गुणवत्ता प्राप्त करने के बाद पढ़ता है, इन्हें संदर्भ जीनोम में मैप करने की आवश्यकता होती है। इस चरण के लिए, STAR मैपर उदाहरण नमूने मैप करने के लिए उपयोग किया गया था। स्टार मैपर उपकरण को पढ़ने और जीनोम मैपिंग को लोड करने और निष्पादित करने के लिए 32 जीबी रैम मेमोरी की आवश्यकता होती है। जिन उपयोगकर्ताओं के पास 32 GB RAM मेमोरी नहीं है, उनके लिए पहले से मैप किए गए रीड्स का उपयोग किया जा सकता है। ऐसे मामलों में चरण 3.3 पर कूदें या Bowtie2 मैपर का उपयोग करें। इस अनुभाग में STAR (सभी आंकड़ों में दिखाए गए परिणाम) और Bowtie2 (कम-मेमोरी आवश्यक मैपर) के लिए स्क्रिप्ट हैं।

  1. पहले मानचित्रण प्रक्रिया के लिए संदर्भ जीनोम को अनुक्रमित करें:
    1. आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
      cd/home/transcriptome-pipeline/scripts
    2. STAR मैपर के लिए, निष्पादित करें:
      बैश indexGenome.sh
    3. Bowtie मैपर के लिए, निष्पादित करें:
      बैश indexGenomeBowtie2.sh
  2. संदर्भ जीनोम (GRCh38 संस्करण) के लिए फ़िल्टर किए गए पठनों (चरण 2 से प्राप्त) को मैप करने के लिए निम्न आदेश निष्पादित करें। दोनों स्टार और Bowtie2 मैपर डिफ़ॉल्ट पैरामीटर का उपयोग कर प्रदर्शन कर रहे हैं।
    1. STAR मैपर के लिए, निष्पादित करें:
      बैश mapSTAR.sh
    2. Bowtie2 मैपर के लिए, निष्पादित करें:
      बैश mapBowtie2.sh
      नोट:: अंतिम परिणाम बाइनरी संरेखण मानचित्र (BAM) फ़ाइलें हैं प्रत्येक नमूने के लिए /home/transcriptome-पाइपलाइन/results/mapreads में संग्रहीत।
  3. प्रत्येक जीन के लिए कच्चे गिनती प्राप्त करने के लिए FeatureCounts उपकरण का उपयोग कर मैप किए गए पठनों को एनोटेट करें. स्क्रिप्ट चलाएँ जो पढ़ता है एनोटेट करें।
    नोट:: FeatureCounts उपकरण जीनोमिक सुविधाओं के लिए मैप किए गए अनुक्रमण पढ़ता है असाइन करने के लिए जिम्मेदार है। जीनोम एनोटेशन के सबसे महत्वपूर्ण पहलुओं को जैविक प्रश्न के बाद बदला जा सकता है, में शामिल हैं, आइसोफॉर्म का पता लगाना, एकाधिक मैप किए गए रीड्स और एक्सोन-एक्सोन जंक्शन, पैरामीटर के अनुरूप, GTF.attrType = "gene_name" जीन के लिए या मेटा-फीचर स्तर के लिए पैरामीटर निर्दिष्ट नहीं करते हैं, क्रमशः मूलतः ओवरलैप = TRUE, और juncCounts = TRUE की अनुमति देते हैं।
    1. आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
      cd/home/transcriptome-pipeline/scripts
    2. प्रति जीन कच्चे गिनती प्राप्त करने के लिए मैप किए गए रीड्स को एनोटेट करने के लिए, कमांड लाइन निष्पादित करें:
      Rscript एनोटेशन. R
      नोट:: एनोटेशन प्रक्रिया के लिए उपयोग किए जाने वाले पैरामीटर थे: जीन छोटा नाम वापस करें (GTF.attrType = "gene_name"); एकाधिक ओवरलैप की अनुमति दें (अनुमति देंMultiOverlap = TRUE); और इंगित करें कि लायब्रेरी युग्मित-अंत है (isPairedEnd = TRUE)। एकल-अंत रणनीति के लिए, पैरामीटर isPairedEnd = FALSE का उपयोग करें। परिणाम /home/transcriptome-पाइपलाइन/countreads फ़ोल्डर में सहेजे जाएँगे.
  4. जीन अभिव्यक्ति को सामान्य करें।
    नोट: जीन अभिव्यक्ति को सामान्य बनाना परिणामों के बीच परिणामों की तुलना करने के लिए आवश्यक है (उदाहरण के लिए, स्वस्थ और संक्रमित नमूने)। सह-अभिव्यक्ति और आण्विक डिग्री के विश्लेषण को करने के लिए सामान्यीकरण की भी आवश्यकता होती है।
    1. आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
      cd/home/transcriptome-pipeline/scripts
    2. जीन अभिव्यक्ति को सामान्य करें। इसके लिए, आदेश पंक्ति निष्पादित करें:
      Rscript नमूने normalizes. R
      नोट:: इस प्रयोग में, कच्चे गिनती व्यंजक, M-मान (TMM) और प्रति मिलियन (CPM) विधियों की छंटनी माध्य का उपयोग कर सामान्यीकृत किए गए थे। इस चरण का उद्देश्य तकनीकी प्रभाव के कारण जीन अभिव्यक्ति में अंतर को दूर करना है, पुस्तकालय आकार सामान्यीकरण करके। परिणाम /home/transcriptome-पाइपलाइन/countreads फ़ोल्डर में सहेजे जाएँगे.

4. विभेदक रूप से व्यक्त जीन और सह व्यक्त जीन

  1. ओपन-सोर्स EdgeR पैकेज का उपयोग करके विभेदक रूप से व्यक्त जीन की पहचान करें। इसमें उन जीनों को ढूंढना शामिल है जिनकी अभिव्यक्ति नियंत्रण की तुलना में अधिक या कम है।
    1. आदेश पंक्ति का उपयोग कर स्क्रिप्ट फ़ोल्डर तक पहुँचें:
      cd/home/transcriptome-pipeline/scripts
    2. विभेदक रूप से व्यक्त जीन की पहचान करने के लिए, कमांड लाइन का उपयोग करके DEG_edgeR आर स्क्रिप्ट निष्पादित करें:
      Rscript DEG_edgeR.R
      नोट:: विभेदक रूप से व्यक्त जीन वाले परिणाम /home/transcriptome-पाइपलाइन/results/degs फ़ोल्डर में सहेजे जाएँगे. डेटा को एक व्यक्तिगत कंप्यूटर पर स्थानांतरित किया जा सकता है।
  2. csblusp/transcriptum कंटेनर से डेटा डाउनलोड करें।
    1. संसाधित डेटा /home/transcriptome-पाइपलाइन से /opt/transferdata फ़ोल्डर (स्थानीय कंप्यूटर) में स्थानांतरित करें.
    2. आदेश पंक्ति को निष्पादित करके स्थानीय कंप्यूटर पर सभी फ़ाइलों की प्रतिलिपि बनाएँ:
      cp -rf /home/transcriptum-pipeline/results/opt/transferdata/pipeline
      cp -rf /home/transcriptum-pipeline/data/opt/transferdata/pipeline

      नोट:: अब, सभी परिणाम, डेटासेट, और डेटा होस्ट पथ में डाउनलोड करने के लिए उपलब्ध हैं यह सुनिश्चित करने के लिए स्थानीय कंप्यूटर पर जाएँ।
  3. सह-अभिव्यक्ति मॉड्यूल की पहचान करें।
    1. सह अभिव्यक्ति मॉड्यूल पहचान उपकरण (CEMiTool) वेबसाइट तक पहुँच (की तालिका
      सामग्री
      )। यह उपकरण उपयोगकर्ताओं द्वारा प्रदान किए गए अभिव्यक्ति डेटासेट से सह-अभिव्यक्ति मॉड्यूल की पहचान करता है। मुख्य पृष्ठ पर, ऊपर दाईं ओर चलाएँ पर क्लिक करें। यह अभिव्यक्ति फ़ाइल अपलोड करने के लिए एक नया पृष्ठ खोलेगा।
    2. अभिव्यक्ति फ़ाइल अनुभाग के नीचे फ़ाइल चुनें पर क्लिक करें और होस्ट पथ से सामान्यीकृत जीन अभिव्यक्ति मैट्रिक्स 'tmm_expression.tsv' अपलोड करें।
      नोट: चरण 4.4. गैर-अनिवार्य है।
  4. सह-अभिव्यक्ति मॉड्यूल के जैविक अर्थ का अन्वेषण करें।
    1. नमूना फेनोटाइप्स अनुभाग में फ़ाइल चुनें पर क्लिक करें और डाउनलोड डेटा चरण 4.2.2 से नमूना फेनोटाइप metadata_cemitool.tsv के साथ फ़ाइल अपलोड करें। एक जीन सेट संवर्धन विश्लेषण (GSEA) करने के लिए।
    2. जीन इंटरैक्शन (cemitool-interactions.tsv) के साथ कोई फ़ाइल अपलोड करने के लिए जीन इंटरैक्शन अनुभाग में फ़ाइल चुनें दबाएँ. WebCEMiTool द्वारा एक उदाहरण के रूप में प्रदान की गई जीन इंटरैक्शन की फ़ाइल का उपयोग करना संभव है। इंटरैक्शन प्रोटीन-प्रोटीन इंटरैक्शन, प्रतिलेखन कारक और उनके ट्रांसक्रिप्टेड जीन, या चयापचय मार्ग हो सकते हैं। यह चरण प्रत्येक सह-अभिव्यक्ति मॉड्यूल के लिए एक इंटरैक्शन नेटवर्क उत्पन्न करता है।
    3. जीन मैट्रिक्स ट्रांसपोज़्ड (GMT) प्रारूप फ़ाइल में कार्यात्मक रूप से संबंधित जीन की एक सूची अपलोड करने के लिए जीन सेट अनुभाग में फ़ाइल चुनें अनुभाग पर क्लिक करें। जीन सेट फ़ाइल उपकरण को प्रत्येक सह-अभिव्यक्ति मॉड्यूल के लिए संवर्धन विश्लेषण करने में सक्षम बनाती है, यानी, एक अति-प्रतिनिधित्व विश्लेषण (ओआरए)।
      नोट: जीन की यह सूची मार्ग, गो शर्तें, या miRNA-लक्ष्य जीन को शामिल कर सकती है। शोधकर्ता इस विश्लेषण के लिए जीन सेट के रूप में रक्त प्रतिलेखन मॉड्यूल (बीटीएम) का उपयोग कर सकता है। BTM फ़ाइल (BTM_for_GSEA.gmt).
  5. सह-अभिव्यक्ति विश्लेषण करने के लिए पैरामीटर सेट करें और इसके परिणाम प्राप्त करें।
    1. अगला पैरामीटर अनुभाग का विस्तार करें, डिफ़ॉल्ट पैरामीटर प्रदर्शित करने के लिए धन चिह्न पर क्लिक करके। यदि आवश्यक हो, तो उन्हें बदलें। VST लागू करें बॉक्स को चेक करें।
    2. ई-मेल को ईमेल के रूप में परिणाम प्राप्त करने के लिए ई-मेल अनुभाग में लिखें. यह चरण वैकल्पिक है।
    3. CEMiTool चलाएँ बटन दबाएँ
    4. शीर्ष दाईं ओर डाउनलोड पूर्ण रिपोर्ट पर क्लिक करके पूर्ण विश्लेषण रिपोर्ट डाउनलोड करें. यह cemitool_results.zip एक संपीड़ित फ़ाइल डाउनलोड करेगा।
    5. WinRAR के साथ cemitool_results.zip की सामग्री निकालें।
      नोट:: निकाले गए सामग्री के साथ फ़ोल्डर विश्लेषण और उनके स्थापित पैरामीटर के सभी परिणामों के साथ कई फ़ाइलें शामिल हैं।

5. नमूनों की गड़बड़ी की आणविक डिग्री का निर्धारण

  1. आण्विक डिग्री ऑफ डिस्टर्बेंस (एमडीपी) वेब संस्करण।
    1. MDP चलाने के लिए, MDP वेबसाइट (सामग्री की तालिका) तक पहुँचें। एमडीपी संदर्भ से प्रत्येक नमूने की आणविक दूरी की गणना करता है। रन बटन पर क्लिक करें।
    2. फ़ाइल चुनें लिंक पर, अभिव्यक्ति फ़ाइल tmm_expression.tsv अपलोड करें। उसके बाद, डाउनलोड डेटा चरण 4.2.2 से फेनोटाइपिक डेटा फ़ाइल metadata.tsv अपलोड करें। रोग से जुड़े मार्गों के गड़बड़ी स्कोर की गणना करने के लिए GMT प्रारूप में एक Pathway एनोटेशन फ़ाइल सबमिट करना भी संभव है।
    3. एक बार डेटा अपलोड होने के बाद, उस वर्ग स्तंभ को परिभाषित करें जिसमें MDP द्वारा उपयोग की जाने वाली फेनोटाइपिक जानकारी होती है। उसके बाद, नियंत्रण वर्ग से संगत लेबल का चयन करके नियंत्रण वर्ग निर्धारित करें।
      नोट:: कुछ वैकल्पिक पैरामीटर ्स हैं जो प्रभावित करेंगे कि नमूना स्कोर की गणना कैसे की जाती है. यदि आवश्यक हो, तो उपयोगकर्ता सांख्यिकी औसत विधि, मानक विचलन, और परेशान जीन के शीर्ष प्रतिशत को बदलने में सक्षम है।
    4. उसके बाद, चलाएँ MDP बटन दबाएँ और MDP परिणाम दिखाए जाएँगे। उपयोगकर्ता प्रत्येक प्लॉट में डाउनलोड प्लॉट पर क्लिक करके आंकड़े डाउनलोड कर सकता है, साथ ही साथ डाउनलोड एमडीपी स्कोर फ़ाइल बटन पर एमडीपी स्कोर भी कर सकता है।
      नोट:: फ़ाइलों को सबमिट करने के तरीके के बारे में प्रश्नों के मामले में या MDP कैसे काम करता है, बस ट्यूटोरियल और वेबपृष्ठों के बारे में के माध्यम से जाएँ।

6. कार्यात्मक संवर्धन विश्लेषण

  1. डाउन-विनियमित डीईजी की एक सूची बनाएं और अप-विनियमित डीईजी की दूसरी। जीन नाम एंट्रेज़ जीन प्रतीकों के अनुसार होना चाहिए। सूची के प्रत्येक जीन को एक पंक्ति पर रखा जाना चाहिए।
  2. जीन सूचियों को txt या tsv स्वरूप में सहेजें.
  3. कार्यात्मक विश्लेषण करने के लिए Enrichr वेबसाइट (सामग्री की तालिका) तक पहुँचें।
  4. फ़ाइल चुनें पर क्लिक करके जीन की सूची का चयन करें. DEGs सूची में से एक का चयन करें और सबमिट बटन दबाएँ
  5. ओआरए दृष्टिकोण के साथ कार्यात्मक संवर्धन विश्लेषण करने के लिए वेबपेज के शीर्ष पर Pathways पर क्लिक करें।
  6. कोई पाथवे डेटाबेस चुनें. "Reactome 2016" Pathway Database का उपयोग मोटे तौर पर मानव डेटा के जैविक अर्थ को प्राप्त करने के लिए किया जाता है।
  7. पाथवे डेटाबेस के नाम पर फिर से क्लिक करें। पट्टी ग्राफ़ का चयन करें और जाँचें कि क्या यह p-मान रैंकिंग द्वारा सॉर्ट किया गया है. यदि नहीं, तो बार ग्राफ़ पर तब तक क्लिक करें जब तक कि इसे पी-मान द्वारा सॉर्ट नहीं किया जाता है। इस बार ग्राफ में पी-मानों के अनुसार शीर्ष 10 मार्ग शामिल हैं।
  8. कॉन्फ़िगरेशन बटन दबाएं और नीचे-विनियमित जीन विश्लेषण के लिए अप-विनियमित जीन विश्लेषण या नीले रंग के लिए लाल रंग का चयन करें। svg, png, और jpg पर क्लिक करके कई स्वरूपों में बार ग्राफ़ सहेजें।
  9. तालिका का चयन करें और एक txt फ़ाइल में कार्यात्मक संवर्धन विश्लेषण परिणाम प्राप्त करने के लिए बार ग्राफ के नीचे बाईं ओर तालिका में निर्यात प्रविष्टियों पर क्लिक करें।
    नोट: इस कार्यात्मक संवर्धन परिणाम फ़ाइल में प्रत्येक पंक्ति में एक मार्ग का नाम, प्रस्तुत डीईजी सूची और मार्ग के बीच ओवरलैप किए गए जीन की संख्या, पी-मूल्य, समायोजित पी-मूल्य, बाधाओं का अनुपात, संयुक्त स्कोर, और डीईजी सूची में मौजूद जीन का जीन प्रतीक शामिल है जो मार्ग में भाग लेते हैं।
  10. अन्य DEGs सूची के साथ एक ही चरण ों को दोहराएँ।
    नोट: डाउन-विनियमित डीईजी के साथ विश्लेषण डाउन-विनियमित जीन के लिए समृद्ध मार्ग प्रदान करता है और अप-विनियमित जीन के साथ विश्लेषण अप-विनियमित जीन के लिए समृद्ध मार्ग प्रदान करता है।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ट्रांसक्रिप्टोम विश्लेषण के लिए कंप्यूटिंग वातावरण बनाया गया था और डॉकर प्लेटफ़ॉर्म पर कॉन्फ़िगर किया गया था। यह दृष्टिकोण शुरुआती लिनक्स उपयोगकर्ताओं को एक प्राथमिकता प्रबंधन ज्ञान के बिना लिनक्स टर्मिनल सिस्टम का उपयोग करने की अनुमति देता है। डॉकर प्लेटफ़ॉर्म होस्ट OS के संसाधनों का उपयोग एक सेवा कंटेनर बनाने के लिए करता है जिसमें विशिष्ट उपयोगकर्ताओं के उपकरण (चित्रा 1B) शामिल हैं। लिनक्स ओएस उबंटू 20.04 वितरण पर आधारित एक कंटेनर बनाया गया था और इसे पूरी तरह से ट्रांसक्रिप्टोमिक विश्लेषण के लिए कॉन्फ़िगर किया गया था, जो कमांड-लाइन टर्मिनल के माध्यम से सुलभ है। इस कंटेनर में, डेटासेट और स्क्रिप्ट के लिए एक पूर्वनिर्धारित फ़ोल्डर संरचना है जो सभी पाइपलाइन विश्लेषणों (चित्रा 1 C) के लिए आवश्यक है। हमारे शोध समूह 7 द्वारा प्रकाशित एक अध्ययन का उपयोग विश्लेषण के लिए किया गया था, और इसमें स्वस्थ व्यक्तियों से 20 नमूने और CHIKV तीव्र रूप से संक्रमित व्यक्तियों (चित्रा 1 डी) से 39 नमूने शामिल थे।

कुल आरएनए अनुक्रमण की प्रक्रिया पढ़ने की त्रुटियों को उत्पन्न कर सकती है, जो दो या दो से अधिक टेपों के साथ एक क्लस्टर या अभिकर्मकों की कमी के कारण हो सकती है। अनुक्रमण प्लेटफ़ॉर्म "FASTQ" फ़ाइलों का एक सेट लौटाते हैं जिसमें अनुक्रम (पढ़ा जाता है) और प्रत्येक न्यूक्लियोटाइड बेस (चित्रा 2A) के लिए संबंधित गुणवत्ता होती है। Phred गुणवत्ता पैमाने प्रत्येक आधार (चित्रा 2B) के एक गलत पढ़ने की संभावना को इंगित करता है। कम गुणवत्ता वाले पढ़ने से एक पूर्वाग्रह या अनुचित जीन अभिव्यक्ति उत्पन्न हो सकती है, जो डाउनस्ट्रीम विश्लेषण के लिए क्रमिक त्रुटियों को ट्रिगर करती है। ट्रिमोमैटिक जैसे उपकरण नमूनों से कम गुणवत्ता वाले पढ़ने की पहचान करने और हटाने और मैपिंग पढ़ने की संभावना बढ़ाने के लिए विकसित किए गए थे (चित्रा 2 सी, डी)।

मानचित्रण मॉड्यूल को स्टार संरेखक और GRCh38 मानव होस्ट के साथ संदर्भ जीनोम के रूप में पूर्व-कॉन्फ़िगर किया गया था। इस चरण में, पिछले चरण से पुनर्प्राप्त उच्च-गुणवत्ता वाले रीड्स का उपयोग मानव संदर्भ जीनोम (चित्रा 3 ए) के खिलाफ संरेखित करने के लिए इनपुट के रूप में किया जाता है। STAR aligner BAM प्रारूप फ़ाइल में एक संदर्भ जीनोम के लिए मैप किए गए रीड्स का एक संरेखण आउटपुट करता है। इस संरेखण के आधार पर, FeatureCounts उपकरण जीटीएफ फ़ाइल प्रारूप (चित्रा 3 बी) में मानव होस्ट के संदर्भ एनोटेशन का उपयोग करके उन संरेखित पठनों की सुविधाओं (जीन) की एनोटेशन निष्पादित करता है। अंत में, एक पंक्ति के रूप में प्रत्येक जीन नाम के साथ अभिव्यक्ति मैट्रिक्स, और एक कॉलम के रूप में प्रत्येक नमूना उत्पन्न होता है (चित्रा 3 सी)। नमूना नाम और संबंधित नमूना समूहों वाली एक अतिरिक्त मेटाडेटा फ़ाइल को भी आगे डाउनस्ट्रीम विश्लेषण के लिए प्रदान करने की आवश्यकता है। जीन अभिव्यक्ति मैट्रिक्स नमूनों के बीच प्रत्येक जीन के लिए मैप की गई गणनाओं की संख्या का प्रतिनिधित्व करता है, जिसका उपयोग डीईजी की पहचान करने के लिए एजआर इनपुट के रूप में किया जा सकता है। इसके अलावा, इस जीन अभिव्यक्ति मैट्रिक्स को तकनीकी परिवर्तनशीलता को हटाने और नमूनों के बीच कुल पुस्तकालय आकार में व्यक्त जीन के अनुपात पर विचार करके आरएनए-सेक माप को सही करने के लिए टीएमएम और सीपीएम का उपयोग करके सामान्यीकृत किया गया था। इस मैट्रिक्स को आगे सह-अभिव्यक्ति और एमडीपी विश्लेषण के लिए इनपुट के रूप में उपयोग किया गया था।

CEMiTool सह-अभिव्यक्ति मॉड्यूल 12 की पहचान करता है और विश्लेषण करता है। जीन जो एक ही मॉड्यूल में हैं, सह-व्यक्त किए जाते हैं, जिसका अर्थ है कि वे डेटासेट के नमूनों में अभिव्यक्ति के समान पैटर्न प्रदर्शित करते हैं। यह उपकरण प्रत्येक पहचाने गए मॉड्यूल के जैविक महत्व की खोज की भी अनुमति देता है। इसके लिए, यह तीन वैकल्पिक विश्लेषण प्रदान करता है - जीएसईए द्वारा कार्यात्मक संवर्धन विश्लेषण, ओवर रिप्रेजेंटेशन एनालिसिस (ओआरए) द्वारा कार्यात्मक संवर्धन विश्लेषण, और नेटवर्क विश्लेषण। जीएसईए द्वारा कार्यात्मक संवर्धन विश्लेषण प्रत्येक फेनोटाइप (चित्रा 4 ए) पर प्रत्येक मॉड्यूल की जीन अभिव्यक्ति के बारे में जानकारी प्रदान करता है। इसके अनुसार, यह मॉड्यूल की पहचान को सक्षम बनाता है जो प्रत्येक फेनोटाइप पर दमित या प्रेरित होते हैं। ओआरए विश्लेषण समायोजित पी-मूल्यों द्वारा क्रमबद्ध प्रत्येक मॉड्यूल के शीर्ष 10 महत्वपूर्ण रूप से समृद्ध जैविक कार्यों को दर्शाता है। बिगड़ा हुआ जैविक प्रक्रियाओं की पहचान करने के लिए जीएसईए और ओआरए परिणामों को संयोजित करना संभव है और यदि उन्हें ब्याज के फेनोटाइप द्वारा दमित या प्रेरित किया जा रहा है। नेटवर्क विश्लेषण प्रत्येक मॉड्यूल (चित्रा 4A) का एक इंटरैक्टोम प्रदान करते हैं। यह कैसे प्रत्येक मॉड्यूल के जीन बातचीत के दृश्य सक्षम बनाता है. इसके अलावा, नेटवर्क विश्लेषण सबसे जुड़े जीन, हब के बारे में जानकारी प्रदान करता है, जिन्हें नेटवर्क में उनके नामों से पहचाना जाता है। नोड्स का आकार कनेक्टिविटी की डिग्री का प्रतिनिधित्व करता है।

डीईजी की पहचान करने के लिए, एक इन-हाउस स्क्रिप्ट को एकल-वे और संक्षिप्त कमांड लाइन में एंड-टू-एंड डिफरेंशियल विश्लेषण चलाने के लिए विकसित किया गया था। स्क्रिप्ट एक DEG विश्लेषण करने के लिए आवश्यक सभी चरणों को निष्पादित करता है, एक मेटाडेटा फ़ाइल में उपयोगकर्ता द्वारा प्रदान किए गए विभिन्न नमूना समूहों की तुलना करता है। इसके अलावा, डीईजी परिणामों को डाउन-विनियमित और अप-विनियमित जीन की अलग-अलग सूचियों में संग्रहीत किया जाता है, और फिर बायोकंडक्टर से एन्हांस्डवोल्केनो आर पैकेज का उपयोग करके एक प्रकाशन-तैयार आंकड़े (चित्रा 4 बी) में संकलित किया जाता है।

एमडीपी उपकरण द्वारा किए गए गड़बड़ी की आणविक डिग्री का विश्लेषण हमें स्वस्थ और संक्रमित व्यक्तियों से परेशान नमूनों की पहचान करने की अनुमति देता है11। प्रत्येक CHIKV-संक्रमित नमूने के लिए सभी व्यक्त जीनों पर विचार करते हुए और संदर्भ समूह (चित्रा 5A) के रूप में स्वस्थ नमूनों पर विचार करते हुए गड़बड़ी स्कोर की गणना की जाती है। एमडीपी उन नमूनों से सबसे अधिक परेशान जीन के केवल शीर्ष 25% का उपयोग करके विश्लेषण भी करता है (चित्रा 5 बी)। नमूने आनुवंशिक पृष्ठभूमि, उम्र, लिंग, या अन्य पूर्व बीमारियों को देखते हुए एक महान परिवर्तनशीलता पेश कर सकते हैं। ये कारक ट्रांसक्रिप्टोम प्रोफ़ाइल को बदल सकते हैं। इसके आधार पर, एमडीपी से पता चलता है कि कौन से नमूने संभावित जैविक आउटलेटर हैं जो उन्हें हटाने और डाउनस्ट्रीम परिणामों में सुधार करने के लिए हैं (चित्रा 5 ए, बी)।

ओआरए द्वारा एक कार्यात्मक संवर्धन विश्लेषण डीईजी के जैविक अर्थ की पहचान करने के लिए एनरिचर का उपयोग करके किया जा सकता है। डाउन-विनियमित जीन की सूची के आधार पर प्रदान किए गए परिणाम अध्ययन किए गए फेनोटाइप में दमित जैविक प्रक्रियाओं को इंगित करते हैं, जबकि अप-विनियमित जीन की सूची के आधार पर प्रदान किए गए परिणाम जैविक प्रक्रियाओं को प्रस्तुत करते हैं जो ब्याज के फेनोटाइप में प्रेरित होते हैं। एनरिचर द्वारा उत्पन्न बार ग्राफ में दिखाई गई जैविक प्रक्रियाएं पी-वैल्यू रैंकिंग (चित्रा 6) के आधार पर शीर्ष 10 समृद्ध जीन सेट हैं।

Figure 1
चित्रा 1: पर्यावरण डॉकर और उदाहरण अध्ययन. (A) डॉकर प्लेटफ़ॉर्म ट्रांसक्रिप्टोम विश्लेषण के लिए उपकरण वाले लिनक्स सिस्टम के लिए "कंटेनर" बनाने के लिए OS होस्ट संसाधनों का उपयोग करता है। (बी) डॉकर कंटेनर पाइपलाइन स्क्रिप्ट निष्पादित करने के लिए एक लिनक्स सिस्टम का अनुकरण करता है। (सी) ट्रांसक्रिप्टोम पाइपलाइन फ़ोल्डर संरचना को विश्लेषण के लिए डेटासेट और स्क्रिप्ट स्टोर करने के लिए बनाया और व्यवस्थित किया गया था। (डी) हमारे समूह के अध्ययन का उपयोग ट्रांसक्रिप्टोम विश्लेषण के उदाहरण के रूप में किया गया था। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 2
चित्र 2: अनुक्रमण का गुणवत्ता नियंत्रण। (A) FASTQ प्रारूप फ़ाइल का उपयोग अनुक्रम और न्यूक्लियोटाइड आधार गुणवत्ता का प्रतिनिधित्व करने के लिए किया जाता है। (बी) फ्रेड स्कोर समीकरण, जहां हर 10 एक लॉग संभावना गलत तरीके से पढ़े गए आधार को बढ़ाता है। (सी) और (डी) बॉक्सप्लॉट क्रमशः ट्रिमोमैटिक निष्पादन से पहले और बाद में प्रत्येक न्यूक्लियोटाइड आधार के गुणवत्ता वितरण का प्रतिनिधित्व करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 3
चित्रा 3: अनुक्रम से जीन गिनती अभिव्यक्ति के लिए मानचित्रण और एनोटेशन प्रक्रिया। () मैपिंग में जीनोमिक स्थानीयकरण की पहचान करने के लिए ट्रांसक्रिप्ट से अनुक्रम और जीनोम से अनुक्रम को संरेखित करना शामिल है। (बी) संदर्भ जीनोम के लिए मैप किए गए रीड्स को ओवरलैपिंग के उनके जीनोमिक स्थानीयकरण के आधार पर एनोटेट किया जाता है। (C) मैपिंग फ़ाइल उपकरणों जैसे featureCounts के आधार पर, जीन अभिव्यक्ति को संक्षेप में प्रस्तुत किया जाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 4
चित्रा 4: सह-व्यक्त जीन नेटवर्क और डीईजी का सांख्यिकीय विश्लेषण() जीन अभिव्यक्ति और मॉड्यूल जीन से प्रोटीन-प्रोटीन इंटरैक्शन नेटवर्क के आधार पर सह-अभिव्यक्ति के मॉड्यूल। (बी) CHIKV तीव्र रूप से संक्रमित और स्वस्थ व्यक्तियों का सांख्यिकीय विश्लेषण, और लाल (पी-मूल्य और लॉग 2 एफ सी मानदंड), बैंगनी (केवल पी-मूल्य), हरा (केवल लॉग 2 एफ सी), और ग्रे (कोई महत्व नहीं) में विभेदक जीन अभिव्यक्ति। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 5
चित्रा 5: CHIKV की आणविक डिग्री (MDP) तीव्र रूप से संक्रमित और स्वस्थ व्यक्तियों की. (A) ट्रांसक्रिप्टोम से सभी व्यक्त जीनों का उपयोग करके प्रत्येक नमूने के लिए MDP स्कोर। (बी) प्रत्येक नमूने के लिए एमडीपी स्कोर केवल सबसे अधिक परेशान जीन के शीर्ष 25% का उपयोग करके। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 6
चित्रा 6: DEGs के लिए कार्यात्मक विश्लेषण (A) अप-विनियमित और (B) डाउन-विनियमित जीन को जैविक मार्गों या प्रतिनिधि जीन सेटों का आकलन करने के लिए एनरिचर वेबसाइट टूल में प्रस्तुत किया गया था। प्रत्येक मार्ग के लिए पी-मानों की गणना की गई थी और ग्राफिक में केवल महत्वपूर्ण अंतर दिखाए गए थे। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

अनुक्रमण पुस्तकालयों की तैयारी जैविक प्रश्नों का सर्वोत्तम संभव तरीके से उत्तर देने की दिशा में एक महत्वपूर्ण कदम है। अध्ययन की रुचि के टेपों का प्रकार मार्गदर्शन करेगा कि किस प्रकार के अनुक्रमण पुस्तकालय को चुना जाएगा और जैव सूचना विज्ञान विश्लेषण को चलाया जाएगा। उदाहरण के लिए, एक रोगज़नक़ और मेजबान इंटरैक्शन के अनुक्रमण से, अनुक्रमण के प्रकार के अनुसार, मेजबान टेपों से या सिर्फ दोनों से अनुक्रमों की पहचान करना संभव है।

अगली पीढ़ी के अनुक्रमण उपकरण, उदाहरण के लिए, इलुमिना प्लेटफ़ॉर्म, अनुक्रमण गुणवत्ता स्कोर को मापता है, जो इस संभावना के लिए खड़ा है कि आधार को गलत तरीके से कहा जाता है। डाउनस्ट्रीम विश्लेषण कम गुणवत्ता वाले अनुक्रमों के प्रति बहुत संवेदनशील होते हैं और अंडर-रीड या गलत पढ़े गए जीन अभिव्यक्ति का कारण बनते हैं। सही विश्लेषण और व्याख्या करने में एक और बाधा एडाप्टर अनुक्रम हैं। एडाप्टर अनुक्रम लाइब्रेरी की तैयारी और अनुक्रमण में मदद करते हैं, और अधिकांश मामलों में, एडाप्टर भी अनुक्रमित होते हैं। हाल के अध्ययनों ने पहचान की है कि अंतिम परिणामों पर मानचित्रण उपकरण का प्रभाव न्यूनतम है13। हालांकि, रोगज़नक़-मेजबान अध्ययनों में, बहु-मैप किए गए लोकस अनुक्रमों की समस्या को कम करने के लिए विभिन्न थ्रेसहोल्ड का परीक्षण करते समय मैपिंग प्रक्रिया थोड़ा बेहतर परिणाम उत्पन्न कर सकती है।

विभेदक जीन अभिव्यक्ति परिणामों को एक निश्चित सावधानी के साथ व्याख्या की जानी चाहिए, खासकर जब प्रति समूह नमूनों की संख्या बहुत कम होती है और नमूने अलग-अलग assays से आते हैं और डीईजी परिणाम के बैच प्रभावों से हस्तक्षेप करते हैं। ये परिणाम कई कारकों के प्रति संवेदनशील हैं: (i) लागू किए गए डेटा फ़िल्टरिंग, जैसे कि कम व्यक्त जीन को हटाना और बनाए रखने के लिए नमूनों की संख्या; (ii) अध्ययन डिजाइन, केवल नमूना समूहों या प्रत्येक संक्रमित रोगी बनाम सभी नियंत्रण रोगियों के बीच तुलना करने के लिए, जैसा कि CHIKV अध्ययन 7 में दिखाया गया है; और (iii) डीईजी की पहचान करने के लिए उपयोग की जाने वाली सांख्यिकीय विधि। यहां, हम 0.05 के थ्रेशोल्ड पी-मान को मानते हुए डीईजी की पहचान करने के लिए EdgeR के साथ एक बुनियादी उदाहरण का वर्णन करते हैं। साहित्य में यह भी जाना जाता है कि, अन्य बेंचमार्क विधियों की तुलना में, EdgeR में DEGs14 की पहचान करने में परिवर्तनशीलता की एक बड़ी श्रृंखला हो सकती है। कोई भी इस तरह के विभिन्न तरीकों के बीच व्यापार-बंद पर विचार कर सकता है और उपलब्ध प्रतिकृतियों की संख्या और प्रयोगात्मक डिजाइन 14 की जटिलता को ध्यान में रख सकता है।

CEMiTool सह-अभिव्यक्ति मॉड्यूल विश्लेषण 12 निष्पादित करता है। यह उपकरण Bioconductor रिपॉजिटरी पर आर पैकेज के माध्यम से उपलब्ध है और यह webCEMiTool के माध्यम से एक उपयोगकर्ता के अनुकूल संस्करण में भी उपलब्ध है; उत्तरार्द्ध इस वर्तमान प्रोटोकॉल में उपयोग किया जाने वाला संस्करण है। यह WGCNA15 के संबंध में एक वैकल्पिक सॉफ्टवेयर है जो उत्तरार्द्ध 16 की तुलना में कई लाभ प्रस्तुत करता है, जिसमें यह तथ्य भी शामिल है कि यह अधिक उपयोगकर्ता के अनुकूल है17। इसके अलावा, इस उपकरण में जीन को फ़िल्टर करने के लिए एक स्वचालित विधि है, जबकि WGCNA में उपयोगकर्ता को WGCNA उपयोग से पहले जीन को फ़िल्टर करना चाहिए। इसके अलावा, इस उपकरण में डिफ़ॉल्ट पैरामीटर स्थापित हैं, जबकि WGCNA में उपयोगकर्ता को मैन्युअल रूप से पैरामीटर विश्लेषण का चयन करना चाहिए। मैन्युअल पैरामीटर चयन reproducibility impairs; इसलिए, स्वचालित पैरामीटर चयन बेहतर reproducibility की गारंटी देता है।

कुछ मामलों में, CEMiTool एक उपयुक्त नरम-थ्रेशोल्ड खोजने में सक्षम नहीं है, जिसे β मान भी कहा जाता है। इस मामले में, उपयोगकर्ता को यह जांचना चाहिए कि क्या आरएनए-सेक डेटा मजबूत माध्य-प्रसरण निर्भरता प्रस्तुत करता है। यदि माध्य प्रसरण के साथ एक मजबूत रैखिक संबंध प्रदर्शित करता है (सभी जीनों पर विचार करते हुए), तो उपयोगकर्ता को ट्रांसक्रिप्टोमिक डेटा की माध्य-प्रसरण निर्भरता को हटाने के लिए "लागू करें वीएसटी" पैरामीटर की जांच करने वाले विश्लेषणों को फिर से चलाना होगा। यह जांचना हमेशा महत्वपूर्ण होता है कि डेटा में एक मजबूत माध्य-विचरण निर्भरता है या नहीं और जब यह मौजूद होता है तो इसे हटा दें।

CEMiTool का उपयोग व्यापक रूप से सह-अभिव्यक्ति मॉड्यूल के जैविक अर्थ की पहचान करने और उनका पता लगाने के लिए किया गया है। एक CHIKV तीव्र संक्रमण अध्ययन ने लक्षणों की शुरुआत के 2 से 4 दिनों के बाद रोगियों में उच्च गतिविधि के साथ एक मॉड्यूल दिखाया। ओआरए द्वारा इस मॉड्यूल के कार्यात्मक संवर्धन ने मोनोसाइट्स और न्यूट्रोफिल 7 में वृद्धि का प्रदर्शन किया। बेसलाइन से दिन 7 तक रक्त ट्रांसक्रिप्टोम का उपयोग करके एक इन्फ्लूएंजा टीकाकरण अध्ययन ने टी, बी, और प्राकृतिक हत्यारा कोशिकाओं, मोनोसाइट्स, न्यूट्रोफिल, इंटरफेरॉन प्रतिक्रियाओं और प्लेटलेट सक्रियण 18 से संबंधित जैविक प्रक्रियाओं के लिए कार्यात्मक रूप से समृद्ध सह-अभिव्यक्ति मॉड्यूल प्रस्तुत किए।

ट्रांसक्रिप्टोमिक डेटासेट से परिवर्तनशीलता को ध्यान में रखते हुए, डेटा विषमता की पहचान करें और मात्रा निर्धारित करें एक चुनौती हो सकती है क्योंकि कई चर जीन अभिव्यक्ति प्रोफ़ाइल 7,11 को प्रभावित कर सकते हैं। एमडीपी इन चरणों का पालन करके स्वस्थ और संक्रमित विषयों से परेशान नमूनों की पहचान करने और मापने का एक तरीका प्रदान करता है: (i) एक केंद्रीयता विधि (माध्यिका या माध्य) और नियंत्रण नमूनों के मानक विचलन की गणना करें; (ii) सभी जीनों के जेड-स्कोर की गणना करने के लिए प्राप्त मूल्यों का उपयोग करें; (iii) नियंत्रण नमूनों से प्रतिनिधि विचलन को दर्शाते हुए, 2 से अधिक एक थ्रेशोल्ड जेड-स्कोर निरपेक्ष सेट करें; और (iv) प्रत्येक नमूने के लिए फ़िल्टर किए गए स्कोर का उपयोग करके जीन मूल्यों के औसत की गणना करें। scRNA-seq विश्लेषण के लिए कुछ सीमाएं होने के बावजूद, यह उपकरण माइक्रोएरे और आरएनए-सेक डेटा 11 से गड़बड़ी स्कोर को निर्धारित करने में कार्यात्मक था। इसके अलावा, पिछले एक अध्ययन ने इस उपकरण का उपयोग तपेदिक और मधुमेह मेलिटस रोगियों में रक्त ट्रांसक्रिप्टोम पर ऊंचा गड़बड़ी की आणविक डिग्री को प्रदर्शित करने के लिए किया है। इस काम में, संदर्भ समूह के रूप में स्वस्थ व्यक्तियों का उपयोग करके नियंत्रण और CHIKV तीव्र रूप से संक्रमित नमूनों की गड़बड़ी को दिखाया गया है।

एनरिचर द्वारा किया गया कार्यात्मक संवर्धन विश्लेषण ORA20,21 है। ORA एक प्रकार का कार्यात्मक संवर्धन विश्लेषण है जिसमें उपयोगकर्ता को उपकरण को DEGs की सूची प्रदान करनी चाहिए। डीईजी की सूची आमतौर पर एक डाउन-विनियमित डीईजी सूची में और एक अप-विनियमित डीईजी सूची में अलग की जाती है। ओआरए करने के लिए अन्य उपकरण हैं, उनमें से, gProfiler, जो उपयोगकर्ता के अनुकूल वेब संस्करण 22 और goseq23 में उपलब्ध है जो Bioconductor पर एक आर पैकेज के रूप में उपलब्ध है। कार्यात्मक संवर्धन विश्लेषण का एक अन्य प्रकार GSEA है। GSEA करने के लिए, उपयोगकर्ता को एक रैंक सूची में सभी जीन प्रदान करना होगा। इस सूची को आमतौर पर गुना परिवर्तन में जीन अभिव्यक्ति के अनुसार स्थान दिया जाता है।

एनरिचर हमेशा बार ग्राफ परिणाम में उनके पी-मूल्यों के आधार पर समृद्ध शीर्ष 10 जीन सेट प्रदान करता है। इसलिए, परिणामों की व्याख्या करते समय उपयोगकर्ता को सतर्क रहना चाहिए, यदि 10 से कम समृद्ध जीन सेट हैं, तो बार ग्राफ भी गैर-समृद्ध जैविक प्रक्रियाओं को दिखाएगा। इस त्रुटि से बचने के लिए, उपयोगकर्ता को पी-मान के लिए एक कटऑफ स्थापित करना चाहिए और यह मानने से पहले कि बार ग्राफ के सभी जीन सेट समृद्ध हैं, मार्गों के पी-मूल्यों का निरीक्षण करना चाहिए। इसके अलावा, उपयोगकर्ता को पता होना चाहिए कि बार ग्राफ में प्रदर्शित 10 जीन सेट का क्रम पी-मानों के अनुसार है, न कि समायोजित पी-मानों के अनुसार। यदि उपयोगकर्ता एक बार ग्राफ में सभी समृद्ध मार्गों को दिखाना चाहता है या यहां तक कि समायोजित पी-मानों के अनुसार पुन: क्रमबद्ध करना चाहता है, तो यह अनुशंसा की जाती है कि उपयोगकर्ता डाउनलोड की गई तालिका का उपयोग करके अपना स्वयं का बार ग्राफ़ बनाए। उपयोगकर्ता एक्सेल या यहां तक कि आर सॉफ़्टवेयर का उपयोग करके एक नया बार ग्राफ़ बना सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

एचएन को FAPESP (अनुदान संख्या: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5, और 2013/08216-2) और CNPq (313662/2017-7) द्वारा वित्त पोषित किया जाता है।

हम विशेष रूप से अध्येताओं के लिए निम्नलिखित अनुदानों के लिए आभारी हैं: ANAG (FAPESP प्रक्रिया 2019/13880-5), VEM (FAPESP प्रक्रिया 2019/16418-0), IMSC (FAPESP प्रक्रिया 2020/05284-0), APV (FAPESP प्रक्रिया 2019/27146-1) और, RLTO (CNPq प्रक्रिया 134204/2019-0)।

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

इम्यूनोलॉजी और संक्रमण अंक 181 उच्च-थ्रूपुट अनुक्रमण आरएनए-सेक मेजबान-रोगज़नक़ बातचीत विभेदक रूप से व्यक्त जीन सह-व्यक्त जीन कार्यात्मक विश्लेषण नमूनों की गड़बड़ी की आणविक डिग्री
होस्ट-रोगज़नक़ इंटरैक्शन की जांच के लिए उच्च-थ्रूपुट ट्रांसक्रिप्टोम विश्लेषण
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter