Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

تحليل النسخ عالي الإنتاجية للتحقيق في التفاعلات بين المضيف ومسببات الأمراض

Published: March 5, 2022 doi: 10.3791/62324

Summary

يصف البروتوكول المعروض هنا خط أنابيب كامل لتحليل بيانات النسخ التسلسلية من قراءات الخام إلى التحليل الوظيفي ، بما في ذلك مراقبة الجودة وخطوات المعالجة المسبقة للنهج التحليلية الإحصائية المتقدمة.

Abstract

مسببات الأمراض يمكن أن تسبب مجموعة واسعة من الأمراض المعدية. العمليات البيولوجية التي يسببها المضيف استجابة للعدوى تحدد شدة المرض. لدراسة مثل هذه العمليات، يمكن للباحثين استخدام تقنيات التسلسل عالية الإنتاجية (RNA-seq) التي تقيس التغيرات الديناميكية للنسخ المضيف في مراحل مختلفة من العدوى، والنتائج السريرية، أو شدة المرض. يمكن أن يؤدي هذا التحقيق إلى فهم أفضل للأمراض ، فضلا عن الكشف عن أهداف الأدوية المحتملة والعلاجات. يصف البروتوكول المعروض هنا خط أنابيب كامل لتحليل بيانات تسلسل الحمض النووي الريبي من القراءات الخام إلى التحليل الوظيفي. وينقسم خط الأنابيب إلى خمس خطوات: (1) مراقبة جودة البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية (2) رسم خرائط الجينات والتعليق على هذه الجينات؛ (3) التحليل الإحصائي لتحديد الجينات المعرب عنها بشكل متمايز والجينات المعرب عنها؛ (4) تحديد الدرجة الجزيئية لازدراق العينات؛ و (5) التحليل الوظيفي. الخطوة 1 يزيل القطع الفنية التي قد تؤثر على جودة التحليلات المصب. في الخطوة 2، يتم تعيين الجينات وشرحها وفقا لبروتوكولات المكتبة القياسية. ويحدد التحليل الإحصائي في الخطوة 3 الجينات التي يتم التعبير عنها بشكل تفاضلي أو التعبير عنها في العينات المصابة، بالمقارنة مع تلك غير المصابة. يتم التحقق من تقلب العينة ووجود القيم المتطرفة البيولوجية المحتملة باستخدام الدرجة الجزيئية لنهج الاضطراب في الخطوة 4. وأخيرا، يكشف التحليل الوظيفي في الخطوة 5 عن المسارات المرتبطة بالنمط الظاهري للمرض. يهدف خط الأنابيب المعروض إلى دعم الباحثين من خلال تحليل بيانات الحمض النووي الريبي-seq من دراسات التفاعل بين المضيف ومسببات الأمراض ودفع المستقبل في المختبر أو في تجارب الجسم الحي ، التي تعتبر ضرورية لفهم الآلية الجزيئية للعدوى.

Introduction

وقد ارتبطت فيروسات الأربو، مثل حمى الضنك والحمى الصفراء وشيكونغونيا وزيكا، على نطاق واسع بعدة فاشيات متوطنة وبرزت كواحدة من مسببات الأمراض الرئيسية المسؤولة عن إصابة البشر في العقود الأخيرة1،2. غالبا ما يعاني الأفراد المصابون بفيروس شيكونغونيا (CHIKV) من الحمى والصداع والطفح الجلدي والتهاب المفاصل والتهاب المفاصل3,4,5. يمكن للفيروسات تخريب التعبير الجيني للخلية والتأثير على مسارات الإشارات المضيفة المختلفة. في الآونة الأخيرة، استخدمت دراسات نسخ الدم الحمض النووي الريبي-seq لتحديد الجينات المعرب عنها بشكل متفاوت (DEGs) المرتبطة بعدوى CHIKV الحادة بالمقارنة مع النقاهة6 أو الضوابط الصحية7. كان لدى الأطفال المصابين ب CHIKV جينات منظمة تشارك في المناعة الفطرية ، مثل تلك المتعلقة بأجهزة الاستشعار الخلوية لرنا الفيروسي ، وإشارات JAK / STAT ، ومسارات إشارات المستقبلات الشبيهة بالحصيلة6. كما أظهر البالغون المصابون بشدة ب CHIKV تحريض الجينات المتعلقة بالحصانة الفطرية ، مثل تلك المتعلقة بالخلايا الأحادية وتفعيل الخلايا التغصنية ، والاستجابات المضادة للفيروسات7. وشملت مسارات الإشارات المخصبة بالجينات الخاضعة للتنظيم الأسفل المسارات المتعلقة بالحصانة التكيفية، مثل تنشيط الخلايا التائية والتمايز والإثراء في الخلايا T وB7.

يمكن استخدام عدة طرق لتحليل بيانات النسخ من الجينات المضيفة ومسببات الأمراض. في كثير من الأحيان ، يبدأ إعداد مكتبة RNA-seq بإثراء نصوص البولي-أ الناضجة. هذه الخطوة يزيل معظم الحمض النووي الريبي الريبوسومي (rRNA) وفي بعض الحالات الحمض النووي الريبي الفيروسية / البكتيرية. ومع ذلك ، عندما ينطوي السؤال البيولوجي على الكشف عن نص مسببات الأمراض ويتم تسلسل الحمض النووي الريبي بشكل مستقل عن الاختيار السابق ، يمكن الكشف عن العديد من النصوص المختلفة الأخرى عن طريق التسلسل. فعلى سبيل المثال، تبين أن الرناس دون الذري عامل هام للتحقق من شدة الأمراض8. وبالإضافة إلى ذلك، بالنسبة لبعض الفيروسات مثل CHIKV و SARS-CoV-2، حتى المكتبات الغنية بالبولي ألف تولد قراءات فيروسية يمكن استخدامها في التحليلات النهائية9,10. عند التركيز على تحليل النسخة المضيفة ، يمكن للباحثين التحقيق في الاضطراب البيولوجي عبر العينات ، وتحديد الجينات المعرب عنها بشكل متفاوت والمسارات المخصبة ، وتوليد وحدات التعبير المشترك7،11،12. يسلط هذا البروتوكول الضوء على تحليلات النسخ للمرضى المصابين ب CHIKV والأفراد الأصحاء باستخدام نهج المعلوماتية الحيوية المختلفة (الشكل 1A). واستخدمت البيانات المستقاة من دراسة نشرت سابقا7 تتألف من 20 شخصا أصحاء و 39 شخصا مصابا إصابة حادة من الشيكف لتوليد النتائج التمثيلية.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

وقد وافقت لجان الأخلاقيات في كل من قسم علم الأحياء المجهرية التابع لمعهد العلوم الطبية الحيوية في جامعة ساو باولو والجامعة الاتحادية لسيرغيبي على العينات المستخدمة في هذا البروتوكول (البروتوكولان: 54937216.5.0000.5467 و54835916.2.0000.5546 على التوالي).

1. دوكر تثبيت سطح المكتب

ملاحظة: تختلف الخطوات لإعداد بيئة Docker بين أنظمة التشغيل (OSs). لذلك، يجب على مستخدمي Mac اتباع الخطوات المسرودة ك 1.1، ويجب على مستخدمي Linux اتباع الخطوات المدرجة ك 1.2، ويجب على مستخدمي Windows اتباع الخطوات المذكورة في القائمة 1.3.

  1. تثبيت على ماك.
    1. الوصول إلى موقع الحصول على دوكر (جدول المواد)، انقر على سطح المكتب دوكر لماك ومن ثم انقر على تحميل من وصلة دوكر المحور .
    2. قم بتنزيل ملف التثبيت بالنقر على الزر الحصول على Docker .
    3. تنفيذ ملف docker.dmg لفتح المثبت ثم اسحب الرمز إلى مجلد التطبيقات . ترجمة وتنفيذ Docker.app في مجلد التطبيقات لبدء تشغيل البرنامج.
      ملاحظة: تشير القائمة الخاصة بالبرنامج في شريط الحالة العلوي إلى أن البرنامج قيد التشغيل وأنه يمكن الوصول إليه من محطة طرفية.
  2. تثبيت برنامج الحاويات على نظام التشغيل لينكس.
    1. الوصول إلى موقع Get Docker Linux (جدول المواد) واتبع إرشادات التثبيت باستخدام قسم المستودع المتوفر على رابط مستودع Docker Linux .
    2. تحديث كافة حزم لينكس باستخدام سطر الأوامر:
      سودو apt-get التحديث
    3. تثبيت الحزم المطلوبة إلى Docker:
      سودو apt-get تثبيت apt-النقل-https ca-شهادات حليقة gnupg lsb-الإفراج
    4. إنشاء ملف keyring أرشيف البرامج:
      حليقة -fsSL https://download.docker.com/linux/ubuntu/gpg | سودو gpg -- dearmor - س / usr / حصة / keyrings / docker - الأرشيف keyring.gpg
    5. إضافة معلومات ديب Docker في ملف source.list:
      صدى "ديب [قوس = amd64 وقعت من قبل = / usr / حصة / keyrings / docker - الأرشيف keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) مستقرة" | سودو تي / الخ / apt / sources.list.d/docker.list > / ديف / فارغة
    6. تحديث جميع الحزم مرة أخرى، بما في ذلك تلك التي أضيفت مؤخرا:
      سودو apt-get التحديث
    7. تثبيت إصدار سطح المكتب:
      سودو apt-get تثبيت دوكر-ce دوكر-ce-cli containerd.io
    8. حدد المنطقة الجغرافية والمنطقة الزمنية لإنهاء عملية التثبيت.
  3. تثبيت برنامج الحاوية على نظام التشغيل Windows.
    1. الوصول إلى موقع الحصول على دوكر (جدول المواد) وانقر على الشروع في العمل. ابحث عن المثبت لسطح المكتب Docker لنظام التشغيل Windows. تحميل الملفات وتثبيتها محليا على الكمبيوتر.
    2. بعد التنزيل، ابدأ ملف التثبيت (.exe) و احتفظ بالمعلمات الافتراضية. تأكد من أن الخيارين تثبيت مكونات Windows المطلوبة ل WSL 2 و إضافة اختصار إلى سطح المكتب تم وضع علامة.
      ملاحظة: في بعض الحالات، عندما يحاول هذا البرنامج بدء تشغيل الخدمة، فإنه يظهر خطأ: تثبيت WSL غير مكتملة. لمعرفة هذا الخطأ، قم بالوصول إلى موقع WSL2-Kernel (جدول المواد).
    3. تحميل وتثبيت أحدث نواة لينكس WSL2.
    4. الوصول إلى محطة PowerShell كمسؤول وتنفيذ الأمر:
      dism.exe /online /تمكين-ميزة /featurename:مايكروسوفت-ويندوز-النظام الفرعي-لينكس/الكل/norestart
    5. تأكد من تثبيت برنامج Docker Desktop بنجاح.
  4. تحميل الصورة من مستودع CSBL على محور دوكر (جدول المواد).
    1. افتح سطح المكتب Docker وتحقق من أن الحالة "قيد التشغيل" في أسفل يسار شريط الأدوات.
    2. انتقل إلى سطر الأوامر الطرفية ل Windows PowerShell. تحميل صورة حاوية لينكس لهذا البروتوكول من مستودع CSBL على محور دوكر. تنفيذ الأمر التالي لتحميل الصورة:
      docker سحب csblusp / transcriptome
      ملاحظة: بعد تحميل الصورة، يمكن مشاهدة الملف في سطح المكتب Docker. لإنشاء الحاوية، يجب على مستخدمي Windows اتباع الخطوة 1.5، بينما يجب على مستخدمي Linux اتباع الخطوة 1.6.
  5. تهيئة حاوية الملقم على نظام التشغيل Windows.
    1. عرض ملف صورة Docker في مدير تطبيق سطح المكتب من شريط الأدوات والوصول إلى صفحة الصور.
      ملاحظة: إذا تم تحميل صورة خط أنابيب بنجاح، سيكون هناك صورة csblusp/transcriptome متوفرة.
    2. بدء الحاوية من صورة csblusp / transcriptome بالنقر على زر التشغيل . قم بتوسيع الإعدادات الاختيارية لتكوين الحاوية.
    3. تعريف اسم الحاوية (على سبيل المثال، الخادم).
    4. إقران مجلد في الكمبيوتر المحلي مع المجلد داخل docker. للقيام بذلك، حدد مسار المضيف. تعيين مجلد في الجهاز المحلي لتخزين البيانات المعالجة التي سيتم تحميلها في النهاية. تعيين مسار الحاوية. تعريف وربط مجلد حاوية csblusp/transcriptome إلى مسار الجهاز المحلي (استخدم الاسم "/opt/transferdata" لمسار الحاوية).
    5. بعد ذلك، انقر على تشغيل لإنشاء حاوية csblusp/transcriptome.
    6. للوصول إلى محطة لينكس من حاوية csblusp/transcriptome، انقر على زر CLI.
    7. اكتب في محطة باش للحصول على تجربة أفضل. لهذا، تنفيذ الأمر:
      باش
    8. بعد تنفيذ الأمر bash تأكد من أن يظهر المحطة الطرفية (root@:/#):
      root@ac12c583b731:/ #
  6. تهيئة حاوية الملقم لنظام التشغيل Linux.
    1. تنفيذ هذا الأمر لإنشاء حاوية Docker استنادا إلى الصورة:
      docker تشغيل -d-it --rm --اسم الخادم -v <هوست المسار>:/opt/transferdata csblusp/transcriptome
      ملاحظة: <هوست المسار>: تعريف مسار جهاز المجلد المحلي.
    2. تنفيذ هذا الأمر للوصول إلى محطة الأوامر من حاوية Docker:
      docker exec - it باش الخادم
    3. تأكد من توفر محطة لينكس لتنفيذ أي برامج / برامج نصية باستخدام سطر الأوامر.
    4. بعد تنفيذ الأمر bash تأكد من أن يظهر المحطة الطرفية (root@:/#):
      root@ac12c583b731:/ #
      ملاحظة: كلمة المرور الجذر هو "transcriptome" بشكل افتراضي. إذا رغبت في ذلك، يمكن تغيير كلمة المرور الجذر بتنفيذ الأمر:
      باسود
    5. أولا، تنفيذ الأمر المصدر addpath.sh لضمان توفر كافة الأدوات. تنفيذ الأمر:
      المصدر /اختيار/addpath.sh
  7. تحقق من بنية مجلد تسلسل الحمض النووي الريبي.
    1. الوصول إلى مجلد البرامج النصية خط أنابيب transcriptome وضمان تخزين جميع البيانات من تسلسل الجيش الملكي النيبالي داخل المجلد: / الصفحة الرئيسية / transcriptome - خط أنابيب / البيانات.
    2. تأكد من تخزين كافة النتائج التي تم الحصول عليها من التحليل داخل مجلد المسار /home/transcriptome-pipeline/results.
    3. تأكد من تخزين ملفات مرجع الجينوم والتعليقات التوضيحية داخل مجلد المسار /المنزل/خط أنابيب النسخ/مجموعات البيانات. ستساعد هذه الملفات على دعم كل التحليلات.
    4. تأكد من تخزين كافة البرامج النصية في مجلد المسار /home/transcriptome-pipeline/scripts وفصلها عن كل خطوة كما هو موضح أدناه.
  8. تحميل الشرح والجينوم البشري.
    1. الوصول إلى مجلد البرامج النصية:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. تنفيذ هذا الأمر لتحميل الجينوم البشري المرجعي:
      باش downloadGenome.sh
    3. لتنزيل التعليق التوضيحي، نفذ الأمر:
      باش downloadAnnotation.sh
  9. تغيير التعليق التوضيحي أو إصدار الجينوم المرجعي.
    1. افتح downloadAnnotation.sh downloadGenome.sh لتغيير عنوان URL لكل ملف.
    2. نسخ الملفات downloadAnnotation.sh والملفات downloadGenome.sh إلى منطقة النقل وتحريرها في نظام التشغيل المحلي.
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
      cp downloadAnnotation.sh downloadGenome.sh /opt/نقل البيانات
    3. افتح المجلد مسار المضيف الذي تم تحديده لربط بين الحاوية المضيف و Docker في الخطوة 1.5.4.
    4. تحرير الملفات باستخدام برنامج المحرر المفضل وحفظ. وأخيرا، وضع الملفات المعدلة في مجلد البرنامج النصي. تنفيذ الأمر:
      القرص المضغوط /opt/نقل البيانات
      cp downloadAnnotation.sh downloadGenome.sh / المنزل / transcriptome خط أنابيب / البرامج النصية

      ملاحظة: يمكن تحرير هذه الملفات مباشرة باستخدام vim أو nano Linux محرر.
  10. بعد ذلك، تكوين أداة تفريغ fastq مع سطر الأوامر:
    vdb-التكوين --تفاعلي
    ملاحظة: يسمح هذا بتحميل ملفات التسلسل من بيانات المثال.
    1. انتقل إلى صفحة الأدوات باستخدام مفتاح علامة التبويب وحدد خيار المجلد الحالي. انتقل إلى خيار حفظ وانقر على موافق. ثم قم بإنهاء أداة تفريغ fastq.
  11. بدء تحميل القراءات من الورق المنشور سابقا7. مطلوب رقم الانضمام إلى SRA لكل عينة. الحصول على أرقام SRA من موقع SRA NCBI (جدول المواد).
    ملاحظة: لتحليل البيانات RNA-Seq المتوفرة على قواعد البيانات العامة اتبع الخطوة 1.12. لتحليل البيانات الخاصة RNA-seq اتبع الخطوة 1.13.
  12. تحليل بيانات عامة محددة.
    1. الوصول إلى الموقع الإلكتروني للمركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) والبحث عن كلمات رئيسية لموضوع معين.
    2. انقر على الرابط نتيجة لBioProject في قسم الجينوم .
    3. اختر وانقر على دراسة محددة. انقر على تجارب SRA. تفتح صفحة جديدة تعرض جميع العينات المتاحة لهذه الدراسة.
    4. انقر على "إرسال إلى:" أعلاه رقم الانضمام. في الخيار "اختيار الوجهة" حدد ملف وتنسيق الخيار، حدد RunInfo. انقر على "إنشاء ملف" لتصدير جميع معلومات المكتبة.
    5. حفظ الملف SraRunInfo.csv في مسار المضيف المعرفة في الخطوة 1.5.4 وتنفيذ البرنامج النصي التحميل:
      cp /opt/transferdata/SraRunInfo.csv/المنزل/خط أنابيب النسخ/البيانات
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
      باش downloadAllLibraries.sh
  13. تحليل بيانات التسلسل الخاصة وغير المنشورة.
    1. تنظيم بيانات التسلسل في مجلد يسمى القراءات.
      ملاحظة: داخل المجلد القراءات إنشاء مجلد واحد لكل عينة. يجب أن يكون لهذه المجلدات نفس الاسم لكل عينة. إضافة بيانات كل عينة داخل الدليل الخاص به. في حالة أنه هو RNA-Seq نهاية مقترنة، يجب أن يحتوي كل دليل عينة على ملفين FASTQ، والتي يجب أن تقدم أسماء تنتهي وفقا للأنماط {sample}_1.fastq.gz و {sample}_2.fastq.gz، إلى الأمام وعكس التسلسلات، على التوالي. على سبيل المثال، يجب أن يكون نموذج المسمى "Healthy_control" دليل بنفس الاسم وملفات FASTQ المسماة Healthy_control_1.fastq.gz و Healthy_control_2.fastq.gz. ومع ذلك، إذا كان تسلسل المكتبة استراتيجية أحادية الطرف، يجب حفظ ملف قراءة واحد فقط لتحليل المصب. على سبيل المثال، يجب أن يكون نفس النموذج " التحكم سليم " ، ملف FASTQ فريدة تسمى Healthy_control.fastq.gz.
    2. إنشاء ملف phenotypic يحتوي على كافة أسماء نماذج: اسم العمود الأول ك 'عينة' والعمود الثاني ك 'Class'. تعبئة العمود عينة مع أسماء عينة، والتي يجب أن يكون نفس الاسم لعينة الدلائل وملء العمود فئة مع مجموعة phenotypic من كل عينة (على سبيل المثال، التحكم أو المصابة). وأخيرا، حفظ ملف باسم "metadata.tsv" وإرساله إلى /home/transcriptome-pipeline/data/directory. تحقق من metadata.tsv الموجودة لفهم تنسيق الملف الظاهري.
      cp /opt/نقل البيانات/البيانات الوصفية.tsv
      / المنزل / خط أنابيب النسخ / البيانات / البيانات.tsv
    3. الوصول إلى الدليل مسار المضيف المعرفة في الخطوة 1.5.4 ونسخ نماذج الدلائل بنية جديدة. وأخيرا، نقل العينات من /opt/transferdata إلى دليل بيانات خط أنابيب.
      CP -rf /opt/transferdata/reads/*
      / المنزل / خط أنابيب النسخ / البيانات / يقرأ /
  14. لاحظ أن كافة القراءات مخزنة في المجلد /home/transcriptome-pipeline/data/reads.

2. مراقبة جودة البيانات

ملاحظة: تقييم، بيانيا، احتمال الأخطاء في يقرأ التسلسل. إزالة جميع التسلسلات التقنية، على سبيل المثال، محولات.

  1. الوصول إلى جودة التسلسل للمكتبات باستخدام أداة FastQC.
    1. لإنشاء رسومات بيانية عالية الجودة، قم بتشغيل برنامج fastqc. تنفيذ الأمر:
      باش FastQC.sh
      ملاحظة: سيتم حفظ النتائج في المجلد /home/transcriptome-pipeline/results/FastQC. منذ محولات تسلسل تستخدم لإعداد المكتبة وتسلسلها، في بعض الحالات يمكن أن تتداخل أجزاء من تسلسل المحولات مع عملية التعيين.
  2. إزالة تسلسل المحول و قراءات منخفضة الجودة. الوصول إلى مجلد البرامج النصية وتنفيذ الأمر للأداة Trimmomatic:
    مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    باش trimmomatic.sh

    ملاحظة: المعلمات المستخدمة لتصفية التسلسل هي: إزالة جودة منخفضة الرائدة أو 3 قواعد (أقل من الجودة 3) (LEADING:3)؛ إزالة زائدة منخفضة الجودة أو 3 قواعد (أقل من الجودة 3) (TRAILING:3)؛ مسح القراءة باستخدام نافذة انزلاق عريضة ذات 4 قاعدة، مع القطع عندما ينخفض متوسط الجودة لكل قاعدة إلى أقل من 20 (SLIDINGWINDOW:4:20)؛ ويقرأ إسقاط أسفل القواعد 36 طويلة (MINLEN: 36). يمكن تغيير هذه المعلمات عن طريق تحرير ملف البرنامج النصي Trimmomatic.
    1. تأكد من حفظ النتائج في المجلد التالي: / home / transcriptome-pipeline/results/trimreads. تنفيذ الأمر:
      ls /home/خط أنابيب النسخ/النتائج/التشذيب

3. رسم خرائط وتعليقات توضيحية للعينات

ملاحظة: بعد الحصول على قراءات ذات نوعية جيدة، هذه تحتاج إلى تعيين إلى الجينوم المرجعي. لهذه الخطوة، تم استخدام مخطط STAR لتعيين نماذج المثال. تتطلب أداة مخطط STAR ذاكرة ذاكرة وصول عشوائي 32 غيغابايت لتحميل وتنفيذ تعيين القراءة والجينوم. بالنسبة للمستخدمين الذين ليس لديهم ذاكرة RAM 32 غيغابايت، يمكن استخدام القراءات المعينة مسبقا. في مثل هذه الحالات الانتقال إلى الخطوة 3.3 أو استخدام مخطط Bowtie2. يحتوي هذا القسم على برامج نصية ل STAR (النتائج الموضحة في جميع الأشكال) و Bowtie2 (مخطط الذاكرة المنخفضة المطلوب).

  1. فهرسة الجينوم المرجعي لعملية رسم الخرائط أولا:
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. بالنسبة لمنجم الخرائط، نفذ:
      باش indexGenome.sh
    3. بالنسبة لمرم خرائط Bowtie، قم بالتنفيذ:
      باش indexGenomeBowtie2.sh
  2. تنفيذ الأمر التالي لتعيين القراءات المصفاة (التي تم الحصول عليها من الخطوة 2) إلى الجينوم المرجعي (إصدار GRCh38). يتم تنفيذ كل من STAR و Bowtie2 تعيين باستخدام المعلمات الافتراضية.
    1. بالنسبة لمنجم الخرائط، نفذ:
      باش mapSTAR.sh
    2. بالنسبة لموازما Bowtie2، قم بالتنفيذ:
      باش mapBowtie2.sh
      ملاحظة: النتائج النهائية هي ملفات خريطة المحاذاة الثنائية (BAM) لكل عينة مخزنة في /home/transcriptome-pipeline/results/mapreads.
  3. يقرأ التعليقات التوضيحية المعينة باستخدام أداة FeatureCounts للحصول على عدد أولي لكل جين. تشغيل البرامج النصية التي توضح القراءات.
    ملاحظة: أداة FeatureCounts مسؤولة عن تعيين قراءات التسلسل المعينة إلى الميزات الجينومية. وتشمل أهم جوانب التعليق التوضيحي الجينوم التي يمكن تغييرها بعد السؤال البيولوجي، والكشف عن isoforms، قراءات متعددة مرسومة وتقاطعات exon-exon، المقابلة للمعلمات، GTF.attrType ="gene_name" للجين أو عدم تحديد المعلمات لمستوى الفوقية ميزة، والسماحMultiOverlap = TRUE، وjuncCounts = TRUE، على التوالي.
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. للتعليق التوضيحي على القراءات المعينة للحصول على تعدادات أولية لكل جين، قم بتنفيذ سطر الأوامر:
      تعليق توضيحي ل Rscript. R
      ملاحظة: المعلمات المستخدمة لعملية التعليق التوضيحي هي: إرجاع اسم جين قصير (GTF.attrType="gene_name")؛ السماح بتداخلات متعددة (allowMultiOverlap = TRUE)؛ وتشير إلى أن المكتبة مقترنة نهاية (isPairedEnd =TRUE). لاستراتيجية أحادية النهاية، استخدم المعلمة isPairedEnd=FALSE. سيتم حفظ النتائج في المجلد /home/transcriptome-pipeline/countreads.
  4. تطبيع التعبير الجيني.
    ملاحظة: يعد تطبيع التعبير الجيني أمرا ضروريا لمقارنة النتائج بين النتائج (على سبيل المثال، العينات الصحية والمصابة). كما يلزم التطبيع لإجراء التحليلات المشتركة في التعبير والدرجة الجزيئية للاضطرابات.
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. تطبيع التعبير الجيني. لهذا، تنفيذ سطر الأوامر:
      Rscript تطبيع الطوابع. R
      ملاحظة: تم تطبيع تعبير التهم الخام في هذه التجربة باستخدام أساليب "الوسط المشذب لقيم M" (TMM) و "عدد لكل مليون" (CPM). تهدف هذه الخطوة إلى إزالة الاختلافات في التعبير الجيني بسبب التأثير التقني ، من خلال القيام بتطبيع حجم المكتبة. سيتم حفظ النتائج في المجلد /home/transcriptome-pipeline/countreads.

4. الجينات المعرب عنها بشكل تفاضلي والجينات المشتركة

  1. تحديد الجينات المعرب عنها بشكل تفاضلي باستخدام حزمة EdgeR مفتوحة المصدر. وهذا ينطوي على العثور على الجينات التي التعبير هو أعلى أو أقل بالمقارنة مع عنصر التحكم.
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. لتعريف gene التعبير عن تفاضلي تنفيذ البرنامج النصي R DEG_edgeR باستخدام سطر الأوامر:
      Rscript DEG_edgeR.R
      ملاحظة: سيتم حفظ النتائج التي تحتوي على الجينات المعرب عنها بشكل تفاضلي في المجلد /home/transcriptome-pipeline/results/degs. يمكن نقل البيانات إلى كمبيوتر شخصي.
  2. تحميل البيانات من حاوية csblusp / transcriptome.
    1. نقل البيانات المعالجة من /home/transcriptome-pipeline إلى المجلد /opt/transferdata (الكمبيوتر المحلي).
    2. نسخ كافة الملفات إلى الكمبيوتر المحلي عن طريق تنفيذ سطر الأوامر:
      CP-rf /home/transcriptome-pipeline/results/opt/transferdata/pipeline
      CP-rf /home/transcriptome-pipeline/data/opt/transferdata/pipeline

      ملاحظة: الآن، انتقل إلى الكمبيوتر المحلي لضمان توفر كافة النتائج ومجموعات البيانات والبيانات للتنزيل في مسار المضيف.
  3. تعريف وحدات التعبير المشترك.
    1. الوصول إلى أداة تعريف الوحدات النمطية المشتركة (CEMiTool) على الويب (جدول
      المواد
      ). تعرف هذه الأداة وحدات التعبير المشترك من مجموعات بيانات التعبير التي يقدمها المستخدمون. في الصفحة الرئيسية، انقر على تشغيل في أعلى اليمين. سيؤدي ذلك إلى فتح صفحة جديدة لتحميل ملف التعبير.
    2. انقر على اختيار ملف أسفل قسم ملف التعبير وتحميل مصفوفة التعبير الجينية التي تم تسويتها "tmm_expression.tsv" من مسار المضيف.
      ملاحظة: الخطوة 4.4. غير إلزامي.
  4. استكشاف المعنى البيولوجي لوحدات التعبير المشترك.
    1. انقر فوق اختيار ملف في قسم نماذج الأنماط الظاهرية وتحميل الملف مع نماذج الأنماط الظاهرية metadata_cemitool.tsv من تنزيل البيانات الخطوة 4.2.2. لإجراء تحليل إثراء مجموعة الجينات (GSEA).
    2. اضغط على اختيار ملف في قسم التفاعلات الجينية لتحميل ملف مع التفاعلات الجينية (cemitool-interactions.tsv). فمن الممكن استخدام ملف التفاعلات الجينية المقدمة كمثال من قبل webCEMiTool. يمكن أن تكون التفاعلات تفاعلات البروتين والبروتين، وعوامل النسخ وجيناتها المنسوخة، أو المسارات الأيضية. ينتج عن هذه الخطوة شبكة تفاعل لكل وحدة نمطية التعبير المشترك.
    3. انقر على اختيار ملف في قسم مجموعات الجينات لتحميل قائمة من الجينات ذات الصلة وظيفيا في مصفوفة الجينات المنقولة (GMT) ملف الشكل. يتيح ملف Gene Set الأداة من إجراء تحليل الإثراء لكل وحدة تعبير مشترك، أي تحليل التمثيل الزائد (ORA).
      ملاحظة: يمكن أن تشمل قائمة الجينات هذه مسارات أو مصطلحات GO أو جينات مستهدفة من ميرنا. يمكن للباحث استخدام وحدات نسخ الدم (BTM) ك مجموعات جينية لهذا التحليل. ملف BTM (BTM_for_GSEA.gmt).
  5. تعيين معلمات لإجراء تحليلات التعبير المشترك والحصول على نتائجها.
    1. توسيع المقطع المعلمة بعد ذلك، بالنقر فوق علامة الجمع لعرض المعلمات الافتراضية. إذا لزم الأمر، تغييرها. حدد المربع تطبيق VST .
    2. اكتب البريد الإلكتروني في قسم البريد الإلكتروني لتلقي النتائج كبريد إلكتروني. هذه الخطوة اختيارية.
    3. اضغط الزر تشغيل CEMiTool .
    4. قم بتنزيل تقرير التحليل الكامل بالنقر على تنزيل التقرير الكامل في أعلى اليمين. سيتم تنزيل ملف مضغوط cemitool_results.zip.
    5. استخراج محتويات cemitool_results.zip مع WinRAR.
      ملاحظة: المجلد مع محتويات المستخرجة يشمل عدة ملفات مع كافة نتائج التحليل والمعلمات الخاصة بهم المنشأة.

5. تحديد الدرجة الجزيئية من اضطراب العينات

  1. درجة الجزيئية من الاضطراب (MDP) نسخة الويب.
    1. لتشغيل MDP، قم بالوصول إلى موقع MDP (جدول المواد). يقوم MDP بحساب المسافة الجزيئية لكل عينة من المرجع. انقر على زر التشغيل .
    2. في الرابط اختيار ملف ، قم بتحميل ملف التعبير tmm_expression.tsv. ثم قم بتحميل بيانات التعريف ملف phenotypic.tsv من تنزيل البيانات الخطوة 4.2.2. من الممكن أيضا تقديم ملف تعليق توضيحي للمسار بتنسيق GMT لحساب درجة اضطراب المسارات المرتبطة بالمرض.
    3. بمجرد تحميل البيانات، حدد عمود الفئة الذي يحتوي على المعلومات الظاهرية المستخدمة من قبل MDP. ثم قم بتعريف فئة عنصر التحكم عن طريق تحديد التسمية التي تتوافق مع فئة عنصر التحكم.
      ملاحظة: هناك بعض المعلمات الاختيارية التي ستؤثر على كيفية حساب عشرات العينة. إذا لزم الأمر ، فإن المستخدم قادر على تغيير طريقة متوسط الإحصاءات ، والانحراف المعياري ، والنسبة المئوية العليا للجينات المضطربة.
    4. بعد ذلك، اضغط على الزر تشغيل MDP وسيتم عرض نتائج MDP. يمكن للمستخدم تحميل الأرقام عن طريق النقر على تحميل المؤامرة في كل مؤامرة، فضلا عن درجة MDP على زر تحميل MDP ملف نقاط .
      ملاحظة: في حالة وجود أسئلة حول كيفية إرسال الملفات أو كيفية عمل MDP، انتقل فقط من خلال البرنامج التعليمي وحول صفحات الويب.

6. تحليل الإثراء الوظيفي

  1. إنشاء قائمة واحدة من DEGs أسفل التنظيم وأخرى من DEGs منظمة صعودا. يجب أن تكون أسماء الجينات وفقا لرموز الجينات Entrez. يجب وضع كل جين من القائمة على سطر واحد.
  2. حفظ قوائم الجينات في تنسيق txt أو tsv.
  3. الوصول إلى موقع Enrichr (جدول المواد) لإجراء التحليل الوظيفي.
  4. حدد قائمة الجينات بالنقر على اختيار ملف. حدد إحدى قائمة DEGs واضغط على الزر إرسال .
  5. انقر على المسارات في أعلى صفحة الويب لإجراء تحليل الإثراء الوظيفي باستخدام نهج ORA.
  6. اختر قاعدة بيانات المسار. تستخدم قاعدة بيانات المسار "Reactome 2016" على نطاق واسع للحصول على المعنى البيولوجي للبيانات البشرية.
  7. انقر على اسم قاعدة بيانات المسار مرة أخرى. حدد شريط الرسم البياني وتحقق ما إذا كان يتم فرزها حسب ترتيب القيمة p. إذا لم يكن كذلك، انقر على الرسم البياني الشريط حتى يتم فرزها حسب القيمة p. يتضمن هذا الرسم البياني الشريطي أعلى 10 مسارات وفقا لقيم p.
  8. اضغط على زر التكوين وحدد اللون الأحمر لتحليل الجينات المنظمة لأعلى أو اللون الأزرق لتحليل الجينات الخاضعة للتنظيم لأسفل. حفظ الرسم البياني شريط في عدة أشكال من خلال النقر على svg، بابوا نيو غينيا، و jpg.
  9. حدد الجدول وانقر على تصدير إدخالات إلى الجدول في أسفل يسار الرسم البياني شريط للحصول على نتائج تحليل الإثراء الوظيفي في ملف txt.
    ملاحظة: يشمل ملف نتائج الإثراء الوظيفي هذا في كل سطر اسم مسار واحد، وعدد الجينات المتراكبة بين قائمة DEG المقدمة والمسار، والقيمة p، والقيمة p المعدلة، ونسبة الاحتمالات، والنتيجة المجمعة، والرمز الجيني للجينات الموجودة في قائمة DEG التي تشارك في المسار.
  10. كرر نفس الخطوات مع قائمة DEGs الأخرى.
    ملاحظة: يوفر التحليل مع DEGs الخاضعة للتنظيم لأسفل مسارات غنية للجينات الخاضعة للتنظيم لأسفل ويوفر التحليل مع الجينات المنظمة صعودا مسارات غنية للجينات المنظمة.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

تم إنشاء بيئة الحوسبة لتحليلات النسخ وتكوينها على منصة Docker. هذا النهج يسمح للمستخدمين المبتدئين لينكس لاستخدام أنظمة المحطة الطرفية لينكس دون معرفة الإدارة المسبقة. يستخدم النظام الأساسي Docker موارد نظام التشغيل المضيف لإنشاء حاوية خدمة تتضمن أدوات مستخدمين محددة (الشكل 1B). تم إنشاء حاوية على أساس توزيع Linux OS Ubuntu 20.04 وتم تكوينها بالكامل للتحليلات النسخية ، والتي يمكن الوصول إليها عبر محطة سطر الأوامر. في هذه الحاوية، يوجد بنية مجلد معرفة مسبقا لمجموعات البيانات والبرامج النصية الضرورية لكافة تحليلات خطوط الأنابيب (الشكل 1C). وقد استخدمت دراسة نشرتها مجموعتنا البحثية7 للتحليلات، وشملت 20 عينة من أفراد أصحاء و39 عينة من الأفراد المصابين بالعدوى الحادة من CHIKV (الشكل 1D).

يمكن أن تؤدي عملية تسلسل الحمض النووي الريبي الإجمالي إلى أخطاء في القراءة ، والتي قد تكون ناجمة عن مجموعة مع نسختين أو أكثر أو استنفاد الكواشف. تقوم منصات التسلسل بإرجاع مجموعة من ملفات "FASTQ" التي تحتوي على التسلسل (قراءة) والجودة المرتبطة لكل قاعدة من قواعد النيوكليوتيدات (الشكل 2A). يشير مقياس جودة Phred إلى احتمال قراءة غير صحيحة لكل قاعدة (الشكل 2B). يمكن أن تولد القراءات منخفضة الجودة تحيزا أو تعبيرا جينيا غير صحيح ، مما يؤدي إلى أخطاء متتالية في التحليلات النهائية. وقد تم تطوير أدوات مثل Trimmomatic لتحديد وإزالة قراءات منخفضة الجودة من العينات وزيادة احتمال قراءة الخرائط (الشكل 2C، D).

تم تكوين وحدة الخرائط مسبقا باستخدام مصفيح STAR والمضيف البشري GRCh38 كجينوم مرجعي. في هذه الخطوة، يتم استخدام القراءات عالية الجودة التي تم استردادها من الخطوة السابقة كمدخل للمحاذاة مع الجينوم المرجعي البشري (الشكل 3A). إخراج محاذاة STAR محاذاة يقرأ المعينة إلى genome مرجع في ملف تنسيق BAM. استنادا إلى هذا المحاذاة، أداة FeatureCounts ينفذ التعليق التوضيحي للميزات (الجينات) من تلك القراءات محاذاة باستخدام التعليق التوضيحي المرجعي للمضيف البشري في تنسيق ملف GTF (الشكل 3B). وأخيرا، يتم إنشاء مصفوفة التعبير مع كل اسم جين كصف واحد، وكل عينة كعمود واحد (الشكل 3C). كما يلزم توفير ملف بيانات تعريف إضافية يحتوي على أسماء العينات ومجموعات العينة المعنية لإجراء مزيد من التحليلات النهائية. تمثل مصفوفة التعبير الجيني عدد التهم المعينة لكل جين بين العينات، والتي يمكن استخدامها كمدخل EdgeR لتحديد DEGs. وبالإضافة إلى ذلك، تم تطبيع مصفوفة التعبير الجيني هذه باستخدام TMM و CPM من أجل إزالة التباين التقني وتصحيح قياس الحمض النووي الريبي-seq من خلال النظر في نسبة الجينات المعبر عنها في الحجم الكلي للمكتبة بين العينات. واستخدمت هذه المصفوفة كذلك كمدخل في تحليلات التعبير المشترك و MDP.

CEMiTool يحدد ويحلل الوحدات النمطية التعبير المشترك12. يتم التعبير المشترك عن الجينات الموجودة في نفس الوحدة ، مما يعني أنها تظهر أنماط تعبير مماثلة عبر عينات مجموعة البيانات. وتتيح هذه الأداة أيضا استكشاف الأهمية البيولوجية لكل وحدة نمطية محددة. لهذا، فإنه يوفر ثلاثة تحليلات اختيارية - تحليل الإثراء الوظيفي من قبل GSEA، وتحليل الإثراء الوظيفي من قبل تحليل التمثيل الزائد (ORA)، وتحليل الشبكة. يوفر تحليل الإثراء الوظيفي من قبل GSEA معلومات حول التعبير الجيني لكل وحدة نمطية في كل نمط افتراضي (الشكل 4A). وفقا لهذا، فإنه يتيح تحديد الوحدات التي يتم قمعها أو حث في كل النمط الظاهري. ويبين تحليل ORA أعلى 10 وظائف بيولوجية غنية بشكل كبير من كل وحدة فرزها حسب القيم P المعدلة. ومن الممكن الجمع بين نتائج GSEA و ORA لتحديد العمليات البيولوجية الضعيفة وإذا كانت تتعرض للقمع أو الحث بسبب النمط الظاهري للاهتمام. وتوفر تحليلات الشبكة تفاعلا لكل وحدة (الشكل 4A). وهو يتيح تصور كيفية تفاعل جينات كل وحدة. وإلى جانب ذلك، يوفر تحليل الشبكة معلومات عن الجينات الأكثر اتصالا، وهي المحاور، التي يتم تحديدها بأسمائها في الشبكة. يمثل حجم العقد درجة الاتصال.

ولتحديد مجموعات ال DEGs، تم وضع سيناريو داخلي لتشغيل تحليل تفاضلي من طرف إلى طرف في سطر قيادة أحادي الاتجاه وموجز. ينفذ البرنامج النصي كافة الخطوات المطلوبة لإجراء تحليل DEG مقارنة مجموعات نماذج مختلفة المقدمة من قبل المستخدم في ملف بيانات التعريف. وبالإضافة إلى ذلك، يتم تخزين نتائج DEG في قوائم منفصلة من الجينات الخاضعة للتنظيم والمتابعة، ثم يتم تجميعها في شكل جاهز للنشر (الشكل 4B) باستخدام حزمة EnhancedVolcano R من الموصل الحيوي.

تحليل الدرجة الجزيئية من الاضطراب الذي تقوم به أداة MDP يسمح لنا بتحديد عينات مضطربة من الأفراد الأصحاء والمصابين11. يتم حساب درجة الاضطراب بالنظر إلى جميع الجينات المعبر عنها لكل عينة مصابة ب CHIKV والنظر في العينات الصحية كمجموعة مرجعية (الشكل 5A). كما يقوم برنامج MDP بإجراء التحليل باستخدام أعلى 25٪ فقط من الجينات الأكثر اضطرابا من تلك العينات (الشكل 5B). يمكن أن تمثل العينات تباينا كبيرا نظرا للخلفية الوراثية أو العمر أو الجنس أو غيرها من الأمراض السابقة. يمكن لهذه العوامل تغيير الملف الشخصي للنسخ. وبناء على ذلك، يقترح برنامج شرطة شرطة مدينة ما العينات التي تشكل القيم المتطرفة البيولوجية المحتملة لإزالتها وتحسين نتائج المصب (الشكل 5 ألف، باء).

يمكن إجراء تحليل إثراء وظيفي بواسطة ORA باستخدام Enrichr من أجل تحديد المعنى البيولوجي ل DEGs. وتشير النتائج المقدمة استنادا إلى قائمة الجينات الخاضعة للتنظيم إلى العمليات البيولوجية المكبوتة في النمط الظاهري الذي تمت دراسته، في حين أن النتائج المقدمة استنادا إلى قائمة الجينات المنظمة صعودا تقدم العمليات البيولوجية التي يتم تحريضها في النمط الظاهري للاهتمام. العمليات البيولوجية المبينة في الرسم البياني الشريطي الذي تم إنشاؤه بواسطة Enrichr هي أفضل 10 مجموعات جينية غنية استنادا إلى ترتيب القيمة p (الشكل 6).

Figure 1
الشكل 1: البيئة دوكر ودراسة سبيل المثال. (أ) منصة دوكر يستخدم موارد المضيف نظام التشغيل لإنشاء "حاويات" لنظام لينكس التي تحتوي على أدوات لتحليل النسخ. (ب) حاوية دوكر يحاكي نظام لينكس لتنفيذ البرامج النصية خط أنابيب. (ج) تم إنشاء هيكل مجلد خط أنابيب النسخ وتنظيمه لتخزين مجموعات البيانات والبرامج النصية للتحليل. (د) استخدمت الدراسة من مجموعتنا كمثال على تحليلات النسخ. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 2
الشكل 2: مراقبة جودة التسلسل. (أ) يتم استخدام ملف تنسيق FASTQ لتمثيل التسلسل وجودة قاعدة النيوكليوتيدات. (ب) Phred درجة المعادلة، حيث كل 10 يزيد من احتمال سجل قاعدة خاطئة. (ج) و (د) يمثل البوكبلوت توزيعا جيدا لكل قاعدة من قواعد النيوكليوتيدات قبل وبعد تنفيذ تريموماتيك، على التوالي. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 3
الشكل 3: عملية رسم الخرائط والتعليقات التوضيحية من التسلسل إلى التعبير عن عدد الجينات. (أ) يتكون رسم الخرائط من مواءمة التسلسل من النص والتسلسل من الجينوم لتحديد توطين الجينوم. (ب) تقرأ على الجينوم المرجعي مشروحة على أساس توطينها الجينومي للتداخل. (ج) استنادا إلى أدوات ملف التعيين مثل featureCounts، يتم تلخيص التعبير الجيني. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 4
الشكل 4: شبكة الجينات المعرب عنها بشكل مشترك والتحليل الإحصائي ل DEGs. (أ) وحدات التعبير المشترك على أساس التعبير الجيني وشبكة التفاعلات بين البروتين والبروتين من جينات الوحدة. (ب) التحليل الإحصائي للأفراد المصابين بشدة والأصحاء في CHIKV، والتعبير الجيني التفاضلي باللون الأحمر (معايير القيمة p و log2FC)، والأرجواني (القيمة p فقط)، والأخضر (log2FC فقط)، والرمادي (بدون أهمية). يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 5
الشكل 5: الدرجة الجزيئية للاصابة (MDP) من CHIKV المصابين بشدة والأفراد الأصحاء. (أ) درجة MDP لكل عينة باستخدام جميع الجينات المعرب عنها من النسخ. (ب) درجة MDP لكل عينة باستخدام فقط أعلى 25٪ من الجينات الأكثر اضطرابا. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 6
الشكل 6: قدم التحليل الوظيفي ل DEGs. (أ) الجينات المنظمة صعودا و (ب) الجينات الخاضعة للتنظيم إلى أداة موقع Enrichr على الويب لتقييم المسارات البيولوجية أو مجموعات الجينات التمثيلية. تم حساب قيم P لكل مسار ولم تظهر في الرسم سوى اختلافات كبيرة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

يعد إعداد مكتبات التسلسل خطوة حاسمة نحو الإجابة على الأسئلة البيولوجية بأفضل طريقة ممكنة. وسيسترشد بنوع المحاضر التي تهم الدراسة نوع مكتبة التسلسل التي سيتم اختيارها وتدفع التحليلات المعلوماتية الحيوية. على سبيل المثال ، من تسلسل تفاعل الممرض والمضيف ، وفقا لنوع التسلسل ، من الممكن تحديد التسلسلات من كلا أو فقط من نصوص المضيف.

ويقيس الجيل التالي من معدات التسلسل، مثل منصة إيلومينا، درجات جودة التسلسل، التي ترمز إلى احتمال تسمية قاعدة بشكل غير صحيح. التحليلات المصب حساسة جدا لتسلسل منخفض الجودة وتؤدي إلى التعبير الجيني غير مقروءة أو قراءة خاطئة. وثمة عقبة أخرى في إجراء التحليلات الصحيحة والتفسير هي تسلسل المحول. تساعد تسلسلات المحول في إعداد المكتبة وتسلسلها، وفي معظم الحالات، يتم تسلسل المحولات أيضا. وقد حددت الدراسات الحديثة أن تأثير أداة رسم الخرائط على النتائج النهائية هو الحد الأدنى13. ومع ذلك، في الدراسات المضيفة لمسببات الأمراض، يمكن لعملية رسم الخرائط أن تولد نتائج أفضل قليلا عند اختبار عتبات مختلفة لتقليل مشكلة تسلسلات الجراد المتعددة المعينة.

وينبغي تفسير نتائج التعبير الجيني التفاضلي بحذر معين، لا سيما عندما يكون عدد العينات لكل مجموعة صغيرا جدا وجاءت العينات من مقايسات مختلفة وتدخلها في الآثار الدفعية التي تنتج عنها مجموعات ال DEGs. وهذه النتائج حساسة لعدة عوامل: '1' تصفية البيانات المطبقة، مثل إزالة الجينات المنخفضة التعبير وعدد العينات التي ينبغي الاحتفاظ بها؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' الاحتفاظ بالبيانات؛ '2' تصميم الدراسة، للمقارنة فقط بين مجموعات العينة أو كل مريض مصاب مقابل جميع مرضى التحكم، كما هو موضح في دراسة CHIKV7؛ و(3) الطريقة الإحصائية المستخدمة لتحديد DEGs. هنا، نوضح مثالا أساسيا مع EdgeR لتحديد DEGs على افتراض قيمة p عتبة 0.05. ومن المعروف أيضا في الأدبيات أنه بالمقارنة مع غيرها من الأساليب المرجعية، يمكن أن يكون EdgeR مجموعة كبيرة من التباين في تحديد DEGs14. ويمكن للمرء أن ينظر في المفاضلة بين هذه الأساليب المختلفة وأن يأخذ في الاعتبار عدد النسخ المتماثلة المتاحة وتعقيد التصميم التجريبي14.

CEMiTool ينفذ تحليل وحدة التعبير المشترك12. هذه الأداة متاحة من خلال حزمة R على مستودع الموصل الحيوي وهي متاحة أيضا في نسخة سهلة الاستخدام من خلال webCEMiTool؛ هذا الأخير هو الإصدار المستخدم في هذا البروتوكول الحالي. هذا هو برنامج بديل فيما يتعلق WGCNA15 تقديم العديد من الفوائد مقارنة مع الأخير16، بما في ذلك حقيقة أنه أكثر سهولة في الاستخدام17. وعلاوة على ذلك، هذه الأداة لديها طريقة تلقائية لتصفية الجينات، في حين أنه في WGCNA يجب على المستخدم تصفية الجينات قبل استخدام WGCNA. بالإضافة إلى ذلك، هذه الأداة معلمات الافتراضية تأسيس بينما في WGCNA يجب على المستخدم تحديد يدويا تحليلات المعلمات. يؤدي اختيار المعلمة اليدوية إلى إضعاف القابلية للاستنساخ؛ لذلك، يضمن التحديد التلقائي للمعلمات إمكانية استنساخ محسنة.

في بعض الحالات، CEMiTool غير قادر على العثور على عتبة لينة مناسبة، وتسمى أيضا قيمة β. في هذه الحالة، يجب على المستخدم التحقق مما إذا كانت بيانات RNA-seq تقدم تبعية متوسط تباين قوية. إذا كان المتوسط يعرض علاقة خطية قوية مع التباين (مع مراعاة كافة الجينات) ، يجب على المستخدم إعادة تشغيل التحليلات التحقق من المعلمة "تطبيق VST" لإزالة تبعية متوسط التباين للبيانات النسخية. من الضروري دائما التحقق مما إذا كان هناك تبعية متوسط تباين قوية في البيانات وإزالتها عند وجودها.

وقد استخدمت CEMiTool على نطاق واسع لتحديد واستكشاف المعنى البيولوجي لوحدات التعبير المشترك. أظهرت دراسة للعدوى الحادة CHIKV وحدة ذات نشاط أعلى في المرضى بعد يومين إلى 4 أيام من ظهور الأعراض7. أظهر الإثراء الوظيفي لهذه الوحدة من قبل ORA زيادة في الخلايا الأحادية والعدلات7. قدمت دراسة التطعيم ضد الأنفلونزا باستخدام نسخ الدم من خط الأساس إلى اليوم السابع بعد التطعيم وحدات التعبير المشترك المخصبة وظيفيا للعمليات البيولوجية المتعلقة بالخلايا القاتلة الطبيعية T و B والخلايا الأحادية والنيتروفيل واستجابات الإنترفيرون وتنشيط الصفائح الدموية18.

وبالنظر إلى التباين من مجموعات البيانات النسخية، يمكن أن يشكل تحديد وقياس عدم تجانس البيانات تحديا لأن العديد من المتغيرات يمكن أن تؤثر على ملف تعريف التعبير الجيني7,11. يوفر برنامج MDP طريقة لتحديد وتحديد العينات المضطربة من الأشخاص الأصحاء والمصابين باتباع هذه الخطوات: (1) حساب طريقة مركزية (متوسط أو متوسط) والانحراف المعياري لعينات التحكم؛ '2' حساب طريقة مركزية (متوسط أو متوسط) والانحراف المعياري لعينات التحكم؛ '2' حساب طريقة مركزية (متوسط أو متوسط) والانحراف المعياري لعينات التحكم؛ '2' حساب طريقة مركزية (متوسط أو متوسط) الانحراف المعياري لعينات التحكم؛ '2' حساب طريقة مركزية (متوسط أو متوسط) الانحراف المعياري لعينات المكافحة؛ '2' حساب طريقة مركزية (متوسط أو متوسط) والانحراف '2' استخدام القيم التي تم الحصول عليها لحساب درجة z لجميع الجينات؛ '3' وضع حد أدنى من الدرجة z المطلقة أكبر من 2، يشير إلى انحرافات تمثيلية عن عينات التحكم؛ و(4) حساب متوسط القيم الجينية باستخدام الدرجات التي تمت تصفيتها لكل عينة. على الرغم من وجود بعض القيود لتحليل scRNA-seq ، كانت هذه الأداة وظيفية في تحديد درجة الاضطراب من microarray و RNA-seq data11. بالإضافة إلى ذلك ، استخدمت دراسة سابقة هذه الأداة لإثبات الدرجة الجزيئية للاضطرابات المرتفعة على نسخ الدم في مرضى السل والسكري19. في هذا العمل ، تم إظهار اضطراب السيطرة والعينات المصابة بشدة CHIKV باستخدام الأفراد الأصحاء كمجموعة مرجعية.

تحليل الإثراء الوظيفي الذي يقوم به Enrichr هو ORA20,21. ORA هو نوع واحد من تحليل الإثراء الوظيفي الذي يجب على المستخدم توفير قائمة DEGs للأداة. وعادة ما يتم فصل قائمة DEGs في قائمة DEG الخاضعة للتنظيم لأسفل وفي قائمة DEG منظمة. هناك أدوات أخرى لأداء ORA، من بينها، gProfiler، والذي يتوفر في نسخة ويب سهلة الاستخدام22 و goseq23 التي تتوفر كحزمة R على الموصل الحيوي. وهناك نوع آخر من التحليل الوظيفي للإثراء هو GSEA. لأداء GSEA ، يجب على المستخدم توفير جميع الجينات في قائمة مرتبة. عادة ما يتم تصنيف هذه القائمة وفقا للتعبير الجيني في تغيير أضعاف.

يوفر Enrichr دائما أفضل 10 مجموعات جينية غنية استنادا إلى قيم p الخاصة بها في نتيجة الرسم البياني الشريطي. لذلك ، يجب على المستخدم أن يكون في حالة تأهب عند تفسير النتائج ، إذا كان هناك أقل من 10 مجموعات جينية غنية ، فإن الرسم البياني الشريطي سيظهر أيضا عمليات بيولوجية غير غنية. لتجنب هذا الخطأ، يجب على المستخدم إنشاء قطع لقيمة p ومراقبة القيم p للمسارات قبل افتراض أن يتم إثراء كافة مجموعات الجينات من الرسم البياني الشريطي. وعلاوة على ذلك، يجب أن يكون المستخدم على علم بأن ترتيب مجموعات الجينات 10 المعروضة في الرسم البياني الشريطي وفقا للقيم ف، وليس القيم p المعدلة. في حالة رغبة المستخدم في إظهار جميع المسارات المخصبة في رسم بياني شريطي أو حتى إعادة ترتيب وفقا لقيم p المعدلة ، فمن المستحسن أن يقوم المستخدم بإنشاء الرسم البياني الخاص به باستخدام الجدول الذي تم تنزيله. يمكن للمستخدم إجراء رسم بياني شريطي جديد باستخدام برنامج Excel أو حتى R.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

وليس لدى صاحبي البلاغ ما يكشفان عنه.

Acknowledgments

يتم تمويل HN من قبل FAPESP (أرقام المنح: #2017/50137-3، 2012/19278-6، 2018/14933-2، 2018/21934-5، و2013/08216-2) والمجلس الوطني لنواب الشعب (313662/2017-7).

نحن ممتنون بشكل خاص للمنح التالية للزملاء: ANAG (FAPESP Process 2019/13880-5)، VEM (FAPESP Process 2019/16418 -0)، IMSC (FAPESP عملية 2020/05284-0)، APV (FAPESP عملية 2019/27146-1) و، RLTO (عملية CNPq 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

علم المناعة والعدوى، العدد 181، تسلسل الإنتاجية العالية، الحمض النووي الريبي-seq، التفاعل المضيف-الممرض، الجينات المعرب عنها بشكل تفاضلي، الجينات المعرب عنها، التحليل الوظيفي، الدرجة الجزيئية من اضطراب العينات
تحليل النسخ عالي الإنتاجية للتحقيق في التفاعلات بين المضيف ومسببات الأمراض
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter