Summary

تحليل تجارب الحمض النووي الريبي متعدد العوامل باستخدام DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress هي أداة قائمة على البرنامج النصي يتم تنفيذها في R لإجراء تحليل RNA-Seq من مراقبة الجودة إلى التعبير المشترك. يتعامل DiCoExpress مع التصميم الكامل وغير المتوازن حتى 2 من العوامل البيولوجية. يرشد هذا الفيديو التعليمي المستخدم من خلال الميزات المختلفة ل DiCoExpress.

Abstract

يتطلب الاستخدام السليم للنمذجة الإحصائية في تحليل بيانات NGS مستوى متقدما من الخبرة. كان هناك مؤخرا إجماع متزايد على استخدام النماذج الخطية المعممة للتحليل التفاضلي لبيانات RNA-Seq والاستفادة من نماذج الخليط لإجراء تحليل التعبير المشترك. لتقديم إعداد مدار لاستخدام أساليب النمذجة هذه ، قمنا بتطوير DiCoExpress الذي يوفر خط أنابيب R موحد لإجراء تحليل RNA-Seq. بدون أي معرفة خاصة في الإحصاء أو برمجة R ، يمكن للمبتدئين إجراء تحليل RNA-Seq كامل من ضوابط الجودة إلى التعبير المشترك من خلال التحليل التفاضلي القائم على التناقضات داخل نموذج خطي معمم. يقترح تحليل التخصيب على كل من قوائم الجينات المعبر عنها بشكل تفاضلي ، ومجموعات الجينات المشتركة في التعبير. تم تصميم هذا الفيديو التعليمي كبروتوكول خطوة بخطوة لمساعدة المستخدمين على الاستفادة الكاملة من DiCoExpress وإمكاناته في تمكين التفسير البيولوجي لتجربة RNA-Seq.

Introduction

الجيل التالي من تقنية تسلسل الحمض النووي الريبي (RNA-Seq) هي الآن المعيار الذهبي لتحليل النسخ1. منذ الأيام الأولى للتكنولوجيا ، أسفرت الجهود المشتركة لأخصائيي المعلوماتية الحيوية والإحصاء الحيوي عن تطوير العديد من الأساليب التي تعالج جميع الخطوات الأساسية للتحليلات النسخية ، من رسم الخرائط إلى تحديد كمية النسخ2. يتم تطوير معظم الأدوات المتاحة اليوم لعالم الأحياء داخل بيئة برمجيات R للحوسبة الإحصائية والرسوم البيانية3 ، وتتوفر العديد من الحزم لتحليل البيانات البيولوجية في مستودع Bioconductor4. توفر هذه الحزم تحكما كاملا في التحليل وتخصيصه ، ولكنها تأتي على حساب الاستخدام المكثف لواجهة سطر الأوامر. نظرا لأن العديد من علماء الأحياء أكثر ارتياحا لنهج “النقطة والنقرة”5 ، فإن إضفاء الطابع الديمقراطي على تحليلات RNA-Seq يتطلب تطوير واجهات أو بروتوكولات أكثر سهولة في الاستخدام6. على سبيل المثال ، من الممكن إنشاء واجهات ويب لحزم R باستخدام Shiny7 ، ويتم جعل تحليل بيانات سطر الأوامر أكثر سهولة باستخدام واجهة R-studio8 . يمكن أن يساعد تطوير برامج تعليمية مخصصة خطوة بخطوة أيضا المستخدم الجديد. على وجه الخصوص ، يكمل الفيديو التعليمي نصا كلاسيكيا ، مما يؤدي إلى فهم أعمق لجميع خطوات الإجراء.

قمنا مؤخرا بتطوير DiCoExpress9 ، وهي أداة لتحليل تجارب RNA-Seq متعددة العوامل في R باستخدام طرق تعتبر الأفضل بناء على دراسات مقارنة محايدة10,11,12. بدءا من جدول العد ، يقترح DiCoExpress خطوة لمراقبة جودة البيانات متبوعة بتحليل التعبير الجيني التفاضلي (حزمة edgeR13) باستخدام نموذج خطي معمم (GLM) وتوليد مجموعات التعبير المشترك باستخدام نماذج خليط Gaussian (حزمة coseq12). يتعامل DiCoExpress مع التصميم الكامل وغير المتوازن حتى 2 من العوامل البيولوجية (أي النمط الوراثي والعلاج) وعامل تقني واحد (أي التكرار). تكمن أصالة DiCoExpress في بنية الدليل الخاصة به التي تخزن وتنظم البيانات والبرامج النصية والنتائج وفي أتمتة كتابة التناقضات مما يسمح للمستخدم بالتحقيق في العديد من الأسئلة داخل نفس النموذج الإحصائي. وبذل جهد أيضا لتوفير نواتج بيانية توضح النتائج الإحصائية.

تتوفر مساحة عمل DiCoExpress في https://forgemia.inra.fr/GNet/dicoexpress. يحتوي على أربعة أدلة واثنين من ملفات pdf وملفين نصيين. يحتوي دليل البيانات / البيانات على مجموعات بيانات الإدخال ؛ لهذا البروتوكول ، سنستخدم مجموعة البيانات “التعليمية”. يحتوي دليل المصادر / الدليل على سبع وظائف R ضرورية لإجراء التحليل ، ويجب ألا يتم تعديلها من قبل المستخدم. يتم تشغيل التحليل باستخدام البرامج النصية المخزنة في دليل Template_scripts / . يسمى البروتوكول المستخدم في هذا البروتوكول DiCoExpress_Tutorial_JoVE.R ويمكن تكييفه بسهولة مع أي مشروع نسخي. تتم كتابة جميع النتائج في دليل النتائج / وتخزينها في دليل فرعي مسمى وفقا للمشروع. يحتوي ملف README.md على معلومات تثبيت مفيدة، ويمكن العثور على أي تفاصيل محددة تتعلق بالطريقة واستخدامها في ملف DiCoExpress_Reference_Manual.pdf.

يرشد هذا الفيديو التعليمي المستخدم من خلال الميزات المختلفة ل DiCoExpress بهدف التغلب على التردد الذي يشعر به علماء الأحياء باستخدام الأدوات القائمة على سطر الأوامر. نقدم هنا تحليل مجموعة بيانات RNA-Seq اصطناعية تصف التعبير الجيني في ثلاث نسخ بيولوجية من أربعة أنماط وراثية ، مع أو بدون علاج. سنتناول الآن الخطوات المختلفة لسير عمل DiCoExpress الموضح في الشكل 1. يتوفر البرنامج النصي الموضح في قسم البروتوكول وملفات الإدخال على الموقع: https://forgemia.inra.fr/GNet/dicoexpress

إعداد ملفات البيانات
يجب تسمية ملفات csv الأربعة المخزنة في دليل البيانات / الدليل وفقا لاسم المشروع. في مثالنا ، تبدأ جميع الأسماء ب “البرنامج التعليمي” ، وسنقوم بتعيين Project_Name = “البرنامج التعليمي” في الخطوة 4 من البروتوكول. يجب الإشارة إلى الفاصل المستخدم في ملفات csv في متغير سبتمبر في الخطوة 4. في مجموعة البيانات “التعليمية” الخاصة بنا ، يكون الفاصل عبارة عن جدولة. بالنسبة للمستخدمين المتقدمين، يمكن تقليل مجموعة البيانات الكاملة إلى مجموعة فرعية من خلال توفير قائمة بالإرشادات Project_Name جديد من خلال متغير عامل التصفية. يتجنب هذا الخيار النسخ الزائدة عن الحاجة من ملفات الإدخال ويتحقق من مبادئ FAIR14.

من بين ملفات csv الأربعة ، تكون ملفات COUNTS و TARGET فقط إلزامية. وهي تحتوي على الأعداد الخام لكل جين (هنا Tutorial_COUNTS.csv) ووصف التصميم التجريبي (هنا Tutorial_TARGET.csv). يصف ملف TARGET.csv كل عينة (عينة واحدة لكل صف) مع طريقة لكل عامل بيولوجي أو تقني (في الأعمدة). نوصي بشدة بأن تبدأ الأسماء المختارة للطرائق بحرف وليس رقم. لا يمكن تغيير اسم العمود الأخير (“النسخ المتماثل”). وأخيرا، يجب أن تتطابق الأسماء النموذجية (العمود الأول) مع الأسماء الموجودة في عناوين ملف COUNTS.csv (Genotype1_control_rep1 في مثالنا). ملف التخصيب.csv يحتوي فيه كل سطر على Gene_ID واحد وشرط تعليق توضيحي واحد مطلوب فقط إذا كان المستخدم يخطط لتشغيل تحليل الإثراء. إذا كان أحد الجينات يحتوي على العديد من التعليقات التوضيحية ، فيجب كتابتها على أسطر مختلفة. ملف التعليق التوضيحي.csv اختياري ويستخدم لإضافة وصف قصير لكل جين في ملفات الإخراج. أفضل طريقة للحصول على ملف تعليق توضيحي هي استرداد المعلومات من قواعد بيانات مخصصة (على سبيل المثال ، Thalemine: https://bar.utoronto.ca/thalemine/begin.do ل Arabidopsis).

تركيب ديكوإكسبريس
يتطلب DiCoExpress حزم R محددة. استخدم مصدر سطر الأوامر(“.. /Sources/Install_Packages.R”) في وحدة تحكم R للتحقق من حالة تثبيت الحزمة المطلوبة. بالنسبة للمستخدمين على Linux ، هناك حل آخر هو تثبيت الحاوية المخصصة ل DiCoExpress والمتوفرة في https://forgemia.inra.fr/GNet/dicoexpress/container_registry. بحكم التعريف ، تحتوي هذه الحاوية على DiCoExpress مع جميع الأجزاء المطلوبة ، مثل المكتبات والتبعيات الأخرى.

Protocol

1. ديكو اكسبرس افتح جلسة استوديو R واضبط الدليل على Template_scripts. افتح البرنامج النصي DiCoExpress_Tutorial.R في استوديو R. تحميل وظائف DiCoExpress في جلسة عمل R مع الأوامر التالية:مصدر > (“.. /المصادر/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /البيانات”> Results_Directory = “.. /النتائج/” تحميل ملفات البيا?…

Representative Results

يتم حفظ جميع مخرجات DiCoExpress في البرنامج التعليمي / الدليل ، ويتم وضعها نفسها داخل دليل النتائج / النتائج. نقدم هنا بعض الإرشادات لتقييم الجودة الشاملة للتحليل. مراقبة الجودةيعد ناتج مراقبة الجودة ، الموجود في Quality_Control / الدليل ، ضروريا للتحقق من أن نتائج تحليل RNA-Seq ?…

Discussion

نظرا لأن RNA-Seq أصبح طريقة منتشرة في كل مكان في الدراسات البيولوجية ، فهناك حاجة مستمرة لتطوير أدوات تحليلية متعددة الاستخدامات وسهلة الاستخدام. غالبا ما تكون الخطوة الحاسمة في معظم سير العمل التحليلي هي تحديد الجينات التي يتم التعبير عنها بشكل تفاضلي بين الظروف البيولوجية و / أو العلاجات<su…

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

تم دعم هذا العمل بشكل رئيسي من قبل ANR PSYCHE (ANR-16-CE20-0009). يشكر المؤلفون F. Desprez على بناء حاوية DiCoExpress. يتم دعم عمل KB من خلال برنامج الاستثمار من أجل المستقبل ANR-10-BTBR-01-01 Amaizing . تستفيد مختبرات GQE و IPS2 من دعم Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Referencias

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Citar este artículo
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video