Summary

ثلاث طرق لتحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2

Published: September 18, 2021
doi:

Summary

وقدم بروتوكول مفصل لأساليب تحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2.

Abstract

تسلسل الحمض النووي الريبي (RNA-seq) هي واحدة من التقنيات الأكثر استخداما على نطاق واسع في transcriptomics لأنها يمكن أن تكشف عن العلاقة بين التغيير الوراثي والعمليات البيولوجية المعقدة ولها قيمة كبيرة في التشخيص، والتكهنات، والعلاجات من الأورام. التحليل التفاضلي للبيانات RNA-seq أمر بالغ الأهمية لتحديد النسخ الشاذة ، و limma و EdgeR و DESeq2 هي أدوات فعالة للتحليل التفاضلي. ومع ذلك، يتطلب التحليل التفاضلي RNA-seq مهارات معينة مع لغة R والقدرة على اختيار طريقة مناسبة، وهو ما يفتقر إليه منهج التعليم الطبي.

هنا، ونحن نقدم بروتوكول مفصل لتحديد الجينات المعرب عنها بشكل تفاضلي (DEGs) بين سرطان cholangiocarcinoma (CHOL) والأنسجة العادية من خلال ليما، DESeq2 وEdgR، على التوالي، وتظهر النتائج في قطع بركان والرسوم البيانية فين. البروتوكولات الثلاثة ليما، DESeq2 و EdgeR متشابهة ولكن لها خطوات مختلفة بين عمليات التحليل. على سبيل المثال، يتم استخدام نموذج خطي للإحصائيات في limma، بينما يتم استخدام التوزيع الثنائي السالب في edgeR و DESeq2. بالإضافة إلى ذلك، فإن بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma ولكنها ليست ضرورية ل DESeq2.

هنا، نقدم بروتوكول مفصل لثلاث طرق تحليل تفاضلي: ليما، إيدجر و DESeq2. نتائج الطرق الثلاث متداخلة جزئيا. جميع الأساليب الثلاثة لها مزاياها الخاصة، واختيار الأسلوب يعتمد فقط على البيانات.

Introduction

تسلسل الحمض النووي الريبي (RNA-seq) هي واحدة من التقنيات الأكثر استخداما على نطاق واسع في transcriptomics مع العديد من المزايا (على سبيل المثال، إعادة إنتاج البيانات العالية)، وزادت بشكل كبير فهمنا لوظائف وديناميات العمليات البيولوجية المعقدة1،2. تحديد النصوص الشاذة في سياق بيولوجي مختلف ، والتي تعرف أيضا باسم الجينات المعرب عنها بشكل تفاضلي (DEGs) ، هو خطوة رئيسية في تحليل الحمض النووي الريبي- seq. RNA-seq يجعل من الممكن الحصول على فهم عميق للآليات الجزيئية ذات الصلة pathogenesis والوظائف البيولوجية. لذلك، يعتبر التحليل التفريقي قيمة للتشخيص، التكهن والعلاجات من الأورام3،4،5. حاليا، تم تطوير المزيد من حزم R/Bioconductor مفتوحة المصدر لتحليل التعبير التفاضلي RNA-seq، وخاصة ليما، DESeq2 و EdgeR1،6،7. ومع ذلك، يتطلب التحليل التفاضلي مهارات معينة مع لغة R والقدرة على اختيار الطريقة المناسبة، والتي تفتقر إليها المناهج الدراسية للتعليم الطبي.

في هذا البروتوكول، استنادا إلى cholangiocarcinoma (CHOL) RNA-seq عدد البيانات المستخرجة من أطلس الجينوم السرطان (TCGA)، ثلاثة من الطرق الأكثر شهرة (ليماEdgeR9 و DESeq210)نفذت، على التوالي، من قبل برنامج R11 لتحديد DEGs بين CHOL والأنسجة العادية. البروتوكولات الثلاثة لليما، إيدجر و DESeq2 متشابهة ولكن لها خطوات مختلفة بين عمليات التحليل. على سبيل المثال، تعد بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma8,9, بينما يستخدم DESeq2 تباينات المكتبة الخاصة به لتصحيح البيانات بدلا من تطبيع10. وعلاوة على ذلك، edgeR مناسبة خصيصا للبيانات RNA-seq، في حين يتم استخدام ليما لmicroarrays ورنا-seq. يتم اعتماد نموذج خطي من قبل limma لتقييم DEGs12، في حين تستند الإحصاءات في edgeR على التوزيعات الثنائية السلبية ، بما في ذلك تقدير Bayes التجريبي ، والاختبارات الدقيقة ، والنماذج الخطية المعممة واختبارات شبه الاحتمال9.

باختصار، نحن نقدم بروتوكولات مفصلة لتحليل التعبير التفاضلي RNA-seq باستخدام limma و DESeq2 و EdgeR على التوالي. بالإشارة إلى هذه المقالة، يمكن للمستخدمين بسهولة إجراء تحليل التفاضلية RNA-seq واختيار أساليب التحليل التفاضلي المناسبة لبياناتهم.

Protocol

ملاحظة: فتح برنامج R Studio وتحميل R ملف “DEGs.R” ، يمكن الحصول على الملف من الملفات الإضافية /البرامج النصية. 1. تحميل ومعالجة البيانات مسبقا قم بتنزيل بيانات العد عالية الإنتاجية (HTSeq) لورم تشولانجيوكارسينوما (CHOL) من أطلس جينوم السرطان (TCGA). يمكن تحقيق هذه الخطوة بسهولة بواسطة ا…

Representative Results

هناك مقاربات مختلفة لتصور نتيجة تحليل التعبير التفاضلي ، من بينها مؤامرة البركان والرسم التخطيطي Venn تستخدم بشكل خاص. حددت ليما 3323 DEGs بين CHOL والأنسجة الطبيعية مع |logFC|≥2 وdj. P.Val <0.05 كعتبات، من بينها 1880 كانت أسفل تنظيم في أنسجة CHOL و 1443 كانت منظمة صعودا(الشكل 1a). وفي الوقت نفسه، ح?…

Discussion

يمكن التعرف بسهولة على النصوص الشاذة وفيرة في السرطانات من خلال تحليل التفاضلية RNA-seq5. ومع ذلك، غالبا ما يتم تقييد تطبيق تحليل التعبير التفاضلي RNA-seq لأنه يتطلب مهارات معينة مع لغة R والقدرة على اختيار الأساليب المناسبة. لمعالجة هذه المشكلة، ونحن نقدم مقدمة مفصلة لطرق الثلاثة ا…

Disclosures

The authors have nothing to disclose.

Acknowledgements

وقد تم دعم هذا العمل من قبل المؤسسة الوطنية للعلوم الطبيعية في الصين (المنحة رقم 81860276) ومشاريع الصندوق الخاص الرئيسية للبرنامج الوطني للبحث والتطوير (المنحة رقم 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/62528?article_type=t

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video