Summary

أداء استخراج البيانات والتحليل التكاملي لمؤشر الحيوية في سرطان الثدي باستخدام قواعد بيانات متعددة يمكن الوصول اليها علنا

Published: May 17, 2019
doi:

Summary

هنا ، نقدم بروتوكولا لاستكشاف مؤشر الحيوية والبقاء علي قيد الحياة من سرطان الثدي استنادا إلى تحليل شامل من مجموعات البيانات السريرية المستمدة من مجموعه متنوعة من قواعد البيانات المتاحة للجمهور ، وذلك باستخدام استراتيجية التعبير والارتباط تحليل البقاء علي قيد الحياة خطوه بخطوه.

Abstract

وفي السنوات الاخيره ، صممت قواعد البيانات الناشئة لخفض الحواجز التي تحول دون الاقتراب من مجموعات البيانات الجينية المعقدة للسرطان ، مما يسهل علي المحققين تحليل وتفسير الجينات والعينات والمعطيات السريرية عبر أنواع مختلفه من السرطان. هنا ، ونحن وصف اجراء عمليه العملي ، مع الأخذ ID1 (مثبط الحمض النووي البروتينات ملزمه 1) علي سبيل المثال ، لتوصيف أنماط التعبير من المؤشرات الحيوية والبقاء علي قيد الحياة من سرطان الثدي علي أساس تجميع مجموعات البيانات السريرية المستمدة من قواعد البيانات المتاحة علي الإنترنت, بما في ذلك ONCOMINE, bcGenExMiner الخامس 4.0 (سرطان الثدي الجينات التعبير عامل المنجم الخامس 4.0), GOBO (الجينات التعبير علي أساس النتائج لسرطان الثدي علي الإنترنت), HPA (أطلس البروتين البشري), وكابلان ماير الراسمة بدا التحليل مع الاستعلام عن نمط التعبير من جين الفائدة (علي سبيل المثال ، ID1) في العينات السرطانية مقابل العينات العادية. ثم ، تم اجراء تحليل الارتباط بين ID1 والخصائص السريرية الباثولوجية في سرطان الثدي. بعد ذلك ، تم تقسيم ملامح التعبير عن ID1 وفقا للمجموعات الفرعية المختلفة. وأخيرا ، تم تحليل العلاقة بين التعبير ID1 ونتائج البقاء علي قيد الحياة. ويبسط اجراء التشغيل مفهوم دمج أنواع البيانات المتعددة الابعاد علي مستوي الجينات من قواعد بيانات مختلفه وفرضيات اختباريه فيما يتعلق بالتكرار والسياق الجيني لاحداث تغيير الجينات في سرطان الثدي. ويمكن لهذه الطريقة ان تحسن مصداقية الاستنتاجات وتمثيلها ، التالي فانها تقدم منظورا زاخرا بالمعلومات عن جين الاهتمام.

Introduction

سرطان الثدي هو مرض غير متجانسة مع مختلف التشخيص واستراتيجيات العلاج في الأنواع الفرعية الجزيئية المختلفة ، والتي من المحتمل ان تكون مرتبطة التولد والتنمية مع أليات الجزيئية المتباينة1،2 , 3. ومع ذلك ، تحديد الهدف العلاجي عاده ما يستغرق سنوات ، أو حتى عقود ، من الاكتشاف الاولي في البحوث الاساسيه للاستخدام السريري4. تطبيق الجينوم علي نطاق واسع من تكنولوجيا التسلسل عاليه الانتاجيه لجينوم السرطان قد تقدمت إلى حد كبير عمليه البحث عن المؤشرات الحيوية القيمة أو الأهداف العلاجية 5.

الكمية الساحقة من البيانات الجينوم السرطان المتولدة من منصات السرطان واسعه النطاق الجينوم ، مثل ICGC (الاتحاد الدولي لجينوم السرطان) و TCGA (أطلس الجينوم السرطاني) ، يشكل تحديا كبيرا للباحثين لأداء البيانات الاستكشاف والتكامل والتحليلات ، خاصه بالنسبة للمستخدمين الذين يفتقرون إلى التدريب المكثف في المعلوماتية والحسابات6و 7و8و9و10. في السنوات الاخيره ، وقواعد البيانات الناشئة ، (علي سبيل المثال ، ONCOMINE ، bcGenExMiner الخامس 4.0 ، وكابلان ماير الراسمة ، الخ) تم تصميم وتطويرها لخفض شريط لتقترب من مجموعات البيانات الجينية السرطان معقده ، التالي تسهيل المحققين لتحليل تفسير الجينات والعينات والبيانات السريرية عبر أنواع مختلفه من السرطان11. والهدف من هذا البروتوكول هو وصف استراتيجية بحثيه تتكامل مع مستويات متعددة من المعلومات الجينية من سلسله من قواعد بيانات النفاذ المفتوح ، التي اعترف بها علي نطاق واسع عدد كبير من الباحثين ، لتحديد المؤشرات البيولوجية المحتملة العوامل النذيره لسرطان الثدي.

قاعده البيانات ONCOMINE هو منصة علي شبكه الإنترنت لاستخراج البيانات مع معلومات ميكروصفيف السرطان ، ويهدف إلى تسهيل اكتشاف العلامات الحيوية الجديدة والأهداف العلاجية11. حاليا ، هناك أكثر من 48,000,000 التعبيرات الجينية القياسات من 65 مجموعات بيانات التعبير الجيني في هذه القاعدة11،12. و bcGenExMiner الخامس 4.0 (أداه مجانية للمؤسسة غير الربحية) ، وتسمي أيضا سرطان الثدي الجينات التعبير عامل المنجم ، هو تطبيق سهل الاستخدام علي شبكه الإنترنت التي تتالف من الحمض النووي ميكروصفائف نتائج 3,414 تعافي مرضي سرطان الثدي و 1,209 من ذوي الخبرة الحدث الازدراء13. وهو مصمم لتحسين أداء تحليل الجينات نذير مع البرامج الاحصائيه R والحزم.

و GOBO هو أداه متعددة الوظائف علي الإنترنت سهله الاستخدام مع المعلومات ميكروصفائف (علي سبيل المثال ، Affymetrix U133A) من مجموعه خط خليه سرطان الثدي 51 عينه ومجموعه بيانات ورم الثدي 1881 عينه ، التي تسمح لطائفه واسعه من التحليلات14. هناك مجموعه متنوعة من التطبيقات المتاحة في قاعده بيانات GOBO ، والتي تشمل التحليل السريع لملامح التعبير الجيني في الأنواع الفرعية الجزيئية المختلفة من أورام الثدي والخطوط الخلوية ، والكشف عن الجينات المعرب عنها لخلق metagenes المحتملة ، و تحليل الارتباط بين النتائج ومستويات التعبير الجيني من جينات واحده, مجموعات من الجينات, أو التوقيعات الجينية في البيانات سرطان الثدي مجموعه15.

أطلس البروتين البشري هو برنامج الوصول المفتوح المصممة للعلماء لاستكشاف بروتينيه البشرية ، والتي ساهمت بالفعل في عدد كبير من المنشورات في مجال البيولوجيا البشرية والمرض. يتم التعرف علي أطلس البروتين البشري كمورد أساسي أوروبي لمجتمع علوم الحياة16,17.

الراسمة كابلان ماير هو أداه علي الإنترنت دمج التعبير الجيني والبيانات السريرية في وقت واحد ان يسمح تقييم تاثير نذير من 54,675 الجينات علي أساس 10,461 عينات السرطان ، والتي تشمل 1,065 المعدة ، 2,437 الرئة ، 1,816 المبيض و 5,143 مرضي سرطان الثدي مع متابعه متوسط من 33/49/40/69 أشهر18. معلومات التعبير الجيني ، والبقاء علي قيد الحياة خاليه من الانتكاس (rfs) والبقاء الشامل (OS) للتحميل من قاعده البيانات هذه19،20.

هنا ، ونحن وصف اجراء عمليا لاستخدام قواعد البيانات متعددة المتاحة للجمهور للمقارنة ، وتحليل وتصور أنماط التغييرات في التعبير عن جين الفائدة عبر دراسات السرطان متعددة ، بهدف تلخيص ملامح التعبير ، والقيم النذيره والوظائف البيولوجية المحتملة في سرطان الثدي. فعلي سبيل المثال ، أشارت الدراسات الحديثة إلى خصائص البروتينات المرتبطة بالهوية في الأورام وارتبطت بالسمات الخبيثة ، بما في ذلك التحول الخلوي ، والخلود ، والانتشار المعزز ، والورم الخبيث21، 22و23. ومع ذلك ، كل عضو في عائله ID يلعب أدوارا متميزة في أنواع مختلفه من الأورام الصلبة ، ودورها في سرطان الثدي لا يزال غير واضح24. في الدراسات السابقة, استكشاف من خلال هذه الطريقة, وجدنا ان ID1 كان مؤشرا نذير ذات مغزى في سرطان الثدي25. ولذلك ، فان البروتوكول سياخذ ID1 كمثال لإدخال أساليب التعدين البيانات.

يبدا التحليل من الاستعلام عن نمط التعبير لجين الفائدة في العينات السرطانية مقابل العينات العادية في ONCOMINE. ثم ، تم تنفيذ الارتباط التعبير من الجينات الاهتمام في سرطان الثدي باستخدام bc-GenExMiner الخامس 4.0 ، GOBO ، و ONCOMINE. وبعد ذلك ، تم تقسيم لمحات التعبير عن ID1 وفقا لفئات فرعيه مختلفه باستخدام قواعد البيانات الثلاث المذكورة أعلاه. وأخيرا ، تم تحليل الارتباط بين التعبير ID1 والبقاء بها باستخدام bc-GenExMiner v 4.0 ، أطلس البروتين البشري ، وكابلان-ماير الراسمة. تم عرض اجراء التشغيل كمخطط انسيابي في الشكل 1.

Protocol

1. تحليل نمط التعبير انتقل إلى واجهه ويب ONCOMINE26. الحصول علي مستويات التعبير النسبي من ID1 الجينات في أنواع مختلفه من الأورام الخبيثة عن طريق كتابه ID1 إلى مربع البحث. حدد نوع التحليل من قائمه عوامل التصفية الاساسيه. ثم ، حدد…

Representative Results

وقد أجريت نتيجة تمثيليه لاستخراج البيانات والتحليل التكاملي لسرطان الثدي البيولوجية باستخدام ID1 ، واحده من مثبطات افراد الاسره ملزمه الحمض النووي ، والتي تم الإبلاغ عنها في الدراسة السابقة 25. كما هو موضح في الشكل…

Discussion

وقد يشير التحليل الشامل لقواعد البيانات العامة إلى الوظيفة الاساسيه لجين الاهتمام ويكشف عن الصلة المحتملة بين هذه الجينات والمعلمات الباثولوجية في السرطان المحدد27،31. وقد يوفر الاستكشاف والتحليل القائم علي قاعده بيانات واحده وجات نظر محدوده أو منعزلة بسب…

Disclosures

The authors have nothing to disclose.

Acknowledgements

وقد دعم هذا العمل جزئيا مؤسسه العلوم الطبيعية في مقاطعه قوانغدونغ ، الصين (No. 2018A030313562) ، مشروع إصلاح التعليم في قاعده قوانغدونغ للتدريس السريري (رقم.  2016JDB092) ، المؤسسة الوطنية للعلوم الطبيعية في الصين (81600358) ، ومشروع المواهب المبتكرة للشباب من الكليات والجامعات في مقاطعه قوانغدونغ ، الصين (رقم 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

References

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).
check_url/59238?article_type=t

Play Video

Cite This Article
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video