Summary

ביצוע כריית נתונים ניתוח אינטגרטיבי של ביואריקר בסרטן השד באמצעות מספר מסדי נתונים נגישים בפומבי

Published: May 17, 2019
doi:

Summary

כאן, אנו מציגים פרוטוקול כדי לחקור את הביטויים מנבא הישרדות של סרטן השד המבוסס על ניתוח מקיף של מאגרי נתונים קליניים במאגר נגזר ממגוון של מסדי נתונים נגישים בפומבי, באמצעות האסטרטגיה של ביטוי, קורלציה ו ניתוח הישרדות צעד אחר צעד.

Abstract

בשנים האחרונות, מאגרי מידע המתעוררים נועדו להנמיך את המחסומים עבור מתקרבים מורכבות נתונים גנומית של הסרטן, ובכך, הקלה חוקרים לנתח ולפרש גנים, דגימות ונתונים קליניים על פני סוגים שונים של סרטן. בזאת, אנו מתארים הליך פעולה מעשית, לקיחת ID1 (מעכב של כריכת ה-DNA חלבונים 1) כדוגמה, כדי לאפיין את דפוסי הביטוי של ביואריקר והישרדות של סרטן השד המבוסס על ערכות נתונים קליניים במאגר נגזר מסדי נתונים נגישים באינטרנט, כולל ONCOMINE, bcGenExMiner ורה v 4.0 (סרטן השד ביטוי כורה v 4.0), GOBO (ביטוי גנטי תוצאה עבור סרטן השד באופן מקוון), HPA (אטלס החלבון האנושי), והתווין של קפלן מאייר. הניתוח החל בביצוע שאילתות על תבנית הביטוי של גן העניין (למשל, ID1) בדגימות סרטני לעומת דגימות רגילות. אז, ניתוח מתאם בין ID1 ו clinicopathological מאפיינים בסרטן השד בוצעה. לאחר מכן, פרופילי הביטויים של ID1 היתה מרובדת בהתאם לקבוצות שונות. לבסוף, הקשר בין ביטוי ID1 לתוצאת ההישרדות נותח. הליך הפעולה מפשט את הקונספט לשלב סוגי נתונים רב-ממדיים ברמת הגנים ממסדי נתונים שונים והשערות בדיקה בנוגע להישנות והקשר גנומית של אירועי שינוי גנים בסרטן השד. שיטה זו יכולה לשפר את האמינות ואת הייצוג של המסקנות, ובכך, להציג פרספקטיבה אינפורמטיבית על גן של עניין.

Introduction

סרטן השד היא מחלה הטרוגנית עם פרוגנוזה מגוונת ואסטרטגיות טיפול בתתי-סוגים שונים, שבו הפתוגנזה והתפתחות קשורים כנראה עם מנגנונים מולקולריים שונים1,2 , 3. עם זאת, זיהוי מטרה טיפולית לוקח בדרך כלל שנים, או אפילו עשורים, מן התגלית הראשונית במחקר בסיסי לשימוש קליני4. הגנום ביישום רחב של טכנולוגיית רצף התפוקה גבוהה עבור הגנום סרטן יש מתקדם מאוד את תהליך החיפוש אחר סמנים יקרי ערך או מטרות טיפוליות 5.

כמות מוחצת של נתונים גנומיקה של סרטן שנוצרו מפלטפורמות גנומיקה של סרטן בקנה מידה גדול, כגון ICGC (הגנום הבינלאומי סרטן קונסורציום) ו TCGA (סרטן הגנום אטלס), הוא פוזות אתגר גדול עבור חוקרים לבצע נתונים חקר, אינטגרציה וניתוח, במיוחד עבור משתמשים חסרי הכשרה אינטנסיבית באינפורמטיקה וחישוביות6,7,8,9,10. בשנים האחרונות, מאגרי מידע המתעוררים, (למשל, oncomine, bcgenexminer ורה v 4.0, והתווין קפלן-מאייר, וכו ‘) תוכננו ופותחו כדי להוריד את הבר לקראת מורכבות מורכבים הגנוסטים של הסרטן, ובכך, הקלה חוקרים לנתח ו לפרש את הגנים, דגימות ונתונים קליניים על פני סוגים שונים של סרטן11. המטרה של פרוטוקול זה היא לתאר אסטרטגיית מחקר המשולבת עם רמות מרובות של מידע גנטי מסדרה של מסדי נתונים פתוחים לגישה, אשר הכירו באופן נרחב על ידי מספר רב של חוקרים, כדי לזהות את הסמנים הפוטנציאליים ו גורמי התחזיות לסרטן השד.

מסד הנתונים ONCOMINE הוא פלטפורמת כריית נתונים מבוססת-אינטרנט עם מידע microarray סרטן והוא נועד להקל על גילוי הסמנים החדשניים ומטרות טיפוליות11. כיום, יש יותר מ 48,000,000 ביטוי גנים מדידות מ 65 ביטוי גנים datasets במסד נתונים זה11,12. V 4.0 bcGenExMiner ורה (כלי חינם עבור מוסד ללא כוונת רווח), המכונה גם סרטן השד גן-ביטוי כורה, הוא יישום ידידותי למשתמש אינטרנט הכולל תוצאות מיקרו DNA של 3,414 התאושש סרטן השד מטופלים ו 1,209 מנוסה אירוע הגנאי13. הוא נועד לשפר את ביצועי ניתוח הגן התחזיות עם R תוכנה סטטיסטית וחבילות.

GOBO הוא רב תכליתי ידידותי למשתמש כלי מקוון עם מידע microarrays (למשל, Affymetrix U133A) מ 51-לדוגמה סרטן השד להגדיר קו הגדר ו 1881-לדוגמה מערכת הנתונים גידול בשד, המאפשר מגוון רחב של ניתוחים14. ישנם מגוון של יישומים זמינים במסד הנתונים GOBO, הכוללים ניתוח מהיר של פרופילי ביטוי גנים בסוגים מולקולריים שונים של גידולים בשד וקווי התא, הקרנה עבור שיתוף הגנים ליצירת מוטאים פוטנציאליים, ו ניתוח מתאם בין התוצאה לבין רמות ביטוי גנים של גנים בודדים, סטים של גנים, או חתימות גנים בערכת נתונים של סרטן השד15.

החלבון האנושי אטלס הוא תוכנית גישה פתוחה שנועדה מדענים לחקור פרוטדום אנושי, אשר תרם כבר מספר רב של פרסומים בתחום הביולוגיה האנושית ומחלות. אטלס החלבון האנושי מוכר כמשאב ליבה אירופאי לקהילת מדעי החיים16,17.

תווין קפלן מאייר הוא כלי מקוון המשלב ביטוי גנים נתונים קליניים בו זמנית המאפשר הערכה של השפעת התחזיות של 54,675 גנים מבוסס על 10,461 דגימות סרטן, אשר כוללים 1,065 קיבה, 2,437 ריאות, 1,816 השחלות 5,143 סרטן השד חולים עם מעקב מרושע של 33/49/40/69 חודשים18. מידע של ביטוי גנים, הישרדות ללא התדרדרות (rfs) והישרדות כוללת (OS) הם להורדה ממסד נתונים זה19,20.

כאן, אנו מתארים הליך פעולה מעשית של שימוש במסדי נתונים מרובים הנגישים לציבור כדי להשוות, לנתח ולהמחיש דפוסי שינויים בביטוי של הגן של עניין על פני לימודי סרטן מרובים, עם המטרה של הסיכום פרופילי ביטויים, ערכי תחזיות ופונקציות ביולוגיות פוטנציאליות בסרטן השד. לדוגמה, מחקרים שנעשו לאחרונה הצביעו על תכונות אונגניים של מזהה חלבונים בגידולים והיה קשור לתכונות ממאירות, כולל שינוי הסלולר, הממרה, התפשטות משופרת גרורות21, 22,23. עם זאת, כל חבר של משפחת מזהה משחק תפקידים ברורים סוגים שונים של גידולים מוצקים, ואת תפקידם בסרטן השד נשאר ברור24. במחקרים קודמים, בחנו דרך שיטה זו, מצאנו כי ID1 היה אינדיקטור התחזיות משמעותי בסרטן השד25. לכן, הפרוטוקול ייקח ID1 כדוגמה להציג את שיטות הכרייה נתונים.

הניתוח מתחיל מביצוע שאילתה על תבנית הביטוי של גן העניין בדגימות סרטני לעומת דגימות רגילות ב-ONCOMINE. לאחר מכן, מתאם הביטוי של גנים של עניין בסרטן השד בוצע באמצעות bc-GenExMiner ורה v 4.0, GOBO, ו ONCOMINE. לאחר מכן, פרופילי הביטויים של ID1 התבצעה בהתאם לקבוצות שונות באמצעות שלושה מסדי הנתונים שלעיל. לבסוף, הקשר בין ID1 ביטוי להישרדות החוצה נותח באמצעות bc-GenExMiner ורה v 4.0, אטלס החלבון האנושי, ותווין קפלן-מאייר. פרוצדורת הפעולה הוצגה כתרשים הזרימה באיור 1.

Protocol

1. ניתוח דוגמאות לביטויים עבור אל ממשק האינטרנט של ONCOMINE26. השג את רמות הביטוי היחסיות של הגן ID1 בסוגים שונים של ממאירות על-ידי הקלדת ID1 לתיבת החיפוש. בחר ‘ סוג ניתוח ‘ מתפריט ‘ מסננים ראשיים ‘. לאחר מכן, בחר סרטן לעומת ני?…

Representative Results

תוצאה מייצגת של כריית נתונים וניתוח אינטגרטיבי של סרטן השד ביוארקר בוצעה באמצעות ID1, אחד מעכבי של בני משפחה מחייב DNA, אשר דווחו במחקר הקודם 25. כפי שמתואר באיור 2, ההבדלים של ID1 mrna ביטוי בין הגידול ורקמות נורמלי ב?…

Discussion

ניתוח מקיף של מסדי נתונים ציבוריים עשוי להצביע על הפונקציה הבסיסית של הגן של עניין ולחשוף את הקשר הפוטנציאלי בין הגן הזה ואת הפרמטרים clinicopathological בסרטן ספציפי27,31. החקירה והניתוח המבוסס על מסד נתונים אחד עשוי לספק פרספקטיבות מוגבלות או מבודדות עקב הטיית הבחי…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו היתה נתמכת בחלקו על ידי הקרן המדע הטבעי של מחוז גואנג-דונג, סין (No. 2018A030313562), הרפורמה בפרויקט לרפורמות של גואנג-דונג בסיס להוראה קלינית (NO.  2016JDB092), הקרן הלאומית למדע הטבע של סין (81600358), והנוער כישרון חדשני פרויקט של מכללות ואוניברסיטאות בפרובינצית גואנג-דונג, סין (NO 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

References

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).
check_url/kr/59238?article_type=t

Play Video

Cite This Article
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video