Summary

利用多个可公开访问的数据库对乳腺癌生物标志物进行数据挖掘和综合分析

Published: May 17, 2019
doi:

Summary

在这里, 我们提出了一个协议, 探索乳腺癌的生物标志物和生存预测指标的基础上, 综合分析汇集的临床数据集, 从各种可公开访问的数据库, 使用表达策略, 相关和一步一步地进行生存分析。

Abstract

近年来, 新兴数据库旨在降低处理复杂的癌症基因组数据集的障碍, 从而促进研究人员分析和解释不同类型癌症的基因、样本和临床数据。在此, 我们描述了一个实用的手术过程, 以 ID1 (DNA 结合蛋白的抑制剂 1) 为例, 以描述乳腺癌的生物标志物和生存预测剂的表达模式的基础上, 集合的临床数据集, 从在线访问数据库, 包括 ONCOMMINE、bcGenExMiner v4.0 (乳腺癌基因表达矿工 v4.0)、GOBO (乳腺癌在线基因表达结果)、HPA (人类蛋白质图集) 和 Kaplan-Meier 绘图仪。分析从查询癌症样品与正常样本的感兴趣基因 (例如 ID1) 的表达模式开始。然后, 对 ID1 与乳腺癌临床病理特征进行了相关分析。其次, 根据不同的亚群对 ID1 的表达谱进行分层。最后, 分析了 ID1 表达与生存结果的关系。该操作过程简化了从不同数据库整合基因级多维数据类型的概念, 并测试了有关乳腺癌基因改变事件的复发和基因组背景的假设。该方法可以提高结论的可信度和代表性, 从而为感兴趣的基因提供信息视角。

Introduction

乳腺癌是一种异质性疾病, 在不同的分子亚型中具有不同的预后和治疗策略, 其发病机制和发展可能与不同的分子机制1,2有关,3. 然而, 确定治疗目标通常需要数年甚至数十年的时间, 从基础研究的初步发现到临床使用4。高通量测序技术在癌症基因组中的广泛应用, 极大地推动了寻找有价值的生物标志物或治疗靶点的过程 5

从大型癌症基因组学平台 (如 ICGC (国际癌症基因组联盟) 和 TCGA (癌症基因组图集)) 产生的大量癌症基因组学数据, 给研究人员执行数据带来了巨大挑战探索、集成和分析, 特别是对于缺乏信息学和计算方面的强化培训用户, 678910。近年来, 新兴数据库 (如 ONCOMINE、bcGenExMiner v4.0 和 Kaplan-Meier 绘图仪等) 的设计和开发旨在降低处理复杂的癌症基因组数据集的门槛, 从而方便调查人员分析和分析和开发。解释不同类型癌症的基因、样本和临床数据11。该协议的目的是描述一种研究策略, 该策略与一系列开放访问数据库中的多层次基因信息相结合, 这些数据库已得到大量研究人员的广泛认可, 以确定潜在的生物标志物和乳腺癌的预后因素。

ONCOM内数据库是一个基于网络的数据挖掘平台, 包含癌症微阵列信息, 旨在促进发现新的生物标志物和治疗目标11。目前, 该数据库中有超过4800万的基因表达测量数据, 来自65个基因表达数据集11,12个。BcGenExMiner v4.0 (非营利机构的免费工具), 也称为乳腺癌基因表达矿工, 是一个用户友好的基于 web 的应用程序, 由 3 414名康复乳腺癌患者和 1 209 例患者的 DNA 微阵列结果组成。贬损事件13。它旨在提高基因预后分析性能的 r 统计软件和包。

GOB 是一个多功能的用户友好在线工具, 提供微阵列信息 (例如 Affymetrix U133A), 这些信息来自51样本的乳腺癌细胞系和1881个样本的乳腺肿瘤数据集, 可提供广泛的分析14。GOB 数据库中有多种应用, 包括快速分析乳房肿瘤和细胞系不同分子亚型的基因表达谱, 筛选共同表达的基因以创造潜在的偏子, 以及乳腺癌数据集15中单个基因、基因集合或基因特征的结果和基因表达水平之间的相关分析.

人类蛋白质地图集是一个开放的方案, 为科学家设计, 以探索人类蛋白质组, 它已经为人类生物学和疾病领域的大量出版物做出了贡献。人类蛋白质地图集被认为是生命科学社区16,17的欧洲核心资源。

Kaplan Meier 绘图仪是一个在线工具, 同时整合基因表达和临床数据, 可以根据 10, 461个癌症样本评估 54, 675 基因的预后效应, 其中包括 1, 65个胃、2, 437 例肺、1 816 例卵巢和 5, 143 例乳腺癌患者平均随访 33/49/69-69个月 18.基因表达、无复发生存 (rfs) 和整体生存 (os) 的信息可从该数据库下载19,20

在这里, 我们描述了一个实际的操作过程, 使用多个可公开访问的数据库来比较、分析和可视化在多个癌症研究中感兴趣的基因表达的变化模式, 目的是总结乳腺癌的表达谱、预后值和潜在生物学功能。例如, 最近的研究表明 ID 蛋白在肿瘤中的致癌特性, 并与恶性特征有关, 包括细胞转化、永生化、增殖增强和转移21, 22,23。然而, ID 家族的每个成员在不同类型的实体肿瘤中发挥着不同的作用, 他们在乳腺癌中的作用仍不清楚 24.在以前的研究中, 通过这种方法探索, 我们发现 ID1 是一个有意义的预后指标乳腺癌25。因此, 该协议将以 ID1 为例, 介绍数据挖掘方法。

分析从查询肿瘤样本中感兴趣的基因与普通样品在 ONCOLIN 中的表达模式开始。然后, 利用 bc-GenExMiner v4.0、GOBO 和 OC纳米进行乳腺癌相关基因表达。其次, 利用上述三个数据库, 根据不同的子群对 ID1 的表达谱进行分层。最后, 利用 bc-GenExMiner v4.0、人体蛋白质图集和卡普兰绘图仪分析了 ID1 表达与生存的关系。操作过程如图 1中的流程图所示。

Protocol

1. 表达式分析 转到 ONCOM内 WEB 界面26。 通过在搜索框中键入id1 , 获得不同类型恶性肿瘤中 id1 基因的相对表达水平。 从 “主筛选器” 菜单中选择”分析类型”。然后, 选择癌症与正常分析,乳腺癌与正常分析。 从”其他视图”菜单中选择”基因摘要视图”</stro…

Representative Results

利用 ID1 对乳腺癌生物标志物进行了有代表性的数据挖掘和综合分析, id1 是 dna 结合家族成员的抑制剂之一, 在此前的研究 25中已经报告了这一结果。 如图 2所示, 利用 oncomin 数据库分析了多种类型癌症中肿瘤和正常组织之间 Id1 mrna 表达的差异, 该数据库共包含445独特的分析。有5项研究表…

Discussion

对公共数据库的综合分析可以揭示感兴趣基因的潜在功能, 并揭示该基因与特定癌症的临床病理参数之间的潜在联系 27,31。基于单一数据库的探索和分析可能会提供有限或孤立的视角, 原因是潜在的选择偏差, 或在一定程度上, 可能是由于数据质量的多样性, 包括数据收集和分析算法数据库19。该议定书最重要的步骤是选择适当的数据库, …

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

这项工作得到了中国广东省自然科学基金 (编号: 2018A030313562)、广东临床教学基地教学改革项目 (NO。 2016JDB092), 国家自然科学基金 (81600358), 广东省高校青年创新人才项目 (编号: 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

Riferimenti

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).
check_url/it/59238?article_type=t

Play Video

Citazione di questo articolo
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video