Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases

Min-na Chen; De Zeng; Zhuo-qun Zheng; Zheng Li; Jian-le Wu; Jun-yu Jin; He-jia Wang; Cui-zhen Huang; Hao-yu Lin

doi:10.3791/59238

JoVE Journal > Cancer Research

Please note that all translations are automatically generated. Click here for the English version.

Ricerca sul cancro

L’exploration de données et l’analyse intégrative du biomarqueur dans le cancer du sein à l’aide de plusieurs bases de données accessibles au public

Published: May 17, 2019

doi:

10.3791/59238

Min-na Chen, De Zeng, Zhuo-qun Zheng, Zheng Li, Jian-le Wu, Jun-yu Jin, He-jia Wang, Cui-zhen Huang, Hao-yu Lin

¹Department of Thyroid and Breast Surgery,First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology,Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Ici, nous présentons un protocole pour explorer le biomarqueur et le prédicteur de survie du cancer du sein sur la base de l’analyse exhaustive des ensembles de données cliniques regroupées provenant d’une variété de bases de donnees accessibles au public, en utilisant la stratégie d’expression, de corrélation et l’analyse de survie pas à pas.

Abstract

Ces dernières années, les bases de données émergentes ont été conçues pour réduire les barrières à l’approche des ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs pour analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers. Dans les présentes, nous décrivons une procédure d’opération pratique, en prenant l’exemple de l’ADN (inhibiteur des protéines de liaison 1), pour caractériser les schémas d’expression des biomarqueurs et des prédicteurs de survie du cancer du sein basés sur des ensembles de données cliniques groupés dérivés de bases de données accessibles en ligne, y compris ONCOMINE, bcGenExMiner v 4.0 (Breast Cancer gene-expression miner v 4.0), GOBO (résultat basé sur l’expression génique pour le cancer du sein en ligne), HPA (l’Atlas des protéines humaines), et le traceur Kaplan-Meier. L’analyse a commencé par l’interrogation du modèle d’expression du gène d’intérêt (p. ex., le type d’échantillon) dans les échantillons cancéreux par rapport aux échantillons normaux. Ensuite, on a effectué l’analyse de corrélation entre les caractéristiques clinicopathologiques et de l’évaluation du cancer du sein. Ensuite, les profils d’expression de l’, ont été stratifiés selon différents sous-groupes. Enfin, on a analysé l’association entre l’expression et le résultat de survie. La procédure d’opération simplifie le concept pour intégrer des types de données multidimensionnelles au niveau du gène à partir de différentes bases de données et des hypothèses de test concernant la récurrence et le contexte génomique des événements d’altération génique dans le cancer du sein. Cette méthode peut améliorer la crédibilité et la représentativité des conclusions, ce qui présente une perspective informative sur un gène d’intérêt.

Introduction

Le cancer du sein est une maladie hétérogène avec diverses stratégies de pronostic et de traitement dans différents sous-types moléculaires, dans lesquels la pathogenèse et le développement sont probablement associés à des mécanismes moléculaires disparates¹^,² ^, ³. Cependant, l’identification d’une cible thérapeutique prend habituellement des années, voire des décennies, de la découverte initiale dans la recherche fondamentale à l’utilisation clinique⁴. L’application à l’échelle du génome de la technologie de séquençage à haut débit pour le génome du cancer a grandement avancé le processus de recherche de biomarqueurs précieux ou de cibles thérapeutiques ⁵.

La quantité écrasante de données sur la génomique du cancer générées par les plates-formes de génomique du cancer à grande échelle, telles que l’ICGC (International cancer génome Consortium) et TCGA (l’Atlas du génome du cancer), pose un grand défi pour les chercheurs d’effectuer des données exploration, intégration et analytique, en particulier pour les utilisateurs dépourvus de formation intensive en informatique et en calcul⁶^,⁷^,⁸^,⁹^,¹⁰. Ces dernières années, des bases de données émergentes (p. ex., ONCOMINE, bcGenExMiner v 4.0, et le traceur Kaplan-Meier, etc.) ont été conçues et développées pour abaisser la barre pour approcher les ensembles de données génomiques complexes du cancer, facilitant ainsi les enquêteurs à analyser et interpréter les gènes, les échantillons et les données cliniques sur différents types de cancers¹¹. Le but de ce protocole est de décrire une stratégie de recherche qui s’intègre à de multiples niveaux d’information génique provenant d’une série de bases de données à accès libre, qui ont été largement reconnues par un grand nombre de chercheurs, pour identifier les biomarqueurs potentiels et facteurs pronostiques du cancer du sein.

La base de données ONCOMINE est une plate-forme d’exploration de données basée sur le Web avec des informations sur les MICROMATRICES cancéreuses et est conçue pour faciliter la découverte de nouveaux biomarqueurs et de cibles thérapeutiques¹¹. Actuellement, il y a plus de 48 millions mesures d’expression génique de 65 datasets d’expression génique dans cette base de données¹¹^,¹². Le bcGenExMiner v 4.0 (un outil gratuit pour l’institution à but non lucratif), également appelé cancer du sein gene-expression miner, est une application Web conviviale comprenant des résultats de microarrays d’ADN de 3 414 patients atteints de cancer du sein récupérés et 1 209 a connu un événement péjoratif¹³. Il est conçu pour améliorer les performances d’analyse pronostique des gènes avec les logiciels et les packages statistiques R.

Le GOBO est un outil en ligne multifonctionnel et convivial avec des informations sur les microarrays (par exemple, Affymetrix U133A) à partir d’un ensemble de cellules cancéreuses du sein à échantillon de 51 et un ensemble de données sur les tumeurs mammaires de 1881 échantillons, qui permet un large éventail d’analyses¹⁴. Il existe une variété d’applications disponibles dans la base de données GOBO, qui comprennent l’analyse rapide des profils d’expression génique dans différents sous-types moléculaires des tumeurs du sein et des lignées cellulaires, le dépistage des gènes co-exprimés pour la création de métagènes potentiels, et analyse de corrélation entre le résultat et les niveaux d’expression génique des gènes isolés, des ensembles de gènes ou des signatures génétiques dans les données du cancer du sein ensemble¹⁵.

L’Atlas des protéines humaines est un programme d’accès ouvert destiné aux scientifiques à explorer le protéome humain, qui a déjà contribué à un grand nombre de publications dans le domaine de la biologie humaine et de la maladie. L’Atlas des protéines humaines est reconnu comme une ressource de base européenne pour la communauté des sciences de la vie¹⁶^,¹⁷.

Le traceur Kaplan Meier est un outil en ligne intégrant l’expression génique et les données cliniques simultanément qui permet l’évaluation de l’effet pronostique de 54 675 gènes basés sur 10 461 échantillons de cancer, qui comprennent 1 065 gastrique, 2 437 poumon, 1 816 ovarienne et 5 143 patients atteints de cancer du sein avec un suivi moyen de 33/49/40/69 mois¹⁸. Les informations sur l’expression génique, la survie sans rechute (RFS) et la survie globale (OS) sont téléchargeables à partir de cette base de données¹⁹^,²⁰.

Ici, nous décrivons une procédure pratique d’utilisation de plusieurs bases de données accessibles au public pour comparer, analyser et visualiser les modèles de modifications dans l’expression du gène d’intérêt dans plusieurs études sur le cancer, dans le but de résumer les les profils d’expression, les valeurs pronostiques et les fonctions biologiques potentielles dans le cancer du sein. Par exemple, des études récentes ont indiqué les propriétés oncogéniques des protéines d’identification dans les tumeurs et ont été associées à des caractéristiques malignes, y compris la transformation cellulaire, l’immortalisation, la prolifération accrue et les métastases²¹^, ²²^,²³. Cependant, chaque membre de la famille d’ID joue des rôles distincts dans différents types de tumeurs solides, et leur rôle dans le cancer du sein reste incertain²⁴. Dans des études antérieures, explorées par cette méthode, nous avons constaté que l’indice de pronostic était un indicateur pronostique significatif dans le cancer du sein²⁵. Par conséquent, le protocole prendra l’exemple de la méthode pour introduire les méthodes d’exploration de données.

L’analyse commence par l’interrogation du modèle d’expression du gène d’intérêt dans les échantillons cancéreux par rapport aux échantillons normaux dans ONCOMINE. Ensuite, la corrélation d’expression des gènes d’intérêt dans le cancer du sein a été réalisée en utilisant le BC-GenExMiner v 4.0, GOBO, et ONCOMINE. Ensuite, les profils d’expression de l’, ont été stratifiés selon différents sous-groupes à l’aide des trois bases de données ci-dessus. Enfin, on a analysé l’association entre l’expression et la survie en utilisant BC-GenExMiner v 4.0, l’Atlas des protéines humaines et le traceur Kaplan-Meier. La procédure d’opération a été montrée comme organigramme dans la figure 1.

Protocol

1. analyse des motifs d’expression Accédez à l’interface Web ONCOMINE26. Obtenir les niveaux d’expression relative des gènes de gène dans divers types de tumeurs malignes en tapant l’option de la boîte de recherche. Sélectionnez type d’analyse dans le menu filtres principaux . Ensuite, sélectionnez cancer vs analyse normale, cancer du sein vs analys…

Representative Results

Un résultat représentatif de l’exploration de données et de l’analyse intégrative du biomarqueur du cancer du sein a été effectué à l’aide de l’un des inhibiteurs des membres de la famille liant l’ADN, qui ont été rapportés dans l’étude précédente 25. Comme le montre la figure 2, on a analysé les différences d’expression de l’ARNm de l’ADN en…

Discussion

Une analyse exhaustive des bases de données publiques peut indiquer la fonction sous-jacente du gène d’intérêt et révéler le lien potentiel entre ce gène et les paramètres clinicopathologiques dans le cancer spécifique²⁷^,³¹. L’exploration et l’analyse basées sur une seule base de données peuvent fournir des perspectives limitées ou isolées en raison du biais potentiel de sélection, ou dans une certaine mesure, peut-être en raison de la varié…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail a été partiellement soutenu par la Fondation des sciences naturelles de la province de Guangdong, Chine (no. 2018A030313562), le projet de réforme pédagogique de la base d’enseignement clinique de Guangdong (NO. 2016JDB092), Fondation nationale des sciences naturelles de la Chine (81600358), et projet de jeunes talents innovants des collèges et universités dans la province de Guangdong, Chine (n ° 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.

Riferimenti

van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
. Available from: https://www.oncomine.org (2018)
Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
. Available from: https://www.proteinatlas.org (2018)
Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

L’exploration de données et l’analyse intégrative du biomarqueur dans le cancer du sein à l’aide de plusieurs bases de données accessibles au public

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

L’exploration de données et l’analyse intégrative du biomarqueur dans le cancer du sein à l’aide de plusieurs bases de données accessibles au public

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below