Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases

Min-na Chen; De Zeng; Zhuo-qun Zheng; Zheng Li; Jian-le Wu; Jun-yu Jin; He-jia Wang; Cui-zhen Huang; Hao-yu Lin

doi:10.3791/59238

JoVE Journal > Cancer Research

Ricerca sul cancro

Udførelse af datamining og Integrativ analyse af biomarker i brystkræft ved hjælp af flere offentligt tilgængelige databaser

Published: May 17, 2019

doi:

10.3791/59238

Min-na Chen, De Zeng, Zhuo-qun Zheng, Zheng Li, Jian-le Wu, Jun-yu Jin, He-jia Wang, Cui-zhen Huang, Hao-yu Lin

¹Department of Thyroid and Breast Surgery,First Affiliated Hospital of Shantou University Medical College, ²Department of Medical Oncology,Cancer Hospital of Shantou University Medical College, ³Shantou University Medical College

Summary

Her præsenterer vi en protokol for at udforske biomarkør og overlevelses Prædikeren for brystkræft baseret på en omfattende analyse af puljede kliniske datasæt afledt af en række offentligt tilgængelige databaser, ved hjælp af strategien for udtryk, korrelation og overlevelse analyse trin for trin.

Abstract

I de seneste år, nye databaser blev designet til at sænke barriererne for at nærme sig indviklede kræft genomiske datasæt, dermed lette undersøgere til at analysere og fortolke gener, prøver og kliniske data på tværs af forskellige typer af kræft. Heri beskriver vi en praktisk Operations procedure, der tager ID1 (hæmmer af DNA-bindings proteiner 1) som et eksempel, for at karakterisere udtryks mønstrene for biomarkør og overlevelses indikatorer for brystkræft baseret på poolede kliniske datasæt afledt af online tilgængelige databaser, herunder ONCOMINE, bcGenExMiner v 4.0 (Breast Cancer gen-Expression minearbejder v 4.0), GOBO (gene Expression-baseret udfald for Breast Cancer online), HPA (det humane protein Atlas), og Kaplan-Meier plotter. Analysen begyndte med at forespørge på udtryks mønstret af genet af interesse (f. eks. ID1) i kræft prøver vs. normale prøver. Derefter blev korrelationsanalysen mellem ID1 og clinicopatologiske egenskaber ved brystkræft udført. Dernæst blev udtryks profilerne for ID1 stratificeret efter forskellige undergrupper. Endelig blev sammenslutningen mellem ID1 udtryk og overlevelses resultatet analyseret. Operations proceduren forenkler konceptet for at integrere multidimensionelle datatyper på genniveauet fra forskellige databaser og test hypoteser vedrørende gentagelse og genomisk kontekst af genmodificering af brystkræft. Denne metode kan forbedre troværdigheden og repræsentativitet af konklusionerne, dermed præsentere informative perspektiv på et gen af interesse.

Introduction

Brystkræft er en heterogen sygdom med forskellig prognose og behandlingsstrategier i forskellige molekylære subtyper, hvor patogenesen og udvikling sandsynligvis er forbundet med uensartede molekylære mekanismer¹^,² ^, ³. men identifikation af et terapeutisk mål tager normalt år, eller endda årtier, fra første opdagelse i grundforskning til klinisk brug⁴. Genom bred anvendelse af høj-gennemløb sekventering teknologi for kræft genom har i høj grad fremmet processen med at søge efter værdifulde biomarkører eller terapeutiske mål ⁵.

Den overvældende mængde af kræft genomforskning data genereret fra de store kræft genomforskning platforme, såsom ICGC (International Cancer genom Consortium) og tcga (The Cancer genom Atlas), udgør en stor udfordring for forskerne at udføre data udforskning, integration og analyse, især for brugere, der mangler intensiv træning i Informatik og beregning⁶^,⁷^,⁸^,⁹^,¹⁰. I de seneste år er nye databaser (f. eks., ONCOMINE, bcGenExMiner v 4.0 og Kaplan-Meier-plotter osv.) designet og udviklet til at sænke linjen for at nærme sig de indviklede kræft genomdatasæt og derved gøre det lettere for efterforskerne at analysere og fortolke gener, prøver og kliniske data på tværs af forskellige typer af kræft¹¹. Formålet med denne protokol er at beskrive en forskningsstrategi, der er integreret med flere niveauer af geninformation fra en række åbne databaser, som er blevet bredt anerkendt af et stort antal forskere, for at identificere de potentielle biomarkører og prognostiske faktorer for brystkræft.

ONCOMINE database er en web-baseret data-mining platform med kræft microarray information og er designet til at lette opdagelsen af nye biomarkører og terapeutiske mål¹¹. I øjeblikket er der mere end 48.000.000 genekspressions målinger fra 65 genekspressions datasæt i denne database¹¹^,¹². Den bcGenExMiner v 4.0 (et gratis værktøj til non-profit institution), også kaldet brystkræft gene-Expression miner, er en brugervenlig web-baseret applikation, der omfatter DNA-mikroarrays resultater af 3.414 genvundet brystkræftpatienter og 1.209 oplevede en nedsættende hændelse¹³. Det er designet til at forbedre genprognostisk analyse ydeevne med R statistisk software og pakker.

GOBO er et multifunktionelle brugervenligt online værktøj med mikroarrays oplysninger (f. eks Affymetrix U133A) fra en 51-prøve brystkræft cellelinje sæt og en 1881-prøve bryst tumordata sæt, der giver mulighed for en bred vifte af analyser¹⁴. Der er en bred vifte af applikationer til rådighed i GOBO database, som omfatter hurtig analyse af genekspression profiler i forskellige molekylære undertyper af brysttumorer og cellelinjer, screening for Co-udtrykte gener for skabelse af potentielle metagener, og korrelationsanalyse mellem resultater og genekspressions niveauer for enkelt gener, sæt af gener eller gensignaturer i datasættet for brystkræft¹⁵.

Human protein Atlas er et åbent program designet til videnskabsfolk til at udforske menneskelige proteome, som allerede har bidraget til en lang række publikationer inden for human biologi og sygdom. Det humane protein Atlas er anerkendt som en europæisk kerneressource for Life Science community¹⁶^,¹⁷.

Kaplan Meier-plotteren er et online værktøj, der integrerer genekspression og kliniske data samtidigt, som gør det muligt at vurdere den prognostiske effekt af 54.675 gener baseret på 10.461 Cancer prøver, som omfatter 1.065 gastrisk, 2.437 lunge, 1.816 æggestokke og 5.143 brystcancer patienter med en gennemsnitlig opfølgning på 33/49/40/69 måneder¹⁸. Oplysninger om genekspression, recidiv-fri overlevelse (RFS) og samlet overlevelse (os) kan downloades fra denne database¹⁹^,²⁰.

Her beskriver vi en praktisk Operations procedure for brug af flere offentligt tilgængelige databaser til at sammenligne, analysere og visualisere mønstre af ændringer i udtrykket af det gen af interesse på tværs af flere kræft undersøgelser, med det formål at opsummere de udtryks profiler, prognostiske værdier og potentielle biologiske funktioner i brystkræft. For eksempel har nylige undersøgelser indikeret de onkogene egenskaber af ID-proteiner i tumorer og var forbundet med maligne egenskaber, herunder cellulær omdannelse, immortalisering, øget proliferation og metastase²¹^, ²²^,²³. Men, hvert medlem af ID-familien spiller forskellige roller i forskellige typer af solide tumorer, og deres rolle i brystkræft er stadig uklart²⁴. I tidligere undersøgelser, udforsket gennem denne metode, fandt vi, at ID1 var en meningsfuld prognostisk indikator i brystkræft²⁵. Derfor vil protokollen tage ID1 som et eksempel for at indføre datamining metoder.

Analysen starter fra at forespørge udtryks mønstret af genet af interesse i kræft prøver vs normale prøver i ONCOMINE. Derefter, udtrykket korrelation af gener af interesse i brystkræft blev udført ved hjælp af BC-GenExMiner v 4.0, GOBO, og ONCOMINE. Dernæst blev udtryks profilerne for ID1 stratificeret efter forskellige undergrupper ved hjælp af de tre ovennævnte databaser. Endelig, sammenslutningen mellem ID1 udtryk og overlevelse ud blev analyseret ved hjælp af BC-GenExMiner v 4.0, det humane protein Atlas, og Kaplan-Meier plotter. Operations proceduren blev vist som rutediagrammet i figur 1.

Protocol

1. analyse af udtryks mønster Gå til ONCOMINE-webgrænsefladen26. Opnå de relative udtryks niveauer af gen ID1 i forskellige typer af maligniteter ved at skrive ID1 til søgefeltet. Vælg analyse type i menuen primære filtre . Derefter, Vælg kræft vs normal analyse, brystkræft vs normal analyse. Vælg gen-oversigtsvisning i m…

Representative Results

Et repræsentativt resultat af datamining og Integrativ analyse af brystcancer biomarkør blev udført ved hjælp af ID1, en af inhibitorer af DNA-bindende familiemedlemmer, som er blevet rapporteret i den tidligere undersøgelse 25. Som påvist i figur 2blev forskellene i ID1 mRNA-udtryk mellem tumor og normalt væv i flere kræfttyper analyseret ved hjælp af ONCOMINE-datab…

Discussion

Omfattende analyse af offentlige databaser kan indikere den underliggende funktion af genet af interesse og afslører den potentielle forbindelse mellem dette gen og patologiske parametre i specifikke kræft²⁷^,³¹. Efterforskning og analyse baseret på en enkelt database kan give begrænsede eller isolerede perspektiver på grund af den potentielle selektions skævhed eller i et vist omfang, muligvis på grund af de mange forskellige data kvaliteter, herunder data…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev delvist støttet af naturvidenskab Foundation af Guangdong provinsen, Kina (nr. 2018A030313562), undervisning reform projekt af Guangdong klinisk undervisning base (NO. 2016JDB092), national naturvidenskab Foundation i Kina (81600358), og ungdom innovative talent projekt af gymnasier og universiteter i Guangdong provinsen, Kina (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript enabled	Microsoft	051690762553	We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player	Adobe Systems Inc.	It can be freely downloaded from http://get.adobe.com/flashplayer/.	This browser plug-in is required for visualizing networks on the network analysis tab.
Chrome Broswer	Google Inc.	It can be freely downloaded from https://www.google.cn/chrome/	This is necessary for viewing PDF files including the Pathology Reports and many of the downloadable files.
Java Runtime Environment	Oracle Corporation	It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty	Microsoft	2003BFFD8117EA68	This is necessary for viewing the Pathology Reports and for viewing many of the downloadable files.
Vectr Online	Vectr Labs Inc.	It can be freely used from https://vectr.com/new	This is necessary for visualizing and editing many of the downloadable files and pictures.

Riferimenti

van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
. Available from: https://www.oncomine.org (2018)
Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
. Available from: https://www.proteinatlas.org (2018)
Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

Udførelse af datamining og Integrativ analyse af biomarker i brystkræft ved hjælp af flere offentligt tilgængelige databaser

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

Udførelse af datamining og Integrativ analyse af biomarker i brystkræft ved hjælp af flere offentligt tilgængelige databaser

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below