Summary

Utföra data mining och integrativ analys av Biomarker i bröst Cancer med hjälp av flera allmänt tillgängliga databaser

Published: May 17, 2019
doi:

Summary

Här presenterar vi ett protokoll för att utforska bio markör och överlevnad prediktor för bröst Cancer baserat på en omfattande analys av poolade kliniska data mängder som härrör från en mängd allmänt tillgängliga databaser, med hjälp av strategin för uttryck, korrelation och överlevnads analys steg för steg.

Abstract

Under senare år har framväxande databaser utformats för att minska hindren för att närma sig intrikata cancer genomiska DataSet, vilket underlättar utredarna att analysera och tolka gener, prover och kliniska data över olika typer av cancer. Häri beskriver vi en praktisk operation förfarande, med ID1 (hämmare av DNA-bindande proteiner 1) som ett exempel, att karakterisera uttrycks mönster av bio markör och överlevnad prediktorer för bröst Cancer baserat på poolade kliniska data mängder som härrör från Online tillgängliga databaser, inklusive ONCOMINE, bcGenExMiner v 4.0 (Breast Cancer gen-uttryck Miner v 4.0), GOBO (Gene Expression-baserade utfall för bröst Cancer online), HPA (Human protein Atlas), och Kaplan-Meier plotter. Analysen började med att fråga uttrycks mönstret för genen av intresse (t. ex. ID1) i cancerösa prover kontra normala prover. Därefter utfördes korrelations analysen mellan ID1 och kliniska patologiska egenskaper vid bröst Cancer. Därefter stratifierades uttrycks profilerna för ID1 enligt olika under grupper. Slutligen analyserades sambandet mellan ID1-uttryck och överlevnads utfall. Drift proceduren fören klar konceptet att integrera flerdimensionella data typer på gen nivå från olika databaser och testa hypoteser om återkommande och genomisk kontext av gen förändrings händelser vid bröst Cancer. Denna metod kan förbättra trovärdigheten och representativiteten i satserna och därmed presentera ett informativt perspektiv på en gen av intresse.

Introduction

Bröst Cancer är en heterogen sjukdom med olika prognos-och behandlings strategier i olika molekyl ära subtyper, där patogenes och utveckling troligen för knippas med olika molekyl ära mekanismer1,2 , 3. men att identifiera ett terapeutiskt mål tar vanligt vis år, eller till och med årtionden, från första upptäckten i grund forskning till klinisk användning4. Genom bred tillämpning av hög kapacitet sekvenserings teknik för cancergenomet har kraftigt framskridit processen att söka efter värdefulla bio markörer eller terapeutiska mål 5.

Den överväldigande mängden cancer genomik data som genereras från de storskaliga Cancergenomik plattformar, såsom ICGC (International cancer Genome Consortium) och TCGA (The cancer Genome Atlas), utgör en stor utmaning för forskare att utföra data prospektering, integration och analys, särskilt för användare som saknar intensiv utbildning i informatik och beräkning6,7,8,9,10. Under de senaste åren, nya databaser, (t. ex. ONCOMINE, bcGenExMiner v 4.0, och Kaplan-Meier plotter, etc.) utformades och utvecklades för att sänka ribban för att närma sig intrikata cancer genomisk DataSet, vilket underlättar utredarna att analysera och tolka gener, prover och kliniska data över olika typer av cancer11. Syftet med detta protokoll är att beskriva en forsknings strategi som integreras med flera nivåer av gen information från en rad öppna databaser, som har erkänts allmänt av ett stort antal forskare, för att identifiera potentiella bio markörer och prognostiska faktorer för bröst Cancer.

ONCOMINE-databasen är en webbaserad data utvinnings plattform med mikromatrisinformation för cancer och är utformad för att under lätta upptäckten av nya bio markörer och terapeutiska mål11. För närvarande finns det mer än 48 000 000 gen uttrycks mätningar från 65 Gene Expression dataset i den här databasen11,12. BcGenExMiner v 4.0 (ett gratis verktyg för icke-vinstdrivande institution), även kallad bröst Cancer Gene-Expression Miner, är en användarvänlig webbaserad applikation bestående av DNA Microarrays resultat av 3 414 återvunna bröst cancer patienter och 1 209 upplevde en nedsättande händelse13. Den är utformad för att förbättra gen prognostiska analys prestanda med R statistisk program vara och paket.

Den GOBO är en multifunktionell användarvänlig online-verktyg med Microarrays information (t. ex., Affymetrix U133A) från en 51-Sample bröst Cancer cell linje uppsättning och en 1881-Sample bröst tumör data uppsättning, som tillåter ett brett spektrum av analyser14. Det finns en mängd olika applikationer som finns i GOBO databasen, som inkluderar snabb analys av gen uttrycks profiler i olika molekyl ära subtyper av bröst tumörer och cellinjer, screening för co-uttryckta gener för att skapa potentiella metagenes, och korrelations analys mellan utfall och genexpression nivåer av enskilda gener, uppsättningar av gener, eller gensignaturer i bröst Cancer data som15.

Human protein Atlas är ett Open Access-program utformat för forskare för att utforska mänskliga Proteom, som redan har bidragit till ett stort antal publikationer inom området för mänsklig biologi och sjukdom. Human protein Atlas är erkänd som en europeisk kärn resurs för Life Science community16,17.

Kaplan Meier plotter är ett online-verktyg som integrerar gen uttryck och kliniska data samtidigt som gör det möjligt att bedöma den prognostiska effekten av 54 675 gener baserat på 10 461 cancerprover, som inkluderar 1 065 gastric, 2 437 lung, 1 816 ovarial och 5 143 bröst cancer patienter med en genomsnittlig uppföljning på 33/49/40/69 månader18. Information om gen uttryck, recidiv-fri överlevnad (RFS) och total överlevnad (OS) kan laddas ner från denna databas19,20.

Här beskriver vi en praktisk operation förfarande för att använda flera allmänt tillgängliga databaser för att jämföra, analysera och visualisera mönster av förändringar i uttrycket av genen av intresse över flera cancer studier, med målet att sammanfatta uttrycks profiler, prognostiska värden och potentiella biologiska funktioner vid bröst Cancer. Till exempel, nyligen genomförda studier har indikerat de onkogena egenskaperna hos ID-proteiner i tumörer och förknippades med maligna egenskaper, inklusive cellulär omvandling, immortalisering, förstärkt proliferation och metastasering21, 22,23. Men varje medlem i ID-familjen spelar distinkta roller i olika typer av solida tumörer, och deras roll i bröst Cancer är fortfarande oklart24. I tidigare studier, utforskas genom denna metod, fann vi att ID1 var en meningsfull prognostisk indikator i bröst Cancer25. Därför kommer protokollet att ta ID1 som ett exempel för att introducera metoderna för data utvinning.

Analysen börjar från att fråga uttrycks mönstret för genen av intresse för cancerösa prover kontra normala prover i ONCOMINE. Sedan, uttrycket korrelation av gener av intresse för bröst Cancer utfördes med BC-GenExMiner v 4.0, GOBO, och ONCOMINE. Därefter stratifierades uttrycks profilerna för ID1 enligt olika under grupper med hjälp av ovanstående tre databaser. Slutligen, sambandet mellan ID1 uttryck och överlevnad ut analyserades med BC-GenExMiner v 4.0, den mänskliga protein Atlas, och Kaplan-Meier plotter. Operations proceduren visades som flödesschemat i figur 1.

Protocol

1. analys av uttrycks mönster Gå till ONCOMINE webb gränssnitt26. Få de relativa uttrycks nivåerna för genen id1 i olika typer av maligniteter genom att skriva id1 till sökrutan. Välj analys typ på menyn primära filter . Välj sedan cancer vs. normal analys, bröst Cancer vs. normal analys. Välj gen sammanfattningsvy på …

Representative Results

Ett representativt resultat av data utvinning och integrativ analys av bröst Cancer bio markörer utfördes med hjälp av ID1, en av de hämmare av DNA-bindande familje medlemmar, som har rapporter ATS i den tidigare studien 25. Som framgår av figur 2, skillnaderna i ID1 mRNA uttryck mellan tumör och normala vävnader i flera typer av cancer analyserades med hjälp av ONCO…

Discussion

Omfattande analys av offentliga databaser kan tyda på den underliggande funktionen av genen av intresse och avslöja den potentiella sambandet mellan denna gen och clinicopatologiskt parametrar i specifika cancer27,31. Utforskning och analys baserad på en enda databas kan ge begränsade eller isolerade perspektiv på grund av den potentiella urvalet bias, eller i viss utsträckning, möjligen på grund av mångfalden av data kvalitet, inklusive insamling av dat…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöddes delvis av Natural Science Foundation i Guangdongprovinsen, Kina (No. 2018A030313562), den pedagogiska reformen projektet i Guangdong klinisk undervisning bas (NO.  2016JDB092), Kinas nationella Naturvetenskaps stiftelse (81600358), och unga innovativa talang projekt av hög skolor och universitet i Guangdongprovinsen, Kina (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

References

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).
check_url/fr/59238?article_type=t

Play Video

Citer Cet Article
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video