Summary

Het uitvoeren van data mining en integratieve analyse van biomarker in borstkanker met behulp van meerdere openbaar toegankelijke databases

Published: May 17, 2019
doi:

Summary

Hier presenteren we een protocol om de biomarker en Survival voorspeller van borstkanker te verkennen op basis van de uitgebreide analyse van gebundelde klinische datasets afgeleid van een verscheidenheid van openbaar toegankelijke databases, met behulp van de strategie van meningsuiting, correlatie en overlevings analyse stap voor stap.

Abstract

In de afgelopen jaren, opkomende databases werden ontworpen om de belemmeringen voor het benaderen van de ingewikkelde kanker genomic datasets, waardoor het vergemakkelijken van onderzoekers te analyseren en te interpreteren genen, monsters en klinische gegevens over verschillende vormen van kanker te verlagen. Hierin beschrijven we een praktische operatieprocedure, waarbij ID1 (remmer van DNA-bindende eiwitten 1) als een voorbeeld, om de expressie patronen van biomarker en overleving voorspellers van borstkanker te karakteriseren op basis van gebundelde klinische datasets afgeleid van Online toegankelijke databases, waaronder ONCOMINE, bcGenExMiner v 4.0 (borstkanker gen-Expression Miner v 4.0), GOBO (genexpressie-based uitkomst voor borstkanker online), HPA (de menselijke proteïne Atlas), en Kaplan-Meier plotter. De analyse begon met het bevragen van het uitdrukkingspatroon van het gen van belang (b.v., ID1) in kanker monsters versus normale steekproeven. Vervolgens werd de correlatieanalyse tussen ID1 en clinicopathological kenmerken bij borstkanker uitgevoerd. Vervolgens werd de expressieprofielen van ID1 gelaagd volgens verschillende subgroepen. Tot slot werd de associatie tussen ID1 expressie en overlevings uitkomst geanalyseerd. De operatieprocedure vereenvoudigt het concept om multidimensionale data types te integreren op het gen niveau van verschillende databases en test hypothesen met betrekking tot herhaling en genomische context van gen wijziging gebeurtenissen in borstkanker. Deze methode kan de geloofwaardigheid en de representativiteit van de conclusies verbeteren, daardoor, huidig informatief perspectief op een gen van belang.

Introduction

Borstkanker is een heterogene ziekte met diverse prognose-en behandelingsstrategieën in verschillende moleculaire subtypen, waarbij de pathogenese en de ontwikkeling waarschijnlijk geassocieerd worden met uiteenlopende moleculaire mechanismen1,2 , 3. echter, het identificeren van een therapeutisch doelwit duurt meestal jaren, of zelfs decennia, van de eerste ontdekking in fundamenteel onderzoek naar klinisch gebruik4. Genoom brede toepassing van high-throughput sequencing technologie voor kanker genoom is sterk gevorderd het proces van het zoeken naar waardevolle Biomarkers of therapeutische doelstellingen 5.

De overweldigende hoeveelheid kanker Genomics gegevens die door de grootschalige kanker Genomics platforms, zoals de ICGC (International Cancer genoom Consortium) en TCGA (de Cancer genoom Atlas), is een grote uitdaging voor onderzoekers om gegevens uit te voeren exploratie, integratie en Analytics, met name voor gebruikers die geen intensieve opleiding in informatica en berekening6,7,8,9,10. In de afgelopen jaren, opkomende databases, (bijv., ONCOMINE, bcGenExMiner v 4.0, en Kaplan-Meier plotter, enz.) werden ontworpen en ontwikkeld om de bar te verlagen voor het naderen van de ingewikkelde kanker genomic datasets, waardoor het vergemakkelijken van onderzoekers te analyseren en interpreteren van de genen, monsters en klinische gegevens over verschillende vormen van kanker11. Het doel van dit protocol is een onderzoekstrategie te beschrijven die is geïntegreerd met meerdere niveaus van gen-informatie uit een reeks Open Access-databases, die op grote schaal door een groot aantal onderzoekers zijn erkend, om de potentiële biomerkers te identificeren en prognostische factoren voor borstkanker.

De ONCOMINE database is een web-gebaseerde data-mining platform met kanker Microarray informatie en is ontworpen om de ontdekking van nieuwe biomarkers en therapeutische doelstellingen te vergemakkelijken11. Momenteel zijn er meer dan 48.000.000 genexpressie metingen van 65 genexpressie datasets in deze database11,12. De bcGenExMiner v 4.0 (een gratis tool voor non-profit instelling), ook wel borstkanker Gene-Expression Miner, is een gebruiksvriendelijke web-based applicatie bestaande uit DNA arrays resultaten van 3.414 teruggewonnen borstkanker patiënten en 1.209 ervaren een pejoratieve gebeurtenis13. Het is ontworpen om gen prognostische analyse prestaties te verbeteren met R statistische software en pakketten.

De GOBO is een multifunctioneel gebruiksvriendelijk online tool met arrays informatie (bijv. Affymetrix U133A) van een 51-sample borstkanker Cell line set en een 1881-sample borsttumor data set, dat een breed scala van analyses maakt14. Er zijn een verscheidenheid van toepassingen beschikbaar in de GOBO database, die een snelle analyse van genexpressie profielen in verschillende moleculaire subtypen van borsttumoren en cel lijnen, screening voor co-uitgesproken genen voor de schepping van potentiële gen te nemen, en correlatieanalyse tussen resultaat en genexpressie niveaus van enkelvoudige genen, sets van genen, of gen handtekeningen in de gegevens van borstkanker set15.

De menselijke eiwit Atlas is een Open-Access programma dat is ontworpen voor wetenschappers om de menselijke proteome, die al heeft bijgedragen aan een groot aantal publicaties op het gebied van de menselijke biologie en ziekte te verkennen. De menselijke eiwit Atlas wordt erkend als een Europese kern bron voor Life Science Gemeenschap16,17.

De Kaplan Meier plotter is een online hulpmiddel dat genexpressie en klinische gegevens gelijktijdig integreert dat beoordeling van het prognostische effect van 54.675 genen toestaat die op 10.461 kanker steekproeven worden gebaseerd, die 1.065 maag, 2.437 Long, 1.816 ovariële en 5.143 omvatten borstkanker patiënten met een gemiddelde follow-up van 33/49/40/69 maanden18. Informatie van genexpressie, terugval-vrije overleving (RFS) en algehele overleving (OS) zijn te downloaden van deze database19,20.

Hier beschrijven we een praktische operatieprocedure van het gebruik van meerdere openbaar toegankelijke databases te vergelijken, te analyseren en te visualiseren patronen van veranderingen in de expressie van het gen van belang in meerdere kanker studies, met als doel het samenvatten van de expressieprofielen, prognostische waarden en potentiële biologische functies bij borstkanker. Bijvoorbeeld, recente studies hebben aangegeven de oncogene eigenschappen van ID-eiwitten in tumoren en werden geassocieerd met kwaadaardige functies, waaronder cellulaire transformatie, immortalisatie, Enhanced proliferatie en metastase21, 22,23. Nochtans, speelt elk lid van de familie van identiteitskaart verschillende rollen in verschillende types van stevige tumors, en hun rol in borstkanker blijft onduidelijk24. In eerdere studies, onderzocht door middel van deze methode, vonden we dat ID1 was een zinvolle prognostische indicator in borstkanker25. Daarom zal het protocol ID1 als voorbeeld nemen om de data mining methoden in te voeren.

De analyse begint van het bevragen van het uitdrukkingspatroon van het gen van belang in kanker monsters versus normale steekproeven in ONCOMINE. Vervolgens werd de uitdrukking correlatie van de genen van belang in borstkanker werd uitgevoerd met behulp van de BC-GenExMiner v 4.0, GOBO, en ONCOMINE. Vervolgens werd de expressieprofielen van ID1 gelaagd volgens verschillende subgroepen met behulp van de drie bovengenoemde databases. Ten slotte werd de associatie tussen ID1 expressie en Survival out geanalyseerd met BC-GenExMiner v 4.0, de menselijke proteïne Atlas, en de Kaplan-Meier plotter. De bewerkingsprocedure werd weergegeven als het stroomdiagram in Figuur 1.

Protocol

1. expressiepatroon analyse Ga naar de ONCOMINE web interface26. Verkrijg de relatieve expressie niveaus van Gene id1 in verschillende soorten maligniteiten door id1 te typen in het zoekvak. Selecteer analyse type in het menu primaire filters . Dan, selecteer kanker versus normale analyse, borstkanker versus normale analyse. Selecteer Gene s…

Representative Results

Een representatief resultaat van data mining en integratieve analyse van borstkanker biomarker werd uitgevoerd met behulp van ID1, een van de remmers van DNA-bindende familieleden, die zijn gemeld in de vorige studie 25. Zoals aangetoond in Figuur 2, werden de verschillen van id1 mRNA uitdrukking tussen tumor en normale weefsels in veelvoudige types van kanker geanalyseerd ge…

Discussion

Uitgebreide analyse van openbare databases kan wijzen op de onderliggende functie van het gen van belang en onthullen het potentiële verband tussen dit gen en clinicopathological parameters in specifieke kanker27,31. De exploratie en analyse op basis van een enkele database kan bieden beperkte of geïsoleerde perspectieven als gevolg van de potentiële selectie bias, of in zekere mate, mogelijk te wijten aan de verscheidenheid van de kwaliteit van gegevens, met …

Declarações

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gedeeltelijk gesteund door de Stichting van de natuurwetenschappen van de provincie van Guangdong, China (nr. 2018A030313562), het onderwijs hervormings project van het klinische onderwijs van Guangdong basis (nr.  2016JDB092), National Natural Science Foundation van China (81600358), en de jeugd innovatieve talent project van hogescholen en universiteiten in de provincie Guangdong, China (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

Referências

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).

Play Video

Citar este artigo
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video