Summary

여러 공개적으로 접근 가능한 데이터베이스를 사용 하 여 유방암에서 바이오 마커의 데이터 마이닝 및 통합 분석 수행

Published: May 17, 2019
doi:

Summary

여기서, 우리는 공개적으로 접근 가능한 다양 한 데이터베이스 로부터 도출 된 풀링된 임상 데이터 세트의 종합적인 분석을 기반으로 유방암의 바이오 마커 및 생존 예측 인자를 탐구 하는 프로토콜을 제시 하 고, 발현, 상관관계 및 생존 분석 단계.

Abstract

최근 몇 년 동안, 새로운 데이터베이스는 복잡 한 암 게놈 데이터 셋에 접근 하기 위한 장벽을 낮추기 위해 설계 되었으며,이에 따라 조사자는 다양 한 유형의 암에 걸친 유전자, 샘플 및 임상 데이터를 분석 하 고 해석 하는 것을 용이 하 게 합니다. 본 원에서, 우리는 실질적인 수술 절차를 설명 하 고, ID1 (DNA 결합 단백질의 억제제)를 예로 들어, 풀링된 임상 데이터 세트를 기반으로 유방암의 바이오 마커의 발현 패턴과 생존 예측 인자를 특성화 할 수 있습니다. ONCOMINE, bcGenExMiner v 4.0 (유방암 유전자 발현 광부 v 4.0), 고 보 (인간 단백질 아틀라스) 및 카 플 란 마이어 플로터를 포함 한 온라인 접근 가능한 데이터베이스. 분석은 암 샘플 대 일반 샘플에서 관심 유전자 (예: ID1)의 발현 패턴을 쿼리 하는 것으로 시작 되었습니다. 이어서, 유방암에서 ID1 및 clinicopathological 특성 간의 상관관계 분석이 수행 되었다. 다음으로, ID1의 발현 프로필은 상이한 하위 군에 따라 계층화 되었다. 최종적으로, ID1 발현과 생존 결과 사이의 연관성을 분석 하였다. 작업 절차는 다른 데이터베이스에서 유전자 수준에서 다차원 데이터 유형을 통합 하는 개념을 단순화 하 고 유방암에 있는 유전자 변경 사건의 재발 및 게놈 문맥에 관하여 가설을 시험 합니다. 이 방법은 결론의 신뢰도와 대표성을 향상 시킬 수 있고,이에 따라 관심 유전자에 대 한 유익한 관점을 제시 한다.

Introduction

유방암은 다른 분자 아 류 형에 있는 다양 한 예 후 및 처리 전략을 가진 이종 질병입니다,이는 병 인 및 발달이 아마 다른 분자 기계 장치에 연관 되는1,2 , 3. 그러나 치료 대상을 식별 하는 것은 일반적으로 기본 연구의 초기 발견에서 임상 사용4까지 수년간 또는 수십 년이 걸립니다. 암 게놈을 위한 고 처리량 시퀀싱 기술의 게놈 폭 넓은 적용은 중요 한 바이오 마커 또는 치료 적 목표를 찾는 과정을 크게 진보 시켰다 5.

ICGC (국제 암 게놈 컨소시엄) 및 TCGA (암 게놈 아틀라스)와 같은 대규모 암 유전체학 플랫폼에서 생성 된 엄청난 양의 암 유전체학 데이터는 연구자 들이 데이터를 수행 하는 데 큰 어려움을 야기 합니다. 특히 정보학 및 계산6,9,10에 대 한 집중적인 교육이 부족 한 사용자를 위한 탐사, 통합 및 분석 최근 몇 년 동안 신흥 데이터베이스 (예: ONCOMINE, bcGenExMiner v 4.0 및 카 플 란-마이어 플로터 등)는 복잡 한 암 게놈 데이터 셋에 접근 하기 위한 막대를 낮추기 위해 설계 및 개발 되었으며,이에 따라 조사자 들이 분석 하 고 암의 다양 한 종류에 걸쳐 유전자, 샘플 및 임상 데이터를 해석11. 이 프로토콜의 목표는 많은 연구자에 의해 널리 인식 되 고 있는 일련의 오픈 access 데이터베이스에서 여러 수준의 유전자 정보와 통합 된 연구 전략을 설명 하 고 잠재적인 바이오 마커를 식별 하 고 유방암에 대 한 예 후 인자.

ONCOMINE 데이터베이스는 암 마이크로 어레이 정보를 포함 하는 웹 기반 데이터 마이닝 플랫폼으로 신규 바이오 마커 및 치료 대상11의 발견을 용이 하 게 하기 위해 설계 되었습니다. 현재, 65 유전자 발현 데이터 셋 으로부터의 4800만 유전자 발현 측정은이 데이터베이스11,12에 있다. BcGenExMiner v 4.0 (비영리 기관을 위한 무료 도구)은 유방암 유전자 발현 광부 라고도 불리 며, 3414 회복 유방암 환자와 1209의 DNA 마이크로 어레이 결과를 포함 하는 사용자 친화적인 웹 기반 응용 프로그램입니다. 페 조 르 이벤트13. 그것은 R 통계 소프트웨어 및 포장을 가진 유전자 예 후 분석 성과를 개량 하기 위하여 디자인 됩니다.

GOBO는 51 샘플 유방암 세포 라인 세트와 1881 샘플 유 방 종양 데이터 세트에서 마이크로 어레이 정보 (예: Affymetrix)가 있는 다기능 사용자 친화적인 온라인 도구로 서 광범위 한 분석을 가능 하 게 합니다14. 고 보 데이터베이스에서 사용 가능한 다양 한 응용 프로그램이 있으며,이는 유 방 종양 및 세포 주에 대 한 상이한 분자 아 류 형의 유전자 발현 프로필의 신속한 분석을 포함 하며, 잠재적 인 메타 물질의 생성을 위한 공동 발현 유전자 스크리닝 및 단일 유전자의 결과와 유전자 발현 수준, 유전자 세트, 또는 유방암 데이터 세트15의 유전자 서명 간의 상관관계 분석.

인간 단백질 아틀라스는 인간 생물학과 질병의 분야에 있는 많은 간행물에 이미 기여 한 인간적 인 프로테옴을 탐구 하는 과학자를 위해 디자인 된 열려있는 접근 프로그램입니다. 인간 단백질 아틀라스는 생명 과학 커뮤니티16,17의 유럽 핵심 자원으로 인정 받고 있습니다.

카 플 란 마이어 플로터는 1065 위, 2437 폐, 1816 난소 및 5143을 포함 하는 10461 암 샘플을 기반으로 하는 54675 유전자의 예 후 효과를 평가 하는 동시에 유전자 발현 및 임상 데이터를 통합 하는 온라인 도구입니다. 33/49/40/69 개월18의 평균 후속을 가진 유방암 환자. 유전자 발현의 정보, 재발 없는 생존 (RFS) 및 전체 생존 (OS)은이 데이터베이스19에서 다운로드 됩니다.

여기서, 우리는 여러 암 연구에 걸쳐 관심 유전자의 발현에서 변경의 패턴을 비교, 분석 및 시각화 하기 위해 여러 공개적으로 접근 가능한 데이터베이스를 사용 하는 실용적인 작업 절차를 설명, 요약의 목표와 발현 프로필, 예 후 값 및 유방암에서의 잠재적인 생물학적 기능. 예를 들어, 최근의 연구는 종양에서 ID 단백질의 발암 성질을 나타내어 세포 형질 전환, 불멸 화, 향상 된 증식 및 전이를 포함 하는 악성 기능과 관련 되어 있었다 (21), 22,23. 그러나, ID 가족의 각 구성원은 단단한 종양의 다른 모형에 있는 별개의 역할을, 그리고 유방암에 있는 그들의 역할은 불분명 하 게24남아 있습니다. 이전 연구에서,이 방법을 통해 탐구, 우리는 ID1 유방암에 있는 의미 있는 예 후 지시자 이었다는 것을 발견 했습니다25. 따라서 프로토콜은 데이터 마이닝 메서드를 소개 하는 예제로 ID1을 취합니다.

분석은 암 샘플에 대 한 관심 유전자의 발현 패턴을 질의 하 고 ONCOMINE의 정상 샘플에서 시작 합니다. 이어서, 유방암에 대 한 관심 유전자의 발현 상관관계는 bc-GenExMiner v 4.0, 고 보, 및 ONCOMINE을 사용 하 여 수행 하였다. 다음으로, ID1의 발현 프로필은 상기 3 개의 데이터베이스를 사용 하는 상이한 서브 그룹에 따라 계층화 되었다. 최종적으로, ID1 발현과 생존 사이의 연관성은 bc-GenExMiner v 4.0, 인간 단백질 아틀라스 및 카 플 란-마이어 플로터를 사용 하 여 분석 되었다. 작업 절차가 그림 1의 순서도로 표시 되었습니다.

Protocol

1. 발현 패턴 분석 ONCOMINE 웹 인터페이스 (26)로 이동 합니다. 검색 상자에 ID1 를 입력 하 여 다양 한 종류의 악성 종양에서 ID1 유전자의 상대적인 발현 수준을 구합니다. 기본 필터 메뉴에서 분석 유형을 선택 합니다. 그런 다음 암 대 정상 분석, 유방암 대 정상 분석을 선택 합…

Representative Results

유방암 바이오 마커의 데이터 마이닝 및 통합 분석의 대표적인 결과는 이전 연구 25에서 보고 된 DNA 결합 가족의 억제제 중 하나인 ID1를 사용 하 여 수행 하였다. 도 2에서 입증 된 것과 같이, 암의 여러 종류에서 종양과 정상 조직 사이의 ID1 mRNA 발현의 차이는 총 445 고유 분석을 포함 하?…

Discussion

공용 데이터베이스의 종합적인 분석은 관심 있는 유전자의 기저 함수를 나타내고 특정 암27,31에서이 유전자와 clinicopathological 파라미터 사이의 잠재적인 링크를 밝힐 수 있다. 단일 데이터베이스를 기반으로 하는 탐색 및 분석은 데이터 수집 및 분석 알고리즘을 포함 하 여 다양 한 데이터 품질 때문에 잠재적 선택 편향 또는 일정 한 범위 내에서 제한 ?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

이 사업은 광 동성, 중국 (No. 2018A030313562)의 자연 과학 재단에 의해 부분적으로 지원 되었으며, 광 동성 임상 교육 자료의 교육 개혁 프로젝트입니다.  2016JDB092), 중국 국립 자연과학 재단 (81600358), 광 동성 대학 및 대학의 청소년 혁신 인재 프로젝트 (NO. 2017KQNCX073)

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

Riferimenti

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).
check_url/it/59238?article_type=t

Play Video

Citazione di questo articolo
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video