Summary

複数の公的にアクセス可能なデータベースを用いた乳癌におけるバイオマーカーのデータマイニングと統合的解析の実行

Published: May 17, 2019
doi:

Summary

ここでは、一般にアクセス可能なさまざまなデータベースに由来するプールされた臨床データセットの包括的な分析に基づいて、乳がんのバイオマーカーと生存率予測を探索するためのプロトコルを紹介し、表現の戦略、相関関係、および生存時間分析ステップバイステップ

Abstract

近年、新興データベースは、複雑ながんゲノムデータセットへの接近の障壁を低減するように設計されており、これにより、異なる種類の癌にまたがる遺伝子、サンプル、および臨床データの分析と解釈を研究者に促すことができました。本明細書において、実用的な操作手順について説明し、ID1 (DNA 結合タンパク質1の阻害剤) を例にとって、由来するプールされた臨床データセットに基づく乳癌のバイオマーカーおよび生存予測因子の発現パターンを特徴づけるオンラインアクセス可能なデータベースには、ONCOMINE、bcGenExMiner v 4.0 (乳癌遺伝子発現マイナー v 4.0)、ゴボ (オンライン乳癌に対する遺伝子発現ベースの転帰)、HPA (ヒトタンパク質アトラス)、およびカプラン・マイヤープロッタが含まれる。分析は、がんのサンプルと通常のサンプルとの関係遺伝子 (例えば、ID1) の発現パターンを問い合わせることから始まりました。そして、乳がんにおける ID1 と clinicopathological 特性との相関分析を行った。次に、ID1 の発現プロファイルを、異なるサブグループに従って層状化した。最後に、ID1 発現と生存結果との関連を分析した。この操作手順は、異なるデータベースからの遺伝子レベルで多次元データ型を統合し、乳癌における遺伝子改変事象の再発およびゲノムコンテキストに関する仮説を検定するという概念を簡素化します。この方法は、結論の信頼性および代表性を向上させ、それによって、目的の遺伝子に関する有益な視点を提示することができる。

Introduction

乳癌は異なる分子亜型における多様な予後と治療戦略を有する異種疾患であり、病因と発達は恐らく異種の分子メカニズムに関連していると考えられる1,2,しかし、治療ターゲットを特定するには、通常、基礎研究での最初の発見から臨床利用4まで、何年も、数十年もかかります。癌ゲノムのためのハイスループットシーケンス技術のゲノム広い応用は、貴重なバイオマーカーまたは治療目標5を探索するプロセスを大いに進歩させる。

ICGC (国際がんゲノムコンソーシアム) や TCGA (がんゲノムアトラス) などの大規模ながんゲノミクスプラットフォームから生成されるがんゲノムデータの圧倒的な量は、研究者がデータを実行する上で大きな課題となっています。調査、統合、分析、特に情報学と計算678910の集中的な訓練を欠いているユーザーのために。近年では、新興のデータベース (例えば、ONCOMINE、bcGenExMiner 4.0、およびカプラン・マイヤープロッタなど) は、複雑な癌ゲノムデータセットに接近するためのバーを低くするように設計および開発され、これにより、調査者が分析し、さまざまなタイプの癌11の遺伝子、サンプルおよび臨床データを解釈しなさい。このプロトコールの目的は、多数の研究者によって広く認識されている一連のオープンアクセスデータベースから複数レベルの遺伝子情報と統合する研究戦略を記述し、潜在的なバイオマーカーを同定し、乳癌の予後因子

ONCOMINE データベースは癌のマイクロアレイ情報が付いているウェブベースのデータマイニングのプラットホームで、新しいバイオマーカーおよび治療上のターゲット11の発見を促進するように設計されている。現在、このデータベース11,12には65遺伝子発現データセットから4800万以上の遺伝子発現測定値がある。BcGenExMiner (非営利組織のための無料ツール) は、乳癌遺伝子発現マイナーとも呼ばれ、3414回収乳がん患者および1209の DNA マイクロアレイの結果を含むユーザーフレンドリーなウェブベースのアプリケーションである軽蔑的なイベント13.R 統計ソフトウェアおよびパッケージによる遺伝子予後解析性能を向上させることを目的としています。

ゴボは 51-サンプル乳癌の細胞ラインセットおよび1881サンプル乳房の腫瘍データセットからのマイクロアレイ情報 (例えば、Affymetrix U133A) が付いている多機能ユーザーフレンドリーのオンライン用具であり、それは分析14の広い配列を可能にする。ゴボデータベースには様々なアプリケーションがあり、乳房腫瘍と細胞株の異なる分子サブタイプにおける遺伝子発現プロファイルの迅速な解析、潜在的 metagenes の生成のための共発現遺伝子のスクリーニング、および1つの遺伝子の結果と遺伝子発現レベルとの相関分析、遺伝子の集合、または乳癌データセット15における遺伝子のシグネチャー。

人間のタンパク質アトラスは、人間の生物学と病気の分野で多数の出版物に既に貢献している人間のプロテオームを、探索する科学者のために設計されたオープンアクセスプログラムです。人間のタンパク質アトラスは、ライフサイエンスコミュニティ1617のためのヨーロッパのコアリソースとして認識されています。

カプランマイヤープロッタは、遺伝子発現と臨床データを同時に統合したオンラインツールで、1065胃、2437肺、1816卵巣および5143を含む10461がんサンプルに基づく54675遺伝子の予後予測効果の評価を可能にします。乳がん患者は33/49/40/69 ヶ月18の平均フォローアップを有する。遺伝子発現、無再発生存 (RFS) および全生存 (OS) の情報は、このデータベース19,20からダウンロード可能である。

ここでは、複数の公的にアクセス可能な複数のデータベースを用いて、多数のがん研究における対象遺伝子の発現の変化パターンを比較、分析、視覚化するための実用的操作手順について説明します。乳がんにおける発現プロファイル、予後値および潜在的な生物学的機能例えば、最近の研究は、腫瘍における ID タンパク質の発癌特性を示し、細胞形質転換、不死化、増殖および転移21 を含む悪性の特徴と関連していた、2223。しかし、ID ファミリーの各メンバーは、固形腫瘍の異なるタイプで明確な役割を果たしており、乳癌におけるそれらの役割は24不明のままである。以前の研究では、この方法によって、ID1 が乳癌25において有意な予後指標であったことがわかった。したがって、プロトコルは、データマイニングメソッドを導入するための例として ID1 を取ります。

分析は、ONCOMINE の癌性サンプルと通常のサンプルの目的遺伝子の発現パターンのクエリから開始します。次いで、乳癌における目的の遺伝子の発現相関を、bc − GenExMiner、ゴボ、および ONCOMINE を用いて実施した。次に、ID1 の発現プロファイルを、上記3つのデータベースを用いて異なるサブグループに従って層状化した。最後に、ID1 発現と生存率との関連を、bc-GenExMiner 4.0、ヒトタンパク質アトラス、およびカプラン・マイヤープロッタを用いて分析した。操作手順は、図 1のフローチャートとして示されています。

Protocol

1. 発現パターン解析 ONCOMINE web インターフェイス26に移動します。 検索ボックスにID1を入力することにより、様々なタイプの悪性腫瘍における遺伝子ID1の相対的発現レベルを得ることができます。 [一次フィルタ] メニューから [解析タイプ] を選択します。次に、がん対正常分析、<s…

Representative Results

乳癌バイオマーカーのデータマイニングおよび統合的分析の代表的な結果を、ID1 を用いて実施し、これは前の研究25で報告されている DNA 結合ファミリーメンバーの阻害剤の1つであった。 図 2に示されているように、複数のタイプの癌における腫瘍と正常組織との間の ID1 mRNA 発現?…

Discussion

公共のデータベースの包括的な分析は、対象となる遺伝子の基礎となる機能を示し、特定の癌27,31におけるこの遺伝子と clinicopathological パラメータとの間の潜在的なリンクを明らかにすることができる。1つのデータベースに基づく探索と分析では、データ収集や分析アルゴリズムなどのさまざまなデータ品質によって、潜在的な選択バイアス (ある…

Declarações

The authors have nothing to disclose.

Acknowledgements

この研究は、部分的に広東省、中国 (2018A030313562) の自然科学財団によってサポートされていた、広東臨床教育拠点の教育改革プロジェクト (NO. 2016JDB092)、中国の国立自然科学財団 (81600358)、及び青少年革新的なタレントプロジェクト中国広東省 (2017KQNCX073) の大学の

Materials

A personal computer or computing device with an Internet browser with Javascript
enabled
Microsoft 051690762553 We support and test the following browsers: Google Chrome, Firefox 3.0 and above, Safari, and Internet Explorer 9.0 and above
Adobe Flash player Adobe Systems Inc. It can be freely downloaded from http://get.adobe.com/flashplayer/. This browser plug-in is required for visualizing networks on the network
analysis tab.
Chrome Broswer Google Inc. It can be freely downloaded from https://www.google.cn/chrome/ This is necessary for viewing PDF files including the Pathology Reports and many of
the downloadable files.
Java Runtime Environment Oracle Corporation It can be downloaded from http://www.java.com/getjava/.
Office 365 ProPlus for Faculty Microsoft 2003BFFD8117EA68 This is necessary for viewing the Pathology Reports and for viewing many of
the downloadable files.
Vectr Online Vectr Labs Inc. It can be freely used from https://vectr.com/new This is necessary for visualizing and editing many of
the downloadable files and pictures.

Referências

  1. van 't Veer, L. J., et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature. 415 (6871), 530-536 (2002).
  2. Loi, S., et al. Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. Journal of Clinical Oncology. 25 (10), 1239-1246 (2007).
  3. Cancer Genome Atlas, N. Comprehensive molecular portraits of human breast tumours. Nature. 490 (7418), 61-70 (2012).
  4. Emerson, J. W., Dolled-Filhart, M., Harris, L., Rimm, D. L., Tuck, D. P. Quantitative assessment of tissue biomarkers and construction of a model to predict outcome in breast cancer using multiple imputation. Cancer Informatics. 7, 29-40 (2009).
  5. Yu, H., et al. Integrative genomic and transcriptomic analysis for pinpointing recurrent alterations of plant homeodomain genes and their clinical significance in breast cancer. Oncotarget. 8 (8), 13099-13115 (2017).
  6. He, W., et al. TCGA datasetbased construction and integrated analysis of aberrantly expressed long noncoding RNA mediated competing endogenous RNA network in gastric cancer. Oncology Reports. , (2018).
  7. Liu, J., et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 173 (2), 400-416 (2018).
  8. Esgueva, R., et al. Next-generation prostate cancer biobanking: toward a processing protocol amenable for the International Cancer Genome Consortium. Diagnostic Molecular Pathology. 21 (2), 61-68 (2012).
  9. Joly, Y., Dove, E. S., Knoppers, B. M., Bobrow, M., Chalmers, D. Data sharing in the post-genomic world: the experience of the International Cancer Genome Consortium (ICGC) Data Access Compliance Office (DACO). PLoS Computational Biology. 8 (7), e1002549 (2012).
  10. Zhang, J., et al. International Cancer Genome Consortium Data Portal–a one-stop shop for cancer genomics data. Database (Oxford). 2011, (2011).
  11. Rhodes, D. R., et al. ONCOMINE: a cancer microarray database and integrated data-mining platform. Neoplasia. 6 (1), 1-6 (2004).
  12. Rhodes, D. R., et al. Oncomine 3.0: genes, pathways, and networks in a collection of 18,000 cancer gene expression profiles. Neoplasia. 9 (2), 166-180 (2007).
  13. Jezequel, P., et al. bc-GenExMiner: an easy-to-use online platform for gene prognostic analyses in breast cancer. Breast Cancer Research and Treatment. 131 (3), 765-775 (2012).
  14. Ringner, M., Fredlund, E., Hakkinen, J., Borg, A., Staaf, J. GOBO: gene expression-based outcome for breast cancer online. PLoS One. 6 (3), e17911 (2011).
  15. Ponten, F., Jirstrom, K., Uhlen, M. The Human Protein Atlas–a tool for pathology. Journal of Pathology. 216 (4), 387-393 (2008).
  16. Ponten, F., Schwenk, J. M., Asplund, A., Edqvist, P. H. The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of Internal Medicine. 270 (5), 428-446 (2011).
  17. Gyorffy, B., et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1,809 patients. Breast Cancer Research and Treatment. 123 (3), 725-731 (2010).
  18. Stevinson, C., Lawlor, D. A. Searching multiple databases for systematic reviews: added value or diminishing returns?. Complementary Therapies in Medicine. 12 (4), 228-232 (2004).
  19. Yin, J., et al. Integrating multiple genome annotation databases improves the interpretation of microarray gene expression data. BMC Genomics. 11, 50 (2010).
  20. Patel, D., Morton, D. J., Carey, J., Havrda, M. C., Chaudhary, J. Inhibitor of differentiation 4 (ID4): From development to cancer. Biochimica et Biophysica Acta. 1855 (1), 92-103 (2015).
  21. Kamalian, L., et al. Increased expression of Id family proteins in small cell lung cancer and its prognostic significance. Clinical Cancer Research. 14 (8), 2318-2325 (2008).
  22. Cruz-Rodriguez, N., et al. High expression of ID family and IGJ genes signature as predictor of low induction treatment response and worst survival in adult Hispanic patients with B-acute lymphoblastic leukemia. Journal of Experimental and Clinical Cancer Research. 35, 64 (2016).
  23. Yang, H. Y., et al. Expression and prognostic value of Id protein family in human breast carcinoma. Oncology Reports. 23 (2), 321-328 (2010).
  24. Zhou, X. L., et al. Prognostic values of the inhibitor of DNAbinding family members in breast cancer. Oncology Reports. 40 (4), 1897-1906 (2018).
  25. . Available from: https://www.oncomine.org (2018)
  26. Lin, H. Y., Zeng, L., iang, Y. K., Wei, X. L., Chen, C. F. GATA3 and TRPS1 are distinct biomarkers and prognostic factors in breast cancer: database mining for GATA family members in malignancies. Oncotarget. 8 (21), 34750-34761 (2017).
  27. . Available from: https://www.proteinatlas.org (2018)
  28. Zhu, Y. F., Dong, M. Expression of TUSC3 and its prognostic significance in colorectal cancer. Pathology-Research and Practice. 214 (9), 1497-1503 (2018).
  29. Nelson, J. C., et al. Validation sampling can reduce bias in health care database studies: an illustration using influenza vaccination effectiveness. Journal of Clinical Epidemiology. 66 (8 Suppl), S110-S121 (2013).
  30. Haibe-Kains, B., Desmedt, C., Sotiriou, C., Bontempi, G. A comparative study of survival models for breast cancer prognostication based on microarray data: does a single gene beat them all?. Bioinformatics. 24 (19), 2200-2208 (2008).
  31. Yang, C., et al. Understanding genetic toxicity through data mining: the process of building knowledge by integrating multiple genetic toxicity databases. Toxicology Mechanisms and Methods. 18 (2-3), 277-295 (2008).
  32. Cannata, N., Merelli, E., Altman, R. B. Time to organize the bioinformatics resourceome. PLoS Computational Biology. 1 (7), e76 (2005).
  33. Wren, J. D., Bateman, A. Databases, data tombs and dust in the wind. Bioinformatics. 24 (19), 2127-2128 (2008).
check_url/pt/59238?article_type=t

Play Video

Citar este artigo
Chen, M., Zeng, D., Zheng, Z., Li, Z., Wu, J., Jin, J., Wang, H., Huang, C., Lin, H. Performing Data Mining And Integrative Analysis Of Biomarker in Breast Cancer Using Multiple Publicly Accessible Databases. J. Vis. Exp. (147), e59238, doi:10.3791/59238 (2019).

View Video