Summary

同様に効果的な二値分類性能を持つ複数のバイオ マーカーのサブセットを選択

Published: October 11, 2018
doi:

Summary

既存のアルゴリズムは、バイオ マーカー検出データセットの 1 つのソリューションを生成します。このプロトコルは、複数の同様に有効な解の存在を示し、提案の挑戦のためのデータセットの調査生物医学の研究のためのユーザーフレンドリーなソフトウェアを示します。コンピューター科学者は、彼らのバイオ マーカーのこの機能が検出アルゴリズムを入力もできます。

Abstract

バイオ マーカー検出 ‘高速 ‘オミックス研究者より重要な医学問題の 1 つは、ほぼすべての既存のバイオ マーカー検出アルゴリズムは、与えられたデータセットの最適化されたパフォーマンスの測定と 1 つのバイオ マーカーのサブセットを生成.しかし、最近の研究では、同様に効果的なまたは同一の分類性能を持つ複数のバイオ マーカーのサブセットの存在を実証しました。このプロトコルは、二値分類のパフォーマンス、ユーザー定義カットオフよりバイオ マーカーのサブセットを検出するためのシンプルで簡単な方法論を提示します。プロトコルは、データの準備と読み込み、ベースライン情報の要約、パラメータ チューニング、バイオ マーカーのスクリーニング、結果可視化解釈、バイオ マーカー遺伝子アノテーションとで結果と可視化の輸出で構成されています出版物の品質。スクリーニング戦略提案のバイオ マーカーは、直感的なバイオ マーカー検出アルゴリズムを開発するための一般的な規則を示します。ユーザーフレンドリーなグラフィカル ユーザー インターフェイス (GUI) は、プログラミング言語の Python では、生物医学の研究の結果に直接アクセスすることができますを使用して開発されました。ソース コードとマニュアルの kSolutionVis は、http://www.healthinformaticslab.org/supp/resources.php からダウンロードできます。

Introduction

二値分類、最も一般的の 1 つを調査し、最も正確な差別のパワー1,のサンプルの 2 つのグループの訓練を受けて分類モデルの構築に挑戦的なデータマイニングで生物医学分野における問題を使用2,3,4,5,6,7します。 ただし、バイオメディカル分野で生成された大きなデータは、本来「大 p 小さな n」パラダイム、機能サンプル6,8,9の数より大きい数を持つ。したがって、生物学者は、過問題8,9を避ける分類アルゴリズムを活用する前にフィーチャーの寸法を減らさなければなりません。診断バイオ マーカーは、健康的な制御サンプル10,11から特定の病気の患者を分離検出されたフィーチャのサブセットとして定義されます。患者は通常、肯定的なサンプルとして定義されて、健常者が負サンプル12として定義されます。

最近の研究では、生体データセット5ため同一または同様に効果的な分類の公演で 1 つ以上のソリューションが存在することを示唆しています。ほぼすべての機能選択アルゴリズムは、確定的なアルゴリズムは、同じデータセットを 1 つだけ解決です。遺伝的アルゴリズム同時に同様の性能を持つ複数のソリューションを生成可能性がありますが、彼らはまだ与えられたデータセット13,14の出力として最高のフィットネス関数で 1 つのソリューションを選択ましょう。

機能選択アルゴリズムは、フィルターまたはラッパー12として大体グループ化できます。フィルター アルゴリズム選択機能仮定に基づくバイナリ クラス ラベルを重要な個別連想ランキング トップ –k機能がお互い15,16,17 の独立しました。.この前提が成立しないほとんどすべての現実世界のデータセット、ヒューリスティック フィルタ ルール アルゴリズムを実行する、多くの場合、例えば、mRMR (冗長性を最小と最大の関連性)、Wilcoxon テストによる機能フィルター (WRank)アルゴリズム、および ROC (受信者操作特性) プロット (ROCRank) をフィルタ リング アルゴリズムを用いた。それははるかに小さい問題、それぞれのだけ 2 つの変数が含まれている最大依存関係機能選択アルゴリズムと比較する一連の組合せの推定問題を近似 mRMR、効率的なフィルター アルゴリズムは、したがってより堅牢な18,19ペア共同確率を使用します。しかし、それでは、関連性を高めることができますし、このように個別に役に立たないが、組み合わせたときにのみ有用ないくつかの機能の組み合わせをミスの機能間の相互作用を計測、mRMR 可能性がありますいくつかの機能の有用性を過小評価。WRank アルゴリズムは、どのように識別機能のサンプルは、2 つのクラス間と外れ値20,21の堅牢性のために知られている非パラメトリック スコアを計算します。さらに、ROCRank アルゴリズムは, 二値分類性能22,23どのように重要な ROC の下で領域曲線 (AUC) の特定の機能を評価します。

その一方で、ラッパーは繰り返しヒューリスティック ルールによって生成された特定の機能サブセットの定義済みの分類子のパフォーマンスを評価し、最高のパフォーマンス測定24の機能のサブセットを作成します。ラッパーは、一般的に分類性能のフィルターよりも優れているが、遅い25を実行します。正則ランダム フォレスト (RRF)26,27アルゴリズムが機能重要性スコアは、ジニ指数によって評価される各ランダム フォレスト] ノードにトレーニング データのサブセットの機能を評価することによって、貪欲な規則を使用するたとえば、.新機能の選択は、そのインフォメーション ・ ゲインが選ばれた機能の改善しない場合罰せられることでしょう。さらに、マイクロ アレイ (PAM)28,29アルゴリズムもラッパーのアルゴリズムの予測分析クラスのラベルのそれぞれの重心を計算し、全体に向けた遺伝子重心を圧縮する機能を選択しますクラスの重心。PAM は遠く隔った機能の堅牢です。

トップの分類性能を持つ複数のソリューション、特定のデータセットの必要があります。まず、決定的アルゴリズムの最適化の目標は、必ずしも生物学的サンプルの理想的ではない、数式、例えば、最小誤り率30、によって定義されます。第二に、データセットと同様の効果的なまたは同一公演を複数、大幅に異なるソリューションがあります。ほとんどすべての既存機能選択アルゴリズムは、ランダムに出力31としてこれらのソリューションのいずれかを選択します。

本研究は、任意の指定されたバイナリ分類データセットと同様のパフォーマンスと複数の機能選択解情報分析プロトコルをご紹介いたします。情報技術やコンピューターがコーディングに精通しているない最も生物学者を考慮した、ユーザーフレンドリーなグラフィカル ユーザー インターフェイス (GUI) は生体二値分類データセットの迅速分析を容易にするために開発されました。分析のプロトコルは、データの読み込みと集計、パラメーター調整、パイプラインの実行と結果の解釈で構成されています。単純なクリックで研究者、バイオ マーカーのサブセットと文書品質可視化のプロットを生成することができます。プロトコルは、2 つの二値分類データセット急性リンパ芽球性白血病 (すべて) のすなわちALL1 と ALL212のトランスクリプトームを使用してテストされています。ALL1 と ALL2 のデータセットは、広範な研究所ゲノム解析センター、http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi でご利用いただけますからダウンロードされました。ALL1 には 12,625 機能を持つ 128 のサンプルが含まれています。これらのサンプルの 95 は B 細胞すべてと 33 T 細胞は、すべて。ALL2 には 12,625 機能同様の 100 サンプルが含まれます。これらのサンプルの再発を受けた 65 患者としなかった患者 35 例があります。ALL1 はだった 4 つのフィルターと 4 つのラッパーが 96.7% と 10012を達成する 8 特徴選択アルゴリズムの 6 の最小精度の簡単なバイナリ分類データセットです。ALL2 は 83.7% 精度12よりも優れて実現する上記の 8 の機能選択アルゴリズムのより困難なデータセットです。この最高の精度は相関機能選択 (CFS)、ラッパー アルゴリズムによって検出された 56 機能で実現されました。

Protocol

注: 次のプロトコルは、情報の分析手順の詳細との主要なモジュールの擬似コードをについて説明します。自動解析システムは、Python バージョン 3.6.0 と Python モジュール パンダ、abc、numpy、scipy、sklearn、sys、PyQt5、sys、mRMR、数学および matplotlib を使用して開発されました。本研究で使用される材料は、材料のテーブルに表示されます。 1 データ行列を準備し、…

Representative Results

このワークフロー (図 6) の目標は、二値分類データセットの同じような効率を持つ複数のバイオ マーカーのサブセットを検出することです。全体のプロセスは、2 つの例のデータセット ALL1 と ALL2 最近公開されたバイオ マーカー検出から抽出した12,48の研究によって例証されます。ユーザーは、補足?…

Discussion

本研究は、二値分類のユーザー指定したデータセットに容易に続くマルチ ソリューション バイオ マーカー検出と評価プロトコルを提示します。ソフトウェアは、使いやすさと柔軟性のあるインポート/エクスポート インターフェイス ソフトウェアの GUI を使用して簡単にそのデータセットを調査する医学研究者を許可する、さまざまなファイル形式の重点を置きます。本研究では、以前多?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

この作品は、中国の科学 (XDB13040400) 院と吉林大学からスタートアップ助成金の戦略的な重点研究課題によって支えられました。匿名のレビューや生体テスト ユーザーは、使いやすさと kSolutionVis の機能の改善に関する建設的なコメントの認められました。

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video