Summary

Benzer şekilde etkili ikili sınıflandırma performansları ile birden fazla biyomarker alt kümeleri seçmek

Published: October 11, 2018
doi:

Summary

Varolan algoritmaları bir biyomarker algılama veri kümesi için bir çözüm oluşturur. Bu iletişim kuralı birden çok benzer şekilde etkin çözümler varlığını gösterir ve Biyomedikal araştırmacılar onların veri kümeleri için önerilen meydan okumak araştırmak için kullanımı kolay bir yazılım sunar. Bilgisayar mühendisleri, algılama algoritmaları onların biyomarker bu özelliği de sağlayabilir.

Abstract

Biyomarker algılama yüksek üretilen iş ‘omics’ araştırmacılar için biyomedikal daha önemli sorulardan biri ve hemen hemen tüm varolan biyomarker algılama algoritmaları belirli bir veri kümesi için en iyi duruma getirilmiş performans ölçümü ile bir biyomarker alt küme küme küme oluşturma . Ancak, yeni yapılan bir çalışmada birden çok biyomarker alt kümeleri bile aynı ya da benzer şekilde etkili sınıflandırma performansları ile varlığını gösterdi. Bu iletişim kuralı biyomarker alt kümeleri ile ikili sınıflandırma performansları, Kullanıcı tanımlı bir kesim iyi tespit için basit ve anlaşılır bir metodoloji sunar. Veri hazırlama ve yükleme, temel bilgileri özetleme, parametre ayarlama, biyomarker tarama, sonuç görselleştirme ve yorumu, biyomarker gen ek açıklamaları ve sonuç ve görselleştirme ihracat, protokol oluşur yayın kalitesi. Strateji eleme önerilen biyomarker sezgisel ve biyomarker algılama algoritmaları geliştirmek için genel bir kural gösterir. Bir Kullanıcı dostu grafik kullanıcı arabirimi (GUI) Python, biyomedikal araştırmacılar bunların sonuçları doğrudan erişmesini sağlayan programlama dilini kullanarak geliştirilmiştir. Kaynak kodu ve manuel kSolutionVis kullanımı-ebilmek var olmak downloaded–dan http://www.healthinformaticslab.org/supp/resources.php.

Introduction

İkili sınıflandırma, en yaygın olarak incelenmiş ve zorlu veri madenciliği Biyomedikal alanında sorunlar örneklerinin en doğru ayrımcılık güç1, iki gruplar eğitimli bir sınıflandırma modelini oluşturmak için kullanılır 2 , 3 , 4 , 5 , 6 , 7. Biyomedikal alanında oluşturulan büyük veri doğasında olan “büyük p küçük n” have paradigma, özellikler genellikle daha örnekleri6,8,9sayısından daha büyük sayıda. Bu nedenle, biyomedikal araştırmacılar overfitting sorun8,9önlemek için sınıflandırma algoritmaları kullanan önce özelliği boyut azaltmak zorunda. Tanı biyolojik tespit edilen özellikleri belirli bir hastalık hastaların sağlıklı kontrol örnekleri10,11ayıran bir alt olarak tanımlanır. Hastalar genellikle olumlu örnek olarak tanımlanır ve sağlıklı kontrol olumsuz örnekleri12olarak tanımlanır.

Son yıllarda yapılan çalışmalarda ile aynı veya benzer şekilde etkili sınıflandırma performansları Biyomedikal veri kümesi5için birden fazla çözüm var olduğunu ileri sürmüşlerdir. Hemen hemen tüm özellik seçimi algoritmalar aynı veri kümesi için tek bir çözüm üreten deterministik algoritmalar vardır. Genetik algoritmalar aynı anda birden çok çözümü benzer performanslar ile oluşturabilir, ama onlar hala bir çözüm en iyi fitness işleviyle bir belirli veri kümesi13,14için çıktı olarak seçmeye çalışın.

Özellik seçimi algoritmaları kabaca filtreleri veya sarmalayıcılar12olarak gruplandırılabilir. Üst –k özellikleri onların anlamlı bireysel ilişki özellikleri duymadığını ikili sınıf etiketlerle tarafından sıralanır her diğer15,16,17 bağımsız bir filtre algoritması seçilirse . Her ne kadar bu varsayım için hemen hemen tüm gerçek veri gerçek tutmaz, sezgisel filtre kuralı de çoğu zaman, örneğin, mehmet (en az artıklık ve en büyük alaka) algoritması, Wilcoxon testi temel özelliği (WRank) filtreleme gerçekleştirir algoritma ve ROC (alıcı çalışma özelliği) Arsa dayalı (ROCRank) filtreleme algoritması. Mehmet, çünkü bir verimli filtre algoritması her biri yalnızca iki değişken içerir, maksimum-bağımlılık özellik seçim algoritması karşılaştırarak daha küçük sorunları bir dizi Kombinatorik tahmini sorun yaklasik ve Bu nedenle daha sağlam18,19olan ikili ortak değerler kullanır. Ancak, mehmet alaka artırabilir ve böylece ayrı ayrı işe yaramıyor ama zaman sadece birlikte yararlı bazı özellik birleşimler özlüyor özellikleri arasındaki etkileşimler ölçmek değil gibi bazı özellikler kullanışlılığı hafife. WRank algoritma nasıl discriminative bir özellik örnekleri iki sınıf arasında ve onun sağlamlık outliers20,21için bilinen, parametrik olmayan bir puan hesaplar. Ayrıca, ne kadar önemli, belirli bir özellik alanı altında ROC eğrisi (AUC) için incelenen ikili sınıflandırma performans22,23‘ tür ROCRank algoritması değerlendirir.

Öte yandan, bir sarmalayıcı yinelemeli olarak sezgisel bir kural tarafından oluşturulan bir belirli özellik alt önceden tanımlı Sınıflandırıcısı’nın performansını değerlendirir ve en iyi performans ölçüm24ile özelliği alt küme küme küme oluşturur. Bir sarmalayıcı genellikle filtre sınıflandırma performans olarak daha iyi performans ancak daha yavaş25çalışır. Örneğin, bir alt kümesi olan özellik önem skorları Gini endeksi tarafından değerlendirilir her rasgele orman düğümdeki eğitim verileri özellikleri değerlendirerek açgözlü bir kural, düzenlenmesine yardımcı olmuştur rasgele orman (RRF)26,27 algoritmasını kullanır . Da bilgi kazanç bu seçilen özelliklerin düzelmezse yeni bir özellik seçimi cezalandırılır. Ayrıca, Microarrays (PAM)28,29 algoritması, ayrıca bir sarmalayıcı algoritması için tahmin analiz bir centroid her sınıf etiketleri için hesaplar ve sonra gene cisimlerin genel doğru daraltmak için özellikleri seçer sınıf centroid. PAM için dış özellikler sağlamdır.

Üst sınıflandırma performansı ile birden çok çözümü verilen herhangi bir veri kümesi için gerekli olabilir. İlk olarak, belirli bir algoritma en iyi duruma getirme amacı bir matematiksel formül, Örneğin, minimum hata oranı30, tarafından mutlaka biyolojik örnekler için ideal olan değil tanımlanır. İkinci olarak, bir veri kümesi birden fazla, önemli ölçüde farklı çözümler benzer etkili veya bile aynı performansları ile olabilir. Hemen hemen tüm varolan özellik seçimi algoritmaları Bu çözümlerden birini rasgele çıktı31seçecektir.

Bu çalışma için kullanılan herhangi bir verilen ikili sınıflandırma veri kümesi için benzer performansları ile birden çok özellik seçimi çözümleri üreten bir bilişim analitik Protokolü tanıtacak. En Biyomedikal araştırmacıları bilişim teknikleri veya bilgisayar kodlama aşina olmayan göz önüne alındığında, bir Kullanıcı dostu grafik kullanıcı arabirimi (GUI) Biyomedikal ikili sınıflandırma veri kümeleri hızlı analiz kolaylaştırmak için geliştirilmiştir. Analitik protokolü veri yükleme ve özetleme, parametre ayarlama, boru hattı yürütme ve sonuç yorumların oluşur. Basit bir tıklama ile araştırmacı biyomarker alt kümeleri ve yayın kalitesinde görselleştirme araziler oluşturmak yapabiliyor. Protokol iki ikili sınıflandırma veri kümeleri, akut lenfoblastik lösemi (ALL), yani, ALL1 ve ALL212transcriptomes kullanarak test edilmiştir. ALL1 ve ALL2 veri kümeleri Merkezi’nden Broad Enstitüsü genom veri analizi, http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi kullanılabilir indirilmiş. ALL1 12,625 özellikleri ile 128 örnekleri içerir. Bu, 95 B hücreli örneklerdir tüm ve 33 T hücreli olan tüm. ALL2 100 örnek 12,625 özellikleri de içerir. Bu örnekleri nüks yaşadı 65 hasta ve did değil 35 hasta vardır. ALL1 bir kolay ikili sınıflandırma veri kümesi, dört filtreler ve dört sarmalayıcılar %96.7 ve % 10012elde 8 Özellik seçimi algoritmalarının 6 olmak en az bir doğruluk ile yapıldı. ALL2 %83.7 doğruluk12‘ den daha iyi ulaşmak yukarıda 8 Özellik seçimi algoritmaları ile daha zor bir veri kümesi iken. Bu en iyi doğruluk 56 özelliklerle korelasyon tabanlı özellik seçimi (CFS) sarmalayıcı algoritması tarafından algılanan sağlanır.

Protocol

Not: Aşağıdaki protokol sözde büyük modülleri kodlarının ve Bilişim analitik prosedür ayrıntılarını açıklar. Python sürümü 3.6.0 ve Python modülleri pandalar, abc, numpy, be, sklearn, sys, PyQt5, sys, mehmet, matematik ve matplotlib kullanarak otomatik olarak analiz sistemi geliştirilmiştir. Bu çalışmada kullanılan malzemeler Malzemeler tablolistelenir. 1. veri matris hazırlayın ve sınıf etiketleri Veri matris dosyası <strong class="xf…

Representative Results

Bu iş akışı (Şekil 6) ikili sınıflandırma veri kümesi için benzer verimliliği ile birden fazla biyomarker alt kümeleri bulmak için hedeftir. Tüm süreç iki örnek veri kümeleri tarafından ALL1 ve bir biyomarker basılmış algılama çıkarılan ALL212,48çalışma gösterilmiştir. Kullanıcı-ebilmek install kSolutionVis ek materyalleri yönergeleri takip ederek. <p class="jove_…

Discussion

Bu çalışmada bir ikili sınıflandırma Kullanıcı tarafından belirtilen veri kümesi için bir takip etmek kolay çok çözüm biyomarker algılama ve karakterizasyonu Protokolü sunar. Yazılım kullanım kolaylığı ve esnek alma/verme arabirimleri Biyomedikal bir araştırmacı kolayca yazılım GUI kullanarak kendi veri kümesi araştırmak izin çeşitli dosya biçimleri için bir vurgu yapıyor. Bu çalışmada da benzer şekilde etkili modelleme performansları, daha önce birçok varolan biyomarker algıla…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Bu eser Çince Academy of Sciences (XDB13040400) ve başlangıç grant Jilin Üniversitesi stratejik öncelik araştırma programı tarafından desteklenmiştir. Adsız yorumcular ve Biyomedikal test kullanıcılar kullanılabilirlik ve kSolutionVis işlevselliğini geliştirmeye yönelik yapıcı yorumlar için takdir edildi.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/fr/57738?article_type=t

Play Video

Citer Cet Article
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video