Summary

Att välja flera biomarkör grupper med liknande effektiva binär klassificering föreställningar

Published: October 11, 2018
doi:

Summary

Befintliga algoritmer generera en lösning för en biomarkör identifiering datamängd. Detta protokoll visar förekomsten av flera liknande effektiva lösningar och presenterar ett användarvänligt program för att hjälpa biomedicinsk forskare undersöka deras datamängder för de föreslagna utmaningen. Datavetare kan också tillhandahålla den här funktionen i deras biomarkör detekteringsalgoritmer.

Abstract

Biomarkör identifiering är en av de mer viktiga biomedicinska frågorna för high-throughput ”omics’ forskare, och nästan alla befintliga biomarkör detekteringsalgoritmer generera en biomarkör delmängd med optimerad prestanda mätningen för en given datamängd . En nyligen genomförd studie visade dock förekomsten av flera biomarkör grupper med lika effektiva eller till och med identiska klassificering föreställningar. Detta protokoll presenterar en enkel och okomplicerad metod för att upptäcka biomarkörer undergrupper med binär klassificering föreställningar, bättre än en användardefinierad cutoff. Protokollet består av dataförberedelse och lastning, baseline information sammanfattning, parametern tuning, biomarkör screening, resultatet visualisering och tolkning, biomarkör gen anteckningar och resultatet och visualisering export på publikationen kvalitet. Den föreslagna biomarkör screening strategi är intuitivt och visar en allmän regel för att utveckla detekteringsalgoritmer biomarkör. Ett användarvänligt grafiskt användargränssnitt (GUI) utvecklades med programmeringsspråket Python, så att biomedicinska forskare ha direkt tillgång till deras resultat. Källa koden och handbok av kSolutionVis kan laddas ner från http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binär klassificering, en av de vanligaste utreds och utmanande datautvinning problem i det biomedicinska området, används för att bygga en klassificering modell utbildade på två grupper av prover med den mest exakta diskriminering power1, 2 , 3 , 4 , 5 , 6 , 7. men de stora data som genereras i det biomedicinska området har inneboende ”stora p liten n” paradigm, med många funktioner som är oftast mycket större än antalet prover6,8,9. Därför har biomedicinska forskare att minska dimensionen funktion före utnyttja klassificering algoritmer för att undvika de overfitting problem8,9. Diagnos biomarkörer definieras som en delmängd av upptäckta funktioner skiljer patienter av en viss sjukdom från friska kontroll prover10,11. Patienter definieras ofta som de positiva proverna och de friska kontrollerna definieras som den negativa prover12.

Nyligen genomförda studier har föreslagit att det finns mer än en lösning med identisk eller lika effektiv klassificering föreställningar för en biomedicinsk datamängden5. Nästan alla funktionen urval algoritmer är deterministiska algoritmer, producerar bara en lösning för samma datamängd. Genetiska algoritmer kan samtidigt generera flera lösningar med liknande föreställningar, men de försöker fortfarande att välja en lösning med bästa fitness-funktionen som utdata för en given datamängd13,14.

Funktionen urval algoritmer kan grovt grupperas som antingen filter eller wrappers12. Ett filter algoritmen väljer top –k funktioner rankas av deras betydande enskilda association med binära klass etiketter baserat på antagandet att har är oberoende av varandra15,16,17 . Även om detta antagande inte håller sant för nästan alla verkliga datamängder, presterar den heuristiska filterregeln bra i många fall, exempelvis mRMR (Minimum redundans och maximal relevans) algoritm, Wilcoxon test baserat funktionen filtrering (WRank) algoritmen och ROC (mottagare operativa kännetecken) tomten baserat filtrering (ROCRank) algoritm. mRMR, är en effektiv filter algoritm eftersom det efterliknar kombinatoriska uppskattning problemet med en rad mycket mindre problem, jämfört med max-beroende funktionen urval algoritm, som alla innebär endast två variabler, och Därför använder parvisa joint sannolikheter som är mer robust18,19. MRMR kan emellertid underskatta nyttan av vissa funktioner som den inte mäter samspelet mellan funktioner som kan öka relevans, och därmed missar några funktion kombinationer som är individuellt värdelös men är användbara endast när de sammanställts. WRank algoritmen beräknar en icke-parametrisk poäng av hur diskriminerande en funktion är mellan två klasser av prover, och är känd för sin robusthet för extremvärden20,21. Dessutom utvärderar ROCRank algoritmen hur betydelsefullt område Under the ROC kurva (AUC) för en viss funktion är för den undersökta binära klassificering prestanda22,23.

Däremot, en wrapper utvärderar fördefinierade klassificerarens prestanda för en viss funktion delmängd, iterativt genereras av heuristisk regel och skapar delmängden funktion på bästa prestanda mätning24. En wrapper i allmänhet överträffar ett filter i klassificering prestanda men körs långsammare25. Reglerats Random Forest (RRF)26,27 algoritmen använder till exempel en girig regel, genom att utvärdera funktionerna på en delmängd av utbildning data på varje random forest nod, vars funktion betydelse noter utvärderas av Gini-indexet . Valet av en ny funktion kommer att straffas om sin information vinst inte förbättras av valda funktioner. Dessutom förutsägelse analysen för Microarrays (PAM)28,29 algoritm, också en wrapper algoritm, beräknar en centroiden för varje klass etiketterna och väljer sedan funktioner krympa de genen centroids mot totalt klass centroiden. PAM är robusta för perifera funktioner.

Flera lösningar med högsta klassificering prestanda kan vara nödvändigt för någon given datamängd. För det första definieras optimering målet av en deterministisk algoritm av en matematisk formel, t.ex., minsta fel hastighet30, som inte är nödvändigtvis idealiska för biologiska prover. För det andra kan en datamängd ha flera, betydligt olika, lösningar med liknande effektiva eller till och med identiska föreställningar. Nästan alla befintliga funktionen urval algoritmer väljer slumpmässigt en av dessa lösningar som utgång31.

Denna studie kommer att införa ett informatik analytiska protokoll för att generera flera funktionen urval lösningar med liknande föreställningar för någon viss binär klassificering datamängd. Med tanke på att de flesta biomedicinska forskare inte är bekant med datoriserad teknik eller datorn kodning, utvecklades ett användarvänligt grafiskt användargränssnitt (GUI) för att underlätta snabba analysen av biomedicinska binär klassificering datamängder. Analytic protokollet består av data lastning och sammanfatta, parametern tuning, pipeline utförande och resultat tolkningar. Med ett enkelt klick är forskaren kunna generera biomarkör delmängder och publikation-kvalitet visualisering tomter. Protokollet har testats med hjälp av transcriptomes av två binär klassificering datamängder av akut lymfoblastisk leukemi (ALL), dvs, hela1 och alla212. Datamängderna hela1 och alla2 hämtades från Broad Institute genomet Data analys Center, finns på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. Hela1 innehåller 128 prover med 12,625 funktioner. Av dessa prover, 95 är B-cell är alla och 33 T-cell alla. Alla2 innehåller 100 prover med 12,625 funktioner samt. Av dessa prover finns det 65 patienter som drabbades av återfall och 35 patienter som inte gjorde. Hela1 var en lätt binär klassificering datamängd, med en minsta noggrannhet av fyra filter och fyra wrappers 96,7%, och 6 av de 8 funktion urval algoritmer att uppnå 100%12. Medan alla2 var en svårare datamängd, med ovanstående 8 funktionen urval algoritmer att uppnå bättre än 83,7% noggrannhet12. Denna bästa noggrannhet uppnåddes med 56 funktioner identifieras av wrapper algoritm, korrelation-baserade funktionen urval (CFS).

Protocol

Obs: Följande protokoll beskriver detaljerna i förfarandet för informatik-analytic och pseudo koder av de stora modulerna. Automatisk analys systemet utvecklades med Python version 3.6.0 och Python moduler pandor, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matematik och matplotlib. Material som används i denna studie visas i Tabell för material. 1. förbereda DataMatrix och klass etiketter Förbereda data matrix filen som en tabb – eller semikolonavgrän…

Representative Results

Målet med detta arbetsflöde (figur 6) är att upptäcka flera biomarkör grupper med liknande effektivitetsvinster för en binär klassificering datamängd. Hela processen illustreras av två exempel datamängder hela1 och alla2 utvinns ur en nyligen publicerade biomarkör identifiering studera12,48. En användare kan installera kSolutionVis genom att följa instruktionerna i de kompletterande mater…

Discussion

Denna studie presenterar ett lätt att följa flera lösning biomarkör identifiering och karakterisering protokoll för en användarspecificerad binär klassificering datamängd. Programmet sätter fokus på användarvänlighet och flexibla import och export gränssnitt för olika filformat, så att en biomedicinsk forskare att undersöka deras dataset som enkelt använda GUI av programvaran. Denna studie betonar också nödvändigheten av att generera mer än en lösning med likaså effektiv modellering föreställning…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöds av prioriterade strategiska forskningsprogrammet av Chinese Academy of Sciences (XDB13040400) och start bidraget från Jilin University. Anonyma recensioner och biomedicinsk tester användare uppskattades för deras konstruktiva kommentarer på förbättrad användbarhet och funktionalitet i kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video