Summary

Hvis du vælger flere biomarkør delmængder med tilsvarende effektive binære klassificering forestillinger

Published: October 11, 2018
doi:

Summary

Eksisterende algoritmer generere en løsning for en biomarkør påvisning datasæt. Denne protokol viser eksistensen af flere tilsvarende effektive løsninger og præsenterer en brugervenlig software til at hjælpe biomedicinske forskere undersøge deres datasæt for den foreslåede udfordring. Dataloger kan også give denne funktion i deres biomarkør påvisning algoritmer.

Abstract

Registrering af biomarkør er en af de mere vigtige biomedicinske spørgsmål for høj overførselshastighed ‘omik’ forskere, og næsten alle eksisterende biomarkør påvisning algoritmer generere en biomarkør delmængde med optimeret performance-måling for et givet datasæt . Men en nylig undersøgelse påvist eksistensen af flere biomarkør delmængder med tilsvarende effektive eller endda identiske klassificering forestillinger. Denne protokol udgør en enkel og ligetil metode til påvisning af biomarkør delmængder med binære klassificering forestillinger, bedre end en brugerdefineret cutoff. Protokollen består af dataforberedelse og lastning, baseline oplysninger sammendrag, parameter tuning, biomarkør screening, resultatet visualisering og fortolkning, biomarkør gen anmærkninger, og resultatet og visualisering udførsel på publikation kvalitet. Den foreslåede biomarkør screening strategi er intuitiv og viser en generel regel for at udvikle biomarkør påvisning algoritmer. En bruger-kammeratlig anskuelighed brugergrænseflade (GUI) blev udviklet ved hjælp af programmeringssproget Python, tillader biomedicinske forskere at have direkte adgang til deres resultater. Kildekode og vejledning i kSolutionVis kan downloades fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binære klassificering, en af mest almindeligt undersøgt og udfordrende datamining problemer på det biomedicinske område, der bruges til at bygge en klassificering model uddannet på to grupper af prøver med den mest nøjagtige forskelsbehandling power1, 2 , 3 , 4 , 5 , 6 , 7. den store data genereret på det biomedicinske område har imidlertid den iboende “store lille PN” paradigme, med antallet af funktioner normalt langt større end antallet af prøver6,8,9. Biomedicinske forskere skal derfor reducere dimensionen funktion før bruger klassifikationen algoritmer for at undgå den overfitting problem8,9. Diagnose biomarkører er defineret som en delmængde af detekterede funktioner adskille patienter af en given sygdom fra sunde kontrol prøver10,11. Patienter er normalt defineret som de positive prøver, og de raske kontrolpersoner defineres som negative prøver12.

Nylige undersøgelser har antydet, at der findes mere end én løsning med identiske eller tilsvarende effektiv klassificering forestillinger til en biomedicinsk datasæt5. Næsten alle funktionen markering algoritmerne er deterministisk algoritmer, producerer kun én løsning til det samme datasæt. Genetiske algoritmer kan samtidig generere flere løsninger med lignende forestillinger, men de stadig forsøger at vælge en løsning med den bedste fitness-funktion som output for en given datasæt13,14.

Funktionen markering algoritmer kan grupperes groft som enten filtre eller wrappers12. Et filter algoritme vælger de top –k funktioner rangeret efter deres betydelige individuelle association med binære klasse etiketterne baseret på den antagelse, at funktioner er uafhængige af hinanden15,16,17 . Selv om denne antagelse ikke holder gælder for næsten alle virkelige datasæt, udfører heuristisk filterregel godt i mange tilfælde, for eksempel, Christinas (Minimum redundans og maksimale relevans) algoritme, Wilcoxon test baseret funktion filtrering (WRank) algoritme, og handlingen ROC (Receiver drift karakteristisk) baseret filtrering (ROCRank) algoritme. Flemming, er en effektiv filter algoritme fordi det tilnærmer kombinatorisk skøn problemet med en serie af meget mindre problemer, sammenligne med maksimum-afhængighed funktion udvalg algoritme, som hver omfatter kun to variabler, og Derfor bruger parvise joint sandsynligheder, som er mere robust18,19. Dog kan Christines undervurdere nytten af nogle funktioner, som det ikke måler interaktioner mellem funktioner, som kan øge relevans, og dermed misser nogle funktion de kombinationer, der er individuelt ubrugelig men er nyttige, kun når de kombineres. WRank algoritme beregner en ikke-parametrisk score på hvordan diskriminerende en funktion mellem to klasser af prøver, og er kendt for sin robusthed for outliers20,21. Derudover evaluerer ROCRank algoritme, hvordan væsentlige område Under the ROC kurve (AUC) af en bestemt funktion er for undersøgte binære klassificering ydeevne22,23.

På den anden side en wrapper evalueres forud definerede klassificeringen udførelsen af en given funktion delmængde, iterativt genereret af heuristisk regel og skaber funktion delmængde med den bedste performance måling24. En wrapper generelt udkonkurrerer et filter i klassificering ydeevne men kører langsommere25. Legaliseret tilfældige skov (RRF)26,27 algoritme bruges f.eks grådige regel ved at vurdere funktioner på en delmængde af træningsdata på hver tilfældig skov node, hvis funktion betydning scores evalueres ved Gini-indekset . Valget af en ny funktion vil blive straffet, hvis dens oplysninger gevinst ikke forbedres for de valgte funktioner. Derudover forudsigelse analyse for Microarrays (PAM)28,29 algoritme, også en wrapper algoritme, beregner en barycentrum for hver klasse etiketter, og derefter vælger egenskaber hen til krybe gen centroids mod samlet klasse barycentrum. PAM er robust til fjerntliggende funktioner.

Flere løsninger med øverste klassificering ydeevne kan være nødvendigt for enhver given datasæt. For det første, optimering mål af en deterministisk algoritme er defineret af en matematisk formel, f.eks., minimum fejl sats30, som er ikke nødvendigvis velegnet til biologiske prøver. For det andet kan et datasæt have flere, væsentligt anderledes løsninger med lignende effektiv eller endda identiske forestillinger. Næsten alle eksisterende funktion udvalg algoritmer vil tilfældigt vælge en af disse løsninger som output31.

Denne undersøgelse vil indføre en Informatik analytiske protokol til at generere flere funktion udvalg løsninger med lignende forestillinger for enhver given binære klassificering datasæt. I betragtning af at de fleste biomedicinske forskere ikke er fortrolig med it teknikker eller computer kodning, blev en bruger-kammeratlig anskuelighed brugergrænseflade (GUI) udviklet for at lette en hurtig analyse af biomedicinsk binære klassificering datasæt. Den analytiske protokollen består af dataindlæsning og opsummere, parameter tuning, rørledning udførelse og resultatet fortolkninger. Med et enkelt klik er at forskeren købedygtig frembringe biomarkør delmængder og publikation-kvalitet visualisering parceller. Protokollen er blevet testet ved hjælp af transcriptomes af to binære klassificering datasæt af akut lymfoblastær leukæmi (ALL), dvs., ALL1 og ALL212. Datasæt af ALL1 og ALL2 blev hentet fra bred Institut genom Data analyse Center, tilgængelig på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 indeholder 128 prøver med 12,625 funktioner. Af disse prøver, 95 er B-celle alle og 33 er T-celle alle. ALL2 indeholder 100 prøver med 12,625 funktioner så godt. Af disse prøver er der 65 patienter, der har lidt tilbagefald og 35 patienter, der ikke gjorde. ALL1 var et let binære klassificering datasæt, med en minimum nøjagtigheden af fire filtre og fire wrappers 96,7% og 6 af de 8 funktion udvalg algoritmer at opnå 100%12. Mens ALL2 var en vanskeligere datasæt, med de ovenfor 8 funktion udvalg algoritmer at opnå bedre end 83,7% nøjagtighed12. Denne bedste nøjagtighed blev opnået med 56 funktioner opdaget af wrapper algoritme, korrelation-baseret funktion valg (CFS).

Protocol

Bemærk: Følgende protokol beskriver detaljerne i Informatik analytiske procedure og pseudo koder af de store moduler. Automatisk analysesystem blev udviklet ved hjælp af Python version 3.6.0 og Python moduler pandaer, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Flemming, matematik og matplotlib. Materialer i denne undersøgelse er angivet i Tabel af materialer. 1. forberede Data Matrix og klasse etiketter Forberede data matrix fil som en tabulator – eller kommase…

Representative Results

Målet med denne arbejdsproces (figur 6) er at opdage flere biomarkør delmængder med lignende effektivitetsgevinster for et datasæt, binære klassificering. Hele processen er illustreret af to eksempel datasæt ALL1 og ALL2 udvundet af en nyligt offentliggjorte biomarkør påvisning studere12,48. En bruger kan installere kSolutionVis ved at følge instruktionerne i de supplerende materialer. <p…

Discussion

Denne undersøgelse præsenterer en nem at følge multi løsning biomarkør detektion og karakterisering protokol for et datasæt, bruger-specificeret binære klassificering. Softwaren sætter fokus på brugervenlighed og fleksible import/eksport grænseflader til forskellige filformater, tillader en biomedicinsk forsker at undersøge deres datasæt nemt ved hjælp af GUI af softwaren. Denne undersøgelse fremhæver også nødvendigheden af at generere mere end én løsning med tilsvarende effektive modellering forestill…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet af det strategiske prioritet Research Program af kinesiske Academy of Sciences (XDB13040400) og start tilskud fra Jilin Universitet. Anonym korrekturlæsere og biomedicinsk test brugere blev værdsat for deres konstruktive kommentarer om forbedring af brugervenligheden og funktionaliteten af kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video