Summary

Velge flere biomarkør delsett med tilsvarende effektiv binære klassifisering forestillinger

Published: October 11, 2018
doi:

Summary

Eksisterende algoritmer generere en løsning for et biomarkør oppdagelsen dataset. Denne protokollen viser eksistensen av flere lignende effektiv løsninger og presenterer en brukervennlig programvare for å hjelpe biomedisinske forskere undersøke deres datasett for foreslåtte challenge. Dataforskere kan også tilby denne funksjonen i deres biomarkør oppdagelsen algoritmer.

Abstract

Biomarkør oppdagelsen er en av de viktigere biomedisinske spørsmålene for høy gjennomstrømming ‘omics’ forskere, og nesten alle eksisterende biomarkør oppdagelsen algoritmer generere en biomarkør delsett med optimalisert ytelse målene for et gitt datasett . En fersk studie viste imidlertid eksistensen av flere biomarkør delsett med lignende effektiv eller selv identiske klassifisering forestillinger. Denne protokollen gir en enkel og grei metode for å oppdage biomarkør delsett med binære klassifisering forestillinger, bedre enn en brukerdefinert cutoff. Protokollen består av data forberedelse og lasting, opprinnelig informasjon Sammendragsstruktur, parameteren tuning, biomarkør screening, resultatet visualisering tolkning, biomarkør genet merknader og resultatet og visualisering eksport på publikasjonen kvalitet. Den foreslåtte biomarkør screening strategi er intuitivt og demonstrerer regel for å utvikle biomarkør oppdagelsen algoritmer. En bruker-vennlig grafisk bruker grenseflate (GUI) ble utviklet ved hjelp av programmeringsspråket Python, slik at biomedisinske forskere har direkte tilgang til sine resultater. Kildekoden og manuell av kSolutionVis kan lastes ned fra http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binær klassifisering, en av mest brukte undersøkt og utfordrende dataminering problemer i biomedisinsk området brukes til å bygge en klassifisering modell trent på to grupper av prøver med den mest nøyaktige diskriminering power1, 2 , 3 , 4 , 5 , 6 , 7. men store dataene som genereres i feltet biomedisinsk har iboende “store p liten n” paradigme, med antall funksjoner vanligvis mye større enn antall prøver6,8,9. Derfor må biomedisinske forskere redusere funksjonen dimensjonen før utnytte klassifisering algoritmer for å unngå overfitting problemet8,9. Diagnose biomarkers defineres som et delsett av oppdaget funksjoner skiller pasienter på en gitt sykdom fra sunn kontroll prøver10,11. Pasienter er vanligvis definert som positive prøvene, og sunn kontrollene er definert som den negative prøver12.

Nyere studier har antydet at det finnes mer enn én løsning med identiske eller lignende effektiv klassifisering forestillinger for biomedisinsk dataset5. Nesten alle funksjonen utvalg algoritmer er deterministisk algoritmer, produsere bare én løsning for samme datasettet. Genetiske algoritmer kan samtidig generere flere løsninger med lignende forestillinger, men fortsatt de prøver å velge en løsning med beste egnethetsfunksjonen utdata for et gitt datasett13,14.

Funksjonsvalg algoritmer kan grupperes omtrent som filtre eller wrappers12. En filter-algoritme velger topp –k funksjonene rangert av betydelige personlige tilknytning binære klasse etikettene basert på antagelsen om at funksjoner er uavhengig av hverandre15,16,17 . Selv om denne antakelsen ikke holder sant for nesten alle reelle datasett, utfører heuristisk filter regelen i mange tilfeller, for eksempel mRMR (Minimum redundans og maksimal relevans) algoritmen, Diversified test basert funksjonen filtrering (WRank) algoritme og ROC (mottaker drift karakteristiske) tomten basert filtrering (ROCRank) algoritme. mRMR, er en effektiv filter algoritme fordi den beregner kombinasjon estimering problemet med en rekke mye mindre problemer, sammenligne maksimum-avhengighet funksjonen utvalg algoritmen, hver bare involverer to variabler, og Derfor bruker parvis joint sannsynligheter som er mer robust18,19. MRMR kan imidlertid undervurdere nytten av noen funksjoner som det ikke måle samspillet mellom funksjoner som kan øke relevans, og dermed savner noen funksjon kombinasjoner som er individuelt ubrukelig men er nyttige bare når kombinert. WRank algoritmen beregner en ikke-parametriske score på hvordan discriminative en funksjon er mellom to klasser av prøver, og er kjent for sin robusthet for outliers20,21. Videre evaluerer ROCRank algoritmen betydelig området Under ROC kurven (AUC) for en bestemt funksjon er undersøkt binære klassifisering ytelse22,23.

På den annen side, en wrapper evaluerer forhåndsdefinerte klassifisererens ytelse til en gitt funksjon undergruppe, iterativt generert av heuristisk regel og oppretter funksjonen delsettet med de beste ytelse måling24. En wrapper vanligvis utkonkurrerer filtere i klassifisering ytelse, men kjører tregere25. For eksempel bruker Regularized tilfeldig skog (RRF)26,27 algoritmen grådig regel ved å evaluere funksjonene på et delsett av treningsdata på hver tilfeldig skogen node, hvis funksjonen betydning score evalueres i Gini indeksen . Valget av en ny funksjon skal straffes hvis sitt informasjon gevinst ikke forbedrer som de valgte funksjonene. I tillegg prediksjon analyse for Microarrays (PAM)28,29 algoritmen, også en wrapper algoritmen, beregner en centroid for hver klasse etiketter og deretter funksjoner krympe genet centroids mot generelt klassen centroid. PAM er robust for avsidesliggende funksjoner.

Flere løsninger med topp klassifisering ytelsen kan være nødvendig for en gitt datasett. Først er optimalisering målet av en deterministisk algoritme definert av en matematisk formel, f.eks, minst feil rate30, som er ikke nødvendigvis ideelt for biologiske prøver. Dernest kan dataset ha flere signifikant forskjellig, løsninger med lignende effektiv eller selv identiske forestillinger. Nesten alle eksisterende funksjonen utvalg algoritmer vil tilfeldig velger en av disse løsningene som utgang31.

Denne studien vil innføre en informatikk analytiske protokoll for å generere flere funksjonen utvalg løsninger med lignende forestillinger for enhver gitt binære klassifisering dataset. Tatt i betraktning at de fleste biomedisinske forskere ikke er kjent med informatic teknikker eller datamaskin koding, ble en bruker-vennlig grafisk bruker grenseflate (GUI) utviklet for å lette rask analyse av biomedisinsk binære klassifisering datasett. Analytiske protokollen består av data lessing og summere, parameteren tuning, rørledning utførelse og resultatet tolkninger. Med et enkelt klikk er forskeren kunne generere biomarkør delsett og publisering kvalitet visualisering tomter. Protokollen er testet med transcriptomes av to binære klassifisering datasett av akutt lymfatisk leukemi (alle), dvs, ALL1 og ALL212. Datasett ALL1 og ALL2 ble lastet ned fra bred Institute genomet analyse datasenteret, tilgjengelig på http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 inneholder 128 prøver med 12,625 funksjoner. Disse prøvene, 95 er B-celle alle og 33 er T-celle alle. ALL2 inkluderer 100 prøver med 12,625 funksjoner også. Disse prøvene er det 65 pasienter som LED tilbakefall og 35 pasienter som ikke. ALL1 var en enkel binær klassifisering datasett, med et minimum nøyaktigheten av fire filtre og fire wrappers 96.7%, og 6 av de 8 funksjon utvalg algoritmene å oppnå 100%12. Mens ALL2 var vanskeligere dataset, med over 8 funksjonen utvalg algoritmer å oppnå ikke bedre enn 83.7% nøyaktighet12. Dette best nøyaktighet ble oppnådd med 56 funksjoner oppdaget av wrapper algoritmen, korrelasjon-basert funksjon utvalg (CFS).

Protocol

Merk: Følgende protokollen beskriver detaljer om informatikk analytiske prosedyren og pseudo koder av de store modulene. Automatisk analyse systemet ble utviklet med Python versjon 3.6.0 og Python moduler pandaer, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matematikk og matplotlib. Materialene som brukes i denne studien er oppført i Tabellen for materiale. 1. klargjør Data Matrix og klasse etiketter Forberede matrix datafilen som en tabulatordelt eller kom…

Representative Results

Målet med denne arbeidsflyten (figur 6) er å oppdage flere biomarkør delsett med lignende effektivitet for binære klassifisering dataset. Hele prosessen er illustrert av to eksempel datasett ALL1 og ALL2 Hentet fra en nylig utgitte biomarkør oppdagelsen studere12,48. En bruker kan installere kSolutionVis ved å følge instruksjonene i supplerende materiale. <p class="jove_content" fo:keep-tog…

Discussion

Denne studien gir en lett-å-følge flere løsning biomarkør gjenkjenning og karakterisering protokoll for brukerdefinert binære klassifisering dataset. Programvaren legger vekt på brukervennlighet og fleksibel import/eksport grensesnitt for ulike filformater, slik at biomedisinsk forsker å undersøke deres dataset lett benytter GUI av programvaren. Denne studien også fremhever nødvendigheten av å generere flere løsninger med lignende effektiv modellering forestillinger, tidligere ignorert av mange eksisterende b…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble støttet av den strategiske prioritet Research Program det kinesiske vitenskapsakademi (XDB13040400) og oppstart tilskudd fra Jilin University. Anonyme vurderinger og biomedisinsk testing brukere ble verdsatt for sine konstruktive kommentarer å forbedre brukervennligheten og funksjonaliteten til kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video