Summary

Selezionando più biomarcatore sottoinsiemi con similmente efficace classificazione binaria spettacoli

Published: October 11, 2018
doi:

Summary

Algoritmi esistenti generano una soluzione per un set di dati di rilevamento biomarcatore. Questo protocollo dimostra l’esistenza di molteplici soluzioni similmente efficaci e presenta un software user-friendly per aiutare i ricercatori biomedici indagare il loro set di dati per la sfida proposta. Gli informatici possono anche fornire questa funzionalità nel loro biomarcatore algoritmi di rilevamento.

Abstract

Rilevamento di biomarcatore è una delle più importanti domande biomedicale per i ricercatori di high-throughput “omiche”, e quasi tutti gli algoritmi di rilevamento biomarcatore esistenti generano un sottoinsieme di biomarcatore con la misura di prestazioni ottimizzate per un determinato set di dati . Tuttavia, un recente studio ha dimostrato l’esistenza di più sottoinsiemi di biomarcatore con esibizioni di classificazione similmente efficaci o addirittura identici. Questo protocollo presenta una metodologia semplice e diretta per la rilevazione di sottoinsiemi di biomarcatore con esibizioni di classificazione binaria, meglio di un cut-off definito dall’utente. Il protocollo consiste di preparazione dei dati e caricamento, Riepilogo informazioni di base, parametro tuning, lo screening biomarcatore, visualizzazione dei risultati e interpretazione, biomarcatore gene annotazioni ed esportazione di risultato e la visualizzazione a qualità di pubblicazione. Il biomarcatore proposto strategia di screening è intuitivo e dimostra una regola generale per lo sviluppo di algoritmi di rilevamento del biomarcatore. Un’interfaccia grafica utente (GUI) è stata sviluppata utilizzando il linguaggio di programmazione Python, permettendo i ricercatori biomedici di avere accesso diretto ai loro risultati. Il manuale di kSolutionVis e il codice sorgente può essere scaricati da http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Classificazione binaria, uno dei più comunemente studiato e dati impegnativi problemi in ambito biomedico, di data mining viene utilizzato per costruire un modello di classificazione addestrato su due gruppi di campioni con la più accurata discriminazione potenza1, 2 , 3 , 4 , 5 , 6 , 7. Tuttavia, le grandi quantità di dati generati in campo biomedico ha l’intrinseca “grande p piccolo n” paradigma, con il numero di caratteristiche solitamente molto più grande rispetto al numero di campioni6,8,9. Pertanto, i ricercatori biomedici necessario ridurre la dimensione caratteristica prima che utilizza gli algoritmi di classificazione per evitare l’overfitting problema8,9. Biomarcatori di diagnosi sono definiti come un sottoinsieme delle caratteristiche rilevate che separa i pazienti di una determinata malattia da sani di controllo campioni10,11. I pazienti sono solitamente definiti come i campioni positivi, e i controlli sani sono definiti come i campioni negativi12.

Studi recenti hanno suggerito che esiste più di una soluzione con prestazioni identiche o similmente efficace classificazione per un set di dati biomedici5. Quasi tutti gli algoritmi di selezione funzionalità sono algoritmi deterministici, producendo solo una soluzione per lo stesso dataset. Gli algoritmi genetici possono generare simultaneamente molteplici soluzioni con prestazioni simili, ma cercano ancora di selezionare un’unica soluzione con la migliore funzione di fitness come output per un dato set di dati13,14.

Algoritmi di selezione funzionalità possono essere approssimativamente raggruppati come filtri o wrapper12. Un algoritmo di filtro sceglie le caratteristichek top – classificate dalla loro associazione significativa individuali con le etichette di classe binario basato sul presupposto che dispone sono indipendente da ogni altro15,16,17 . Anche se questo presupposto non vale per quasi tutti i dataset reali, la regola di filtro euristico esegue bene in molti casi, per esempio, l’algoritmo di mRMR (ridondanza minima e massima rilevanza), Wilcoxon test basato funzionalità filtro (WRank) algoritmo e la trama ROC (caratteristica di funzionamento ricevitore) basato su algoritmo di filtraggio (ROCRank). mRMR, è un algoritmo efficiente filtro perché si approssima il problema combinatorio stima con una serie di problemi molto più piccoli, confronto con l’algoritmo di selezione funzione massimo-dipendenza, ognuna delle quali prevede solo due variabili, e utilizza pertanto le probabilità di joint pairwise che sono più robusti18,19. Tuttavia, mRMR può sottovalutare l’utilità di alcune caratteristiche non misura le interazioni tra caratteristiche che possono aumentare la pertinenza e così non trova alcune combinazioni di funzionalità che sono individualmente inutile ma sono utili solo quando combinato. L’algoritmo di WRank calcola un punteggio non parametrica di come discriminante una caratteristica è tra due classi di campioni ed è noto per la sua robustezza per outlier20,21. Inoltre, l’algoritmo di ROCRank valuta come significativo l’Area Under the ROC curva (AUC) di una particolare caratteristica è per la classificazione binaria indagate prestazioni22,23.

D’altra parte, un wrapper valuta le prestazioni del classificatore pre-definiti di un sottoinsieme di funzionalità specificato, in modo iterativo generato da una regola euristica e crea il sottoinsieme di funzionalità con le migliori prestazioni misura24. Un wrapper generalmente supera un filtro delle prestazioni di classificazione ma corre più lento25. Ad esempio, l’algoritmo di27 26,foresta casuale regolarizzata (RRF) utilizza una regola di avida, valutando le caratteristiche su un sottoinsieme dei dati di training a ogni nodo casuale foresta, cui punteggi di caratteristica importanza vengono valutate tramite l’indice di Gini . La scelta di una nuova funzionalità sarà penalizzata se suo guadagno informazioni non migliora che delle caratteristiche selezionate. Inoltre, l’analisi di previsione per i Microarrays (PAM)28,29 algoritmo, anche un algoritmo di wrapper, calcola un centroide per tutte le etichette di classe e quindi seleziona funzionalità per compattare i centroidi gene verso la totale centroide di classe. PAM è robusta per caratteristiche periferiche.

Molteplici soluzioni con le prestazioni di classificazione superiore possono essere necessarie per qualsiasi set di dati specificato. In primo luogo, l’obiettivo di ottimizzazione di un algoritmo deterministico è definito da una formula matematica, ad esempio, tasso di errore minimo30, che non è necessariamente ideale per campioni biologici. In secondo luogo, un set di dati possono avere soluzioni significativamente differenti, multiplo, con simili prestazioni efficaci o addirittura identici. Quasi tutti gli algoritmi di selezione funzionalità esistenti selezionerà casualmente una di queste soluzioni come l’ uscita31.

Questo studio introdurrà un protocollo analitico di informatica per la generazione di soluzioni di selezione funzionalità multiple con prestazioni simili per qualsiasi set di dati di classificazione binaria dato. Considerando che i ricercatori biomedici più non familiarità con tecniche informatiche o computer di codifica, un’interfaccia grafica utente (GUI) è stata sviluppata per facilitare l’analisi rapida dei set di dati biomedici classificazione binaria. Il protocollo analitico consiste di caricamento dei dati e che riassume, parametro tuning, l’esecuzione della pipeline e interpretazioni di risultato. Con un semplice click, il ricercatore è in grado di generare il biomarcatore sottoinsiemi e pubblicazione-qualità visualizzazione grafici. Il protocollo è stato testato utilizzando i trascrittomi di classificazione binaria base dati di leucemia linfoblastica acuta (LLA), vale a dire, ALL1 e ALL212. I set di dati di ALL1 e ALL2 sono stati scaricati dal Broad Institute genoma Data Analysis Center, disponibile presso http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 contiene 128 campioni con 12.625 caratteristiche. Di questi esempi, 95 sono B-cellula tutti e 33 sono cellule T tutti. ALL2 include 100 campioni con 12.625 caratteristiche pure. Di questi esempi, ci sono 65 pazienti che hanno sofferto di ricaduta e 35 pazienti che non hanno fatto. ALL1 era un set di dati di facile classificazione binaria, con una precisione minima di quattro filtri e quattro wrapper essendo 96.7% e 6 degli algoritmi di selezione 8 funzionalità raggiungimento 100%12. Mentre ALL2 era un dataset più difficile, con gli algoritmi di selezione 8 caratteristica sopra raggiungere nessuno meglio di 83,7% precisione12. Questa precisione migliore è stata realizzata con 56 caratteristiche rilevate dall’algoritmo wrapper, funzionalità di selezione basata sulla correlazione (CFS).

Protocol

Nota: Il seguente protocollo descrive i dettagli del procedimento analitico informatica e pseudo-codici dei moduli principali. Il sistema di analisi automatica è stato sviluppato utilizzando Python versione 3.6.0 e i Panda di moduli Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Jamy, matematica e matplotlib. I materiali utilizzati in questo studio sono elencati nella Tabella materiali. 1. preparare la matrice di dati e le etichette di classe Preparare il file…

Representative Results

L’obiettivo di questo flusso di lavoro (Figura 6) è quello di rilevare più sottoinsiemi di biomarcatore con efficienze simili per un set di dati di classificazione binaria. L’intero processo è illustrato da due set di dati esempio ALL1 e ALL2 estratte da un rilevamento di biomarcatore recentemente pubblicato lo Studio12,48. Un utente può installare kSolutionVis seguendo le istruzioni riportate nei…

Discussion

Questo studio presenta un protocollo di individuazione e caratterizzazione di biomarcatore multi-soluzione facile da seguire per un set di dati di classificazione binaria specificata dall’utente. Il software mette l’accento sulla facilità d’uso e interfacce flessibili di importazione/esportazione per vari formati di file, permettendo un ricercatore biomedico indagare il loro set di dati facilmente utilizzando la GUI del software. Questo studio evidenzia anche la necessità di generare più di una soluzione con prestazio…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato dal programma di ricerca priorità strategica dell’Accademia cinese delle scienze (XDB13040400) e la concessione di avvio dalla Università di Jilin. Utenti anonimi e utenti test biomedici sono stati apprezzati per i loro commenti costruttivi per migliorare l’usabilità e la funzionalità di kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video