Summary

Sélection de plusieurs sous-ensembles de biomarqueur de même Classification binaire efficace performances

Published: October 11, 2018
doi:

Summary

Les algorithmes existants génèrent une seule solution pour un dataset de détection des biomarqueurs. Ce protocole ne démontre l’existence de plusieurs solutions de même efficaces et présente un logiciel convivial pour aider les chercheurs biomédicaux à enquêter sur leurs ensembles de données pour le défi proposé. Informaticiens peuvent également fournir cette fonctionnalité dans leur biomarqueur des algorithmes de détection.

Abstract

Détection des biomarqueurs est l’une des plus importantes questions biomédicales pour les chercheurs de haut-débit « omiques », et presque tous les algorithmes de détection des biomarqueurs existants génèrent un sous-ensemble de biomarqueurs à la mesure des performances optimisées pour un dataset donné . Cependant, une récente étude a démontré l’existence de plusieurs sous-ensembles de biomarqueurs avec des représentations de la classification de la même façon efficace ou même identiques. Ce protocole présente une méthodologie simple et directe pour détecter des sous-ensembles de biomarqueurs avec des performances de classification binaire, mieux qu’un seuil défini par l’utilisateur. Le protocole se compose de préparation des données et chargement, synthèse d’information base, paramètre tuning, dépistage de biomarqueurs, visualisation du résultat et interprétation, biomarqueur gène annotations et exportation de résultat et de la visualisation à qualité de publication. Le projet biomarqueur stratégie de dépistage est intuitif et illustre une règle générale pour le développement d’algorithmes de détection des biomarqueurs. Une facile à utiliser interface graphique (GUI) a été développée en utilisant le langage de programmation Python, permettant ainsi aux chercheurs biomédicaux d’avoir un accès direct à leurs résultats. Le manuel de kSolutionVis et le code source peuvent être téléchargés de http://www.healthinformaticslab.org/supp/resources.php.

Introduction

La classification binaire, un des plus couramment étudiée et exploration des problèmes dans le domaine biomédical, de données difficiles est utilisé pour générer un modèle de classification formé sur deux groupes d’échantillons avec la plus exacte la discrimination puissance1, 2 , 3 , 4 , 5 , 6 , 7. Toutefois, les grandes données générées dans le domaine biomédical ont l’inhérente « grand p petit n » paradigme, avec le nombre de fonctions généralement beaucoup plus grandes que le nombre d’échantillons de8,6,9. Par conséquent, chercheurs biomédicaux doivent réduire la dimension de l’élément avant d’utiliser les algorithmes de classement afin d’éviter le surapprentissage problème8,9. Biomarqueurs de diagnostic sont définies comme un sous-ensemble de fonctionnalités détectées séparant les patients d’une maladie donnée de contrôle sain échantillons10,11. Les patients sont généralement définis comme les échantillons positifs, et les contrôles sains sont définis comme les échantillons négatifs12.

Des études récentes ont suggéré qu’il existe plus d’une solution avec des performances identiques ou de même efficace de classification d’un ensemble de données biomédicales5. Presque tous les algorithmes de sélection de fonctionnalité sont les algorithmes déterministes, ne produisant qu’une seule solution pour le même groupe de données. Algorithmes génétiques peuvent générer simultanément des solutions multiples avec des performances similaires, mais ils essaient toujours de choisir une solution avec la meilleure fonction de remise en forme comme sortie pour un dataset donné13,14.

Algorithmes de sélection de fonction peuvent être regroupés à peu près comme les filtres ou les wrappers12. Un algorithme de filtrage choisit lesk caractéristiques de haut – rang par leur importante association particulière avec les étiquettes de classe binaire fondée sur l’hypothèse que les caractéristiques sont indépendants des uns des autres15,16,17 . Bien que cette hypothèse ne tient-elle pas vraie pour presque tous les ensembles de données réelles, la règle de filtrage heuristique effectue bien dans de nombreux cas, par exemple, l’algorithme de Lagarde (redondance Minimum et Maximum de pertinence), le test basé de Wilcoxon fonctionnalité filtrage (WRank) l’algorithme et l’intrigue ROC (Receiver fonctionnement characteristic) basent algorithme de filtrage (ROCRank). Lagarde, est un algorithme de filtrage efficace parce qu’il rapproche du problème combinatoire d’estimation avec une série de problèmes beaucoup plus petites, en comparant à l’algorithme de sélection de fonctionnalité maximum et de dépendance, dont chacun comporte seulement deux variables, et utilise donc des probabilités mixte par paires qui sont plus robustes18,19. Cependant, mRMR peut-être sous-estimer l’utilité de certaines fonctions, comme il ne mesure pas les interactions entre les éléments qui peuvent augmenter la pertinence et donc ne manque certaines combinaisons de fonctionnalités qui sont individuellement inutile mais sont utiles uniquement lorsqu’il est combiné. L’algorithme de WRank calcule un score non paramétrique de comment discriminatoire une caractéristique se situe entre deux catégories d’échantillons et est connue pour sa robustesse pour les valeurs aberrantes20,21. En outre, l’algorithme ROCRank évalue quelle est l’importance de la zone sous le ROC courbe (AUC) d’une fonctionnalité particulière est pour la classification binaire enquête performance22,23.

En revanche, un wrapper évalue le rendement du classifieur prédéfinis d’un sous-ensemble de la fonctionnalité donnée, itérativement généré par une règle heuristique et crée le sous-ensemble de la fonctionnalité avec le meilleur rendement mesure24. Généralement, un wrapper surpasse un filtre dans l’exercice de classification mais s’exécute plus lentement25. Par exemple, l’algorithme de27 26,forêt aléatoire régularisé (RRF) utilise une règle gourmande, en évaluant les fonctionnalités sur un sous-ensemble des données d’entraînement à chaque nœud de la forêt au hasard, dont scores d’importance caractéristique sont évalués par l’indice de Gini . Le choix d’une nouvelle fonctionnalité sera pénalisé si son gain d’information ne s’améliore pas que des caractéristiques choisies. En outre, l’analyse de prédiction pour Microarrays (PAM)28,29 algorithme, aussi un algorithme de wrapper, calcule un centroïde pour chacune des étiquettes de classe et sélectionne ensuite les fonctions à rétrécir les centroïdes de gène vers l’ensemble barycentre de la classe. PAM est robuste pour les fonctionnalités communes.

Des solutions multiples avec la performance de classification supérieure peuvent être nécessaires pour n’importe quel dataset donné. Tout d’abord, l’objectif d’optimisation d’un algorithme déterministe est définie par une formule mathématique, par exemple, erreur minimum taux30, qui n’est pas forcément idéal pour les échantillons biologiques. Deuxièmement, un groupe de données peut avoir des solutions sensiblement différentes, multiple, avec des performances similaires efficaces ou même identiques. Presque tous les algorithmes de sélection de fonctionnalité existante sélectionnera au hasard une de ces solutions comme la sortie31.

Cette étude mettra en place un protocole analytique informatique pour générer des solutions multiples de sélection de fonctionnalité avec des performances similaires pour n’importe quel dataset donné classification binaire. Considérant que les chercheurs biomédicaux plus ne sont pas familiers avec les techniques de l’informatiques ou le codage informatique, une facile à utiliser interface graphique (GUI) a été développée pour faciliter l’analyse rapide des ensembles de données biomédicales classification binaire. Le protocole analytique se compose de chargement des données et résumant, le réglage de paramètre, exécution du pipeline et interprétations du résultat. D’un simple clic, le chercheur est capable de générer des sous-ensembles de biomarqueurs et visualisation de qualité publication parcelles. Le protocole a été testé en utilisant les transcriptions des deux datasets classification binaire des leucémie lymphoblastique aiguë (ALL), c’est-à-dire, APE1 et les212. Les ensembles de données d’APE1 et les2 ont été téléchargés à partir du Broad Institute du génome Data Analysis Center, disponible à http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. APE1 contient 128 échantillons avec 12 625 caractéristiques. Ces échantillons, 95 sont des lymphocytes B tous et 33 sont des lymphocytes T tous. Les2 comprend 100 échantillons avec 12 625 caractéristiques ainsi. Parmi ces échantillons, il y a 65 patients qui ont souffert de rechute et 35 patients qui n’ont pas. APE1 était un dataset simple classification binaire, avec une précision de moins de quatre filtres et quatre enveloppes étant 96,7 % et 6 les algorithmes de sélection de 8 fonctionnalité réalisation 100 %12. Alors que les2 était un ensemble de données plus difficile, avec les algorithmes de sélection de 8 fonctionnalité ci-dessus réalisation pas mieux que 83,7 % précision12. Cette meilleure précision a été réalisée avec 56 caractéristiques détectés par l’algorithme de wrapper, sélection de fonctionnalité axée sur la corrélation (CFS).

Protocol

Remarque : Le protocole suivant décrit les détails de la procédure analytique de l’informatique et des codes des modules principaux. Le système d’analyse automatique a été développé à l’aide de Python version 3.6.0 et les pandas de modules Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Lagarde, math et matplotlib. Les matériaux utilisés dans cette étude sont énumérés dans la Table des matières. 1. préparer la matrice de données et étiquettes de cl…

Representative Results

L’objectif de ce flux de travail (Figure 6) est de détecter des sous-ensembles de biomarqueurs multiples avec une efficacité similaire pour un dataset de classification binaire. L’ensemble du processus est illustré par deux ensembles de données exemple APE1 et les2 extraites d’une détection des biomarqueurs publié récemment étudier12,48. Un utilisateur peut installer kSolutionVis en suiv…

Discussion

Cette étude présente un protocole de détection et la caractérisation de facile-à-suivre la multi-solution biomarqueurs pour un dataset de classification binaire spécifié par l’utilisateur. Le logiciel met l’accent sur la convivialité et les interfaces souples import/export pour différents formats de fichiers, permettant à un chercheur en sciences biomédicales d’enquêter sur l’ensemble de leur données facilement à l’aide de l’interface graphique du logiciel. Cette étude souligne également la n?…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par le programme de recherche stratégique prioritaire de l’Académie chinoise des Sciences (XDB13040400) et la subvention de démarrage de l’Université de Jilin. Évaluateurs anonymes et les utilisateurs de tests biomédicaux ont été appréciés pour leurs commentaires constructifs sur l’amélioration de la convivialité et la fonctionnalité de kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/fr/57738?article_type=t

Play Video

Citer Cet Article
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video