Summary

Selección de varios subconjuntos de biomarcadores con semejantemente eficaz clasificación binaria actuaciones

Published: October 11, 2018
doi:

Summary

Algoritmos existentes generan una solución para un conjunto de datos de detección de biomarcadores. Este protocolo demuestra la existencia de varias soluciones igualmente eficaces y presenta un software fácil de usar para ayudar a los investigadores biomédicos a investigar sus conjuntos de datos para el reto propuesto. Científicos de la computación también pueden proporcionar esta característica en sus biomarcadores algoritmos de detección.

Abstract

Detección de biomarcadores es una de las cuestiones biomédicas más importantes para investigadores de alto rendimiento “ómicas”, y casi todos los algoritmos de detección de biomarcadores generan un subconjunto de biomarcadores con la medición del desempeño optimizado para un determinado conjunto de datos . Sin embargo, un reciente estudio demostró la existencia de varios subconjuntos de biomarcadores con actuaciones de clasificación igualmente efectivos o incluso idénticos. Este protocolo presenta una metodología simple y directa para la detección de subconjuntos del biomarcador con las actuaciones de clasificación binario, mejores que un corte definido por el usuario. El protocolo consiste en preparación de datos y carga, Resumen de información de línea de base, parámetro ajuste, detección de biomarcadores, visualización resultado interpretación, anotaciones de genes biomarcadores y exportación de resultados y visualización en calidad de la publicación. El biomarcador propuesto evaluación estrategia es intuitivo y muestra una regla general para el desarrollo de algoritmos de detección de biomarcadores. Una interfaz de usuario gráfica fácil de usar (GUI) fue desarrollada usando el lenguaje de programación Python, permitiendo a los investigadores biomédicos tienen acceso directo a sus resultados. Pueden descargarse el código fuente y manual de kSolutionVis de http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Clasificación binaria, uno de los más comúnmente investigada y datos difíciles problemas en el área biomédico, de la explotación minera se utiliza para construir un modelo de clasificación en dos grupos de muestras con la más precisa discriminación poder1, 2 , 3 , 4 , 5 , 6 , 7. sin embargo, los grandes datos generados en el ámbito biomédico tienen la inherente “p pequeño n grande” paradigma, con el número de características generalmente mucho mayores que el número de muestras6,8,9. Por lo tanto, los investigadores biomédicos tienen que reducir la dimensión de función antes de utilizar los algoritmos de clasificación para evitar el problema overfitting8,9. Biomarcadores de diagnóstico se definen como un subconjunto de características detectados separar a pacientes de una determinada enfermedad de control sano muestras10,11. Los pacientes generalmente se definen como las muestras positivas, y los controles sanos se definen como muestras negativas12.

Estudios recientes han sugerido que existe más de una solución con las actuaciones de clasificación idéntico o igualmente efectiva para un conjunto de datos biomédica5. Casi todos los algoritmos de selección de función son algoritmos deterministas, produciendo una única solución para el mismo conjunto de datos. Algoritmos genéticos simultáneamente pueden generar múltiples soluciones con actuaciones similares, pero aún así tratar de seleccionar una solución con la mejor función de la aptitud como la salida para un conjunto dado de datos13,14.

Algoritmos de selección de función se pueden agrupar áspero como filtros o envolturas12. Un algoritmo de filtro elige el top –k características por su importante asociación individual con las etiquetas de clase binaria basada en la suposición de que dispone son independientes de uno a15,16,17 . Aunque esta suposición no tiene verdadera para casi todos datos del mundo real, la regla de filtro heurístico realiza bien en muchos casos, por ejemplo, mRMR (redundancia mínima y máxima relevancia) algoritmo, el Wilcoxon test basado en función filtrado (WRank) algoritmo de filtrado (ROCRank) basado en algoritmo y el diagrama ROC (característica operativa del receptor). mRMR, es un algoritmo de filtro eficiente porque aproxima el problema de combinatoria de estimación con una serie de problemas mucho más pequeños, en comparación con el algoritmo de selección de función de máxima dependencia, cada uno de los cuales sólo involucra dos variables, y por lo tanto utiliza pares probabilidades conjuntas que son más robustas de18,19. Sin embargo, mRMR puede subestimar la utilidad de algunas de las características que no mide las interacciones entre las características que pueden aumentar la relevancia y así pierde algunas combinaciones de funciones que sirven individualmente pero que son útiles sólo cuando se combinan. El algoritmo WRank calcula una puntuación no paramétrica de forma discriminativa una característica entre dos clases de muestras y es conocida por su robustez para afloramientos20,21. Además, el algoritmo de ROCRank evalúa cómo importante es el área bajo ROC la curva (AUC) de una función concreta para la clasificación binaria investigados rendimiento22,23.

Por otro lado, un contenedor evalúa el rendimiento del clasificador previamente definida de un subconjunto de la característica dada, generado iterativamente una regla heurística y crea el subconjunto de la característica con el mejor rendimiento medida24. Un contenedor generalmente supera a un filtro en el rendimiento de la clasificación pero corre lento25. Por ejemplo, el algoritmo de27 26,de bosque al azar regularizado (RRF) utiliza una regla codiciosa, evaluando las características en un subconjunto de los datos del entrenamiento en cada nodo del bosque al azar, y los puntos función importancia son evaluados por el índice de Gini . La elección de una nueva característica se penalizará si no mejora la ganancia de información de las características solicitadas. Además, el análisis de predicción de Microarrays (PAM)28,29 algoritmo, también un algoritmo de envoltura, calcula un centroide para cada una de las etiquetas de clase y luego selecciona características para reducir el tamaño los centroides gen hacia el general centroide de la clase. PAM es robusto para las características.

Soluciones múltiples con el rendimiento de la clasificación superior pueden ser necesarias para cualquier conjunto dado de datos. En primer lugar, el objetivo de la optimización de un algoritmo determinista es definido por una fórmula matemática, por ejemplo, tasa de error mínimo30, que no es necesariamente ideal para muestras biológicas. En segundo lugar, un conjunto de datos puede tener soluciones significativamente diferentes, múltiples, con actuaciones similares de efectivas o incluso idénticos. Casi todos los algoritmos de selección existentes de la característica de estas soluciones seleccionará al azar la salida31.

Este estudio presenta un protocolo analítico de informática para la generación de múltiples soluciones de selección de función con actuaciones similares para cualquier conjunto de datos de clasificación binario dado. Teniendo en cuenta que investigadores biomédicos más no están familiarizados con las técnicas informáticas o codificación de la computadora, una interfaz de usuario gráfica fácil de usar (GUI) fue desarrollada para facilitar el rápido análisis de datos biomédicos clasificación binaria. El protocolo analítico consiste en carga de datos y resumir, parámetro tuning, ejecución de ductos e interpretaciones del resultado. Con un simple clic, el investigador es capaz de generar el subconjuntos de biomarcadores y de la parcelas de visualización de calidad de publicación. El protocolo ha sido probado utilizando los transcriptomas de dos conjuntos de clasificación binaria de la leucemia linfoblástica aguda (ALL), es decir, ALL1 y ALL212. Los conjuntos de datos de ALL1 y ALL2 se descargaron desde el amplio Instituto genoma análisis centro de datos, disponible en http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 contiene 128 muestras con 12.625 características. De estas muestras, 95 son células B todo y 33 son células T todos. ALL2 incluye 100 muestras con 12.625 características así. De estas muestras, hay 65 pacientes que sufrieron recaída y 35 pacientes que no lo hizo. ALL1 era un conjunto de datos de fácil clasificación binaria, con una precisión mínima de cuatro filtros y cuatro envolturas que 96.7% y 6 de los algoritmos de selección de 8 función logro 100%12. ALL2 fue un conjunto de datos más difícil, con los algoritmos de selección 8 característica anterior logrando no es mejor que el 83,7% exactitud12. Esta mayor precisión se logró con 56 características detectadas por el algoritmo de la envoltura, selección basada en la correlación de función (SFC).

Protocol

Nota: El siguiente protocolo describe los detalles del procedimiento analítico informática y seudo códigos de los módulos principales. El sistema de análisis automático se desarrolló usando Python versión 3.6.0 y los pandas de módulos Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matemáticas y matplotlib. Los materiales utilizados en este estudio se enumeran en la Tabla de materiales. 1. preparar la matriz de datos y etiquetas de la clase Prepa…

Representative Results

El objetivo de este flujo de trabajo (figura 6) es detectar múltiples subconjuntos de biomarcadores con similar eficiencia de un conjunto de datos binarios de la clasificación. Todo el proceso es ilustrado por dos conjuntos de datos de ejemplo ALL1 y ALL2 extraído de una detección de biomarcadores recientemente publicado estudio12,48. Un usuario puede instalar kSolutionVis siguiendo las instruccio…

Discussion

Este estudio presenta un protocolo de detección y caracterización de fácil de seguir solución múltiples biomarcadores para un conjunto de datos de clasificación binario especificado por el usuario. El programa pone énfasis en la facilidad de uso e interfaces flexibles de importación y exportación de varios formatos de archivo, permitiendo que un investigador biomédico investigar sus datos fácilmente utilizando la interfaz gráfica del software. Este estudio también pone de relieve la necesidad de generar más…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por el programa de investigación prioridad estratégica de la Academia China de Ciencias (XDB13040400) y la subvención de puesta en marcha de la Universidad de Jilin. Revisores anónimos y usuarios pruebas biomédicos fueron apreciados por sus comentarios constructivos para mejorar la usabilidad y la funcionalidad de kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/kr/57738?article_type=t

Play Video

Cite This Article
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video