Summary

Selecionando vários subconjuntos de biomarcador com Performances de classificação binária eficaz da mesma forma

Published: October 11, 2018
doi:

Summary

Algoritmos existentes geram uma solução para um dataset de deteção de biomarcador. Este protocolo demonstra a existência de múltiplas soluções similarmente eficazes e apresenta um software de fácil utilização para ajudar os investigadores biomédicos investigar seus conjuntos de dados para o desafio proposto. Cientistas de computador também podem fornecer esta funcionalidade em seu biomarcador algoritmos de detecção.

Abstract

Detecção de biomarcador é uma das mais importantes perguntas biomédicas para pesquisadores do elevado-throughput ‘omics’, e quase todos os algoritmos de detecção da biomarcador existentes geram um subconjunto de biomarcador com a medição de desempenho otimizado para um determinado conjunto de dados . No entanto, um estudo recente demonstrou a existência de vários subconjuntos de biomarcador com performances de classificação da mesma forma eficaz ou mesmo idênticas. Este protocolo apresenta uma metodologia simples e direta para a detecção de subconjuntos de biomarcador com performances de classificação binária, melhores do que um limite definido pelo usuário. O protocolo consiste de preparação de dados e carregamento, sumarização de informações de base, ajuste de parâmetro, triagem de biomarcador, resultado visualização e interpretação, anotações de gene biomarcador e exportação de resultado e visualização por qualidade de publicação. O biomarcador proposta estratégia de rastreio é intuitiva e demonstra uma regra geral para o desenvolvimento de algoritmos de detecção de biomarcador. Uma interface gráfica de fácil utilização (GUI) foi desenvolvida utilizando a linguagem de programação Python, permitindo que os pesquisadores biomédicos ter acesso direto aos seus resultados. O código-fonte e manual de kSolutionVis podem ser baixados de http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Classificação binária, um dos mais comumente investigados e desafiadoras dados mineração problemas na área biomédica, é usado para construir um modelo de classificação treinado em dois grupos de amostras com a mais exata discriminação potência1, 2 , 3 , 4 , 5 , 6 , 7. no entanto, o grande volume de dados gerado no campo biomédico tem o inerente “grande p pequeno n” paradigma, com o número de características geralmente muito maiores do que o número de amostras6,8,9. Portanto, os pesquisadores biomédicos tem que reduzir a dimensão do recurso antes de utilizar os algoritmos de classificação para evitar o overfitting problema8,9. Biomarcadores de diagnóstico são definidos como um subconjunto das características detectadas, separando os pacientes de uma determinada doença de controle saudável amostras10,11. Os pacientes geralmente são definidos como as amostras positivas, e os controles saudáveis são definidos como as amostras negativas12.

Estudos recentes têm sugerido que existe mais de uma solução com performances de classificação idêntica ou similarmente eficaz para um conjunto de dados biomédicos5. Quase todos os algoritmos de seleção de recurso são algoritmos determinísticos, produzindo apenas uma solução para o mesmo conjunto de dados. Algoritmos genéticos simultaneamente podem gerar múltiplas soluções com desempenhos semelhantes, mas eles ainda tentam selecionar uma solução com a melhor função de aptidão como a saída para um determinado conjunto de dados13,14.

Algoritmos de seleção recurso aproximadamente podem ser agrupados como filtros ou invólucros12. Um algoritmo de filtragem escolhe as características dek top – ranking por sua associação significativa individual com os rótulos de binary classe com base na suposição de que dispõe são independentes do outro15,16,17 . Embora esta hipótese não prende verdadeira para quase todos os datasets de mundo real, a regra de filtragem heurística executa bem em muitos casos, por exemplo, o algoritmo mRMR (redundância de mínimo e máximo de relevância), o Wilcoxon teste baseado recurso de filtragem (WRank) algoritmo e o enredo ROC (característica de funcionamento do receptor), com base em algoritmo de filtragem (ROCRank). Flavia, é um algoritmo de filtragem eficiente porque calcula o problema combinatório de estimativa com uma série de problemas muito menores, comparando com o algoritmo de seleção de dependência máxima característica, cada uma das quais envolve apenas duas variáveis, e Portanto usa emparelhadas probabilidades de articulação, que são mais robustos18,19. No entanto, mRMR pode subestimar a utilidade de algumas características, como ele não mede as interações entre características que podem aumentar a relevância e assim perde algumas combinações de recurso que são individualmente inúteis, mas são úteis apenas quando combinado. O algoritmo de WRank calcula uma pontuação não-paramétricos de discriminativa como um recurso é entre duas classes de amostras e é conhecido por sua robustez para outliers20,21. Além disso, o algoritmo de ROCRank avalia como significativo a área sob o ROC curva (AUC) de um determinado recurso é para o desempenho de classificação binária investigadas22,23.

Por outro lado, um wrapper avalia desempenho do classificador pré-definidos de um subconjunto de determinado recurso, iterativamente, gerado por uma regra heurística e cria o subconjunto de recurso com o melhor desempenho de medição24. Um wrapper geralmente supera um filtro no desempenho classificação mas corre mais lento25. Por exemplo, o algoritmo de27 26,floresta aleatório regularizada (RRF) usa uma regra gananciosa, avaliando as características em um subconjunto de dados de treinamento em cada nó da floresta aleatório, pontuações de importância cujos recursos são avaliadas pelo índice de Gini . A escolha de um novo recurso será penalizada se o seu ganho de informações não melhorar isso das características escolhidas. Além disso, a análise de previsão de Microarrays (PAM)28,algoritmo de29 , também é um algoritmo de invólucro, calcula um centroide para cada um dos rótulos de classe e então seleciona recursos para encolher os centroides de gene em direção geral centroide da classe. PAM é robusta para características periféricas.

Várias soluções com o desempenho superior de classificação podem ser necessárias para qualquer determinado conjunto de dados. Em primeiro lugar, o objetivo da otimização de um algoritmo determinístico é definido por uma fórmula matemática, por exemplo, taxa de erro mínimo30, que não é necessariamente ideal para amostras biológicas. Em segundo lugar, um conjunto de dados pode ter soluções significativamente diferentes, de múltiplo, com performances similares de eficazes ou mesmo idênticas. Quase todos os algoritmos de seleção de recurso existente selecionará uma dessas soluções como a saída de31.

Este estudo irá introduzir um protocolo analítico de informática para gerar múltiplas soluções de seleção recurso com performances semelhantes para qualquer conjunto de dados de determinada classificação binária. Considerando que os pesquisadores mais biomédicos não estão familiarizados com técnicas de informáticos ou computador codificação, uma interface gráfica de fácil utilização (GUI) foi desenvolvida para facilitar a análise rápida de conjuntos de dados biomédicos classificação binária. O protocolo analítico consiste de carregamento de dados e resumindo, ajustar o parâmetro, execução de pipeline e interpretações do resultado. Com um simples clique, o pesquisador é capaz de gerar o biomarcador subconjuntos e parcelas de visualização de qualidade de publicação. O protocolo foi testado usando o transcriptomes de dois datasets de classificação binária de leucemia linfoblástica aguda (ALL), ou seja, ALL1 e ALL212. Os conjuntos de dados de ALL1 e ALL2 foram baixados do Broad Institute genoma análise centro de dados, disponível em http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 contém 128 amostras com 12.625 características. Estas amostras, 95 são células B todos e 33 são células T todos. ALL2 inclui 100 amostras com 12.625 características também. Estas amostras, há 65 pacientes que sofreram recaídas e 35 pacientes que não tinham. ALL1 foi um conjunto de dados de fácil classificação binária, com uma precisão mínima de quatro filtros e quatro invólucros sendo 96,7% e 6 dos algoritmos de seleção de 8 recurso atingir 100%12. Enquanto ALL2 foi um conjunto de dados mais difícil, com os algoritmos de seleção acima 8 recurso atingir não é melhor que a precisão de 83,7%12. Esta maior precisão foi alcançado com 56 características detectadas pelo algoritmo do invólucro, seleção de recurso baseado em correlação (CFS).

Protocol

Nota: O protocolo seguinte descreve os detalhes do procedimento analítico informática e pseudo códigos dos módulos principais. O sistema de análise automática foi desenvolvido usando Python versão 3.6.0 e os pandas de módulos Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, matemática e matplotlib. Os materiais utilizados neste estudo são listados na Tabela de materiais. 1. preparar a matriz de dados e rótulos de classe Prepare o arquivo da matri…

Representative Results

O objetivo do fluxo de trabalho (Figura 6) é detectar vários subconjuntos de biomarcador com eficiência similar para um dataset de classificação binária. Todo o processo é ilustrado por dois conjuntos de dados exemplo ALL1 e ALL2, extraído de uma detecção de biomarcador recentemente publicado estudo12,,48. Um usuário pode instalar kSolutionVis, seguindo as instruções nos materiais supleme…

Discussion

Este estudo apresenta um protocolo de deteção e caracterização de biomarcador de solução multi fácil-à-siga para um dataset classificação binário especificado pelo usuário. O software coloca ênfase na facilidade de uso e interfaces flexíveis de importação/exportação para vários formatos de arquivo, permitindo que um pesquisador biomédico investigar seu dataset facilmente usando a GUI do software. Este estudo também destaca a necessidade de gerar mais de uma solução com performances de modelagem sim…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi financiado pelo programa de investigação estratégica prioridade da Academia Chinesa de Ciências (XDB13040400) e a concessão de inicialização da Universidade de Jilin. Revisores anônimos e usuários testes biomédicos foram apreciados por seus comentários construtivos em melhorar a usabilidade e funcionalidade do kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video