Summary

Выбор нескольких подмножеств биомаркеров с аналогичным образом эффективное двоичной классификации выступления

Published: October 11, 2018
doi:

Summary

Существующие алгоритмы генерации одно решение для обнаружения набора биомаркеров. Этот протокол демонстрирует существование нескольких аналогично эффективных решений и представляет удобного программного обеспечения для биомедицинских исследователи расследовать их наборы данных для предлагаемого вызов. Программисты могут также предоставлять эту функцию в их биомаркер алгоритмы обнаружения.

Abstract

Биомаркер обнаружения является одним из более важных вопросов биомедицинских для высокой пропускной способности «омику» исследователей, и почти все существующие алгоритмы обнаружения биомаркер генерировать один биомаркер подмножество с оптимизированной производительности измерений для заданного набора данных . Однако недавнее исследование продемонстрировал существование нескольких подмножеств биомаркеров с аналогичным образом эффективным или даже идентичные классификации спектаклей. Этот протокол предоставляет простой и понятной методологии для обнаружения подмножеств биомаркеров с двоичной классификации спектакли, лучше, чем отсечки, определяемой пользователем. Протокол состоит из подготовки данных и загрузки, базовой информации уплотнения, настройки параметров, биомаркер скрининг, результат визуализации и интерпретации, биомаркер гена аннотации и результат и визуализация экспорт в качество издания. Предлагаемая биомаркеров, скрининг стратегия является интуитивно понятным и демонстрирует общее правило для разработки алгоритмов обнаружения биомаркеров. Дружественный графический интерфейс пользователя (GUI) был разработан с использованием языка программирования Python, позволяя биомедицинских исследователей, чтобы иметь прямой доступ к их результатам. Исходный код и руководство kSolutionVis можно загрузить с http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Двоичной классификации, один из наиболее часто расследование и сложной интеллектуального анализа проблем в области биомедицинских данных используется для построения модели классификации обучение на две группы образцов с наиболее точные дискриминации мощность1, 2 , 3 , 4 , 5 , 6 , 7. Однако, большие данные, полученные в области биомедицины имеет присущие «большой p малых n» парадигма, с числом функций, обычно намного больше, чем количество образцов6,8,9. Таким образом биомедицинских исследователи должны снизить возможность измерения перед использованием классификации алгоритмов, чтобы избежать overfitting проблема8,9. Диагноз биомаркеров определяются как часть обнаруженных функций отделения больных данной болезни от здорового управления образцы10,11. Пациенты обычно определяются как положительные образцы, и здоровые элементы управления определяются как негативные примеры12.

Недавние исследования показали, что существует более чем одно решение с идентичными или аналогичным образом эффективной классификации спектакли для биомедицинских данных5. Почти все алгоритмы выбора функции являются детерминированными алгоритмы, производить только одно решение для одного набора данных. Генетические алгоритмы могут одновременно создавать несколько решений с аналогичными характеристиками, но они все еще пытаются выбрать одно решение с лучших фитнес-функции в качестве выходных данных для заданного набора данных13,14.

Функция выбора алгоритмов можно подразделить примерно как фильтры или оболочки12. Фильтр алгоритм выбирает Топ –k особенности ранжированных по их значительные индивидуальные ассоциации с двоичной класса этикетки, основывается на предположении, что функции являются независимыми друг от друга15,16,17 . Хотя это предположение не справедливы для почти всех реальных наборов данных, эвристический фильтр выполняет хорошо, во многих случаях, например, mRMR (избыточность минимальной и максимальной релевантности) алгоритм, Вилкоксон тест на функцию фильтрации (WRank) алгоритм и сюжет ROC (приемник эксплуатационные характеристики) на основе алгоритма фильтрации (ROCRank). mRMR, представляет собой эффективный фильтр алгоритм, потому что он приближает комбинаторной оценки проблемы с серией гораздо меньше проблем, сравнивая алгоритм выбора функций максимум зависимость, каждая из которых включает только две переменные, и Таким образом использует попарно совместных вероятностей, которые являются более надежные18,19. Однако mRMR может недооценивать полезность некоторых функций, как это не мера взаимодействия между функциями, которые можно увеличить релевантность и таким образом пропускает некоторые функции комбинаций, которые индивидуально бесполезны, но полезны только при сочетании. WRank алгоритм вычисляет-параметрическая оценка как дискриминационный функцию между двумя классами образцов, и известен за его надежность для останцы20,21. Кроме того ROCRank алгоритм оценивает, насколько важно для исследуемых двоичной классификации производительности22,23площадь под ROC кривой (AUC) конкретного компонента.

С другой стороны оболочка оценивает предварительно определенные классификатора производительность данной функции подмножества, многократно порожденных эвристические правила и создает подмножество функций с лучшими измерения производительности24. Оболочка обычно превосходит фильтра в классификации производительности, но работает медленнее25. Например упорядочить случайный лес (СБР)26,27 алгоритм использует жадные правило, путем оценки функции на подмножества обучающих данных на каждом узле случайных лесных, чьи оценки важности функция оцениваются индекс Джини . Выбор новой функции будут наказаны, если его прироста информации не улучшить, что выбранной функции. Кроме того анализ прогнозирования для Microarrays (PAM)28,29 алгоритм, также оболочку алгоритм, вычисляет средневзвешенные для каждого класса знаков, а затем выбирает возможности уменьшить центроиды гена к общей центроид класса. Пэм надежной для удаленных компонентов.

Несколько решений с производительностью лучших классификации могут быть необходимы для любого заданного набора данных. Во-первых цель оптимизации детерминированного алгоритма определяется математическую формулу, например, минимальная ошибка ставка30, который не обязательно подходит для биологических образцов. Во-вторых набор данных может иметь несколько, значительно отличаются, решения с аналогичными эффективным или даже одинаковых спектаклей. Почти все существующие алгоритмы выбора функция будет случайным образом выбирать одну из этих решений как вывода31.

Это исследование представит аналитический протокол информатики для генерации несколько функция выбора решений с аналогичными спектаклей для любой данной двоичной классификации набора данных. Учитывая, что наиболее биомедицинских исследователи не знакомы с информатики методы или компьютер кодирование, дружественный графический интерфейс пользователя (GUI) была разработана для облегчения быстрого анализа биомедицинских двоичной классификации наборов данных. Аналитически протокол состоит из загрузки данных и подведение итогов, настройки параметров, конвейер выполнения и интерпретации результатов. С помощью простого клика исследователь способен генерировать биомаркер подмножеств и публикации качество визуализации участков. Протокол был протестирован с помощью transcriptomes двух наборов двоичной классификации острый лимфобластный лейкоз (все), то есть, ALL1 и ALL212. Наборы данных ALL1 и ALL2 были загружены из широкой институт генома данных анализа центра, доступны на http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 содержит 128 образцы с 12,625 функциями. Из этих образцов, 95 являются B-клетка все и 33 являются Т-клеток всех. ALL2 включает в себя 100 образцов с 12,625 функций, а также. Из этих образцов есть 65 пациентов, которые пострадали рецидива и 35 пациентов, которые не. ALL1 был простой двоичной классификации dataset с минимальной точностью четырех фильтров и четыре обертки 96,7%, и 6 8 функция выбора алгоритмов достижения 100%12. В то время как ALL2 был набор более сложным, с выше 8 функция выбора алгоритмов достижения не лучше, чем 83,7% точность12. Это лучший точность была достигнута с 56 функций, обнаруженных алгоритмом оболочки, на основе корреляции функция выбора (CFS).

Protocol

Примечание: Следующий протокол описывает детали аналитические процедуры информатики и псевдо-коды основных модулей. Система автоматического анализа была разработана с использованием Python версия 3.6.0 и панды модулей Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, математика и matplotlib. Материалы, использ…

Representative Results

Цель этого рабочего процесса (рис. 6) является выявление нескольких подмножеств биомаркеров с аналогичными эффективности для двоичной классификации набора данных. Весь процесс иллюстрируется двумя пример наборов данных ALL1 и ALL2, извлеченные из недавно…

Discussion

Это исследование представляет протокол обнаружения и характеристика easy-to последующие мульти решение биомаркер для пользовательской двоичной классификации набора данных. Программное обеспечение ставит акцент на удобство и гибкий импорт/экспорт интерфейсы для различных форматов фай…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Эта работа была поддержана стратегических приоритетных исследований программы Китайской академии наук (XDB13040400) и запуска грант от университета Цзилинь. Анонимные Отзывы и биомедицинских испытаний пользователей были оценены за их конструктивные замечания по улучшению юзабилити и функциональность kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video