Summary

마찬가지로 효과적인 이진 분류 공연으로 여러 바이오 마커 하위 집합 선택

Published: October 11, 2018
doi:

Summary

기존 알고리즘 바이오 마커 검출 데이터 집합에 대 한 하나의 솔루션을 생성합니다. 이 프로토콜의 여러 마찬가지로 효과적인 솔루션의 존재 및 고 생물 의학 연구원 제안된 과제에 대 한 데이터 세트를 조사 수 있도록 사용자 친화적인 소프트웨어를 제공. 컴퓨터 과학자 들은 팬 들은이 기능에 그들의 바이오 마커 검출 알고리즘의 정보를 제공할 수도 있습니다.

Abstract

바이오 마커 검출 높은 처리량 ‘omics’ 연구자에 대 한 생물 더 중요 한 질문 중 하나 이며 특정된 데이터 집합에 대 한 최적화 된 성능 측정 한 biomarker 하위 집합을 생성 하는 거의 모든 기존 바이오 마커 검출 알고리즘 . 그러나, 최근 연구도 동일 또는 유사 하 게 효과적 분류 공연 여러 바이오 마커 하위 집합의 존재 증명. 이 프로토콜은 이진 분류 공연, 사용자 정의 자르기 보다 더 하위 집합 바이오 마커 검출을 위한 간단 하 고 간단한 방법론을 선물 한다. 데이터 준비 및 로드, 초기 정보 요약, 매개 변수 조정, 바이오 마커 검사, 결과 시각화 및 해석, 바이오 마커 유전자 주석, 및에 결과 및 시각화 수출의 프로토콜 구성 출판 품질입니다. 제안 된 바이오 마커 전략 스크리닝 직관적 이며 바이오 마커 검출 알고리즘 개발에 대 한 일반적인 규칙을 보여 줍니다. 사용자 친화적인 그래픽 사용자 인터페이스 (GUI) 프로그래밍 언어 파이썬, 생물 의학 연구원은 그들의 결과에 직접 액세스할 수 있도록 사용 하 여 개발 되었다. 소스 코드와 kSolutionVis의 설명서는 http://www.healthinformaticslab.org/supp/resources.php에서 다운로드할 수 있습니다.

Introduction

하나는 가장 일반적으로 이진 분류 조사 하 고 도전적인 데이터 마이닝, 생물 의학 영역에서 문제 샘플 가장 정확한 차별 전원1, 의 두 그룹에 대 한 훈련 분류 모델을 구축 하는 2 , 3 , 4 , 5 , 6 , 그러나 7., 생물 의학 분야에서 생성 하는 큰 데이터는 고유의 “큰 p 작은 n” 패러다임, 기능의 일반적으로 샘플6,,89의 수 보다 훨씬 더 큰 숫자와 함께. 따라서, 생물 의학 연구원 overfitting 문제8,9를 피하기 위해 분류 알고리즘을 활용 하기 전에 기능 치수를 줄일 필요가 있다. 진단 바이오 마커는 건강 한 컨트롤 샘플10,11에서 특정된 질환의 환자를 분리 검색 기능의 하위 집합으로 정의 됩니다. 환자는 일반적으로 긍정적인 샘플으로 정의 되며 건강 한 컨트롤 부정적인 샘플12로 정의 됩니다.

최근 연구는 생물 의학 데이터 집합5에 대 한 동일 또는 유사 하 게 효과적인 분류 공연 하나 이상의 솔루션 존재 제안 했다. 거의 모든 기능 선택 알고리즘은 동일한 데이터 집합에 대 한 하나의 솔루션을 생산 하는 결정적 알고리즘입니다. 유전자 알고리즘을 동시에 비슷한 공연, 여러 솔루션을 생성할 수 있습니다 하지만 그들은 여전히 주어진된 데이터 집합13,14에 대 한 출력으로 최고의 피트 니스 기능을 하나의 솔루션을 선택 하려고 합니다.

기능 선택 알고리즘 필터 또는 래퍼12대략 그룹화 될 수 있습니다. 상위-k 특징 이진 클래스 레이블 기능 가정에 따라 그들의 중요 한 개인 협회에 의해 선정은 서로15,,1617의 독립적인 필터 알고리즘 선택 . 이 가정은 거의 모든 실제 데이터 집합에 대 한 진정한 보유 하지 않습니다, 비록 추론 필터 규칙에서 잘 수행 많은 경우, 예를 들어, mRMR (최소 중복 및 최대 관련성) 알고리즘, Wilcoxon 테스트 기반 기능 필터링 (WRank) 알고리즘, 및 ROC (수신기 작동 특성) 플롯 (ROCRank)를 필터링 알고리즘을 기반 으로합니다. mRMR, 그것은 훨씬 더 작은 문제, 각각의 두 개의 변수를 포함, 최대 종속성 기능 선택 알고리즘 비교의 시리즈와 조합 추정 문제에 근접 하기 때문에 효율적인 필터 알고리즘은 고 따라서 더 강력한18,19는 없음을 공동 확률을 사용 합니다. 그러나, mRMR 수로 관련성, 증가 시킬 수 있으며 따라서 개별적으로 쓸모 있지만 결합 하는 경우에 유용 일부 기능 조합을 그리 워 기능 간의 상호 작용을 측정 하지 않습니다 일부 기능의 유용성 과소 평가. WRank 알고리즘을 어떻게 구별 기능 샘플, 두 클래스 사이의 이며 outliers20,21의 견고성에 대 한 알려져 있다 비패라메트릭 점수를 계산 합니다. 또한, ROCRank 알고리즘은 얼마나 중요 한 특정 기능 영역 ROC에서 곡선 (AUC)은 조사 이진 분류 성능22,23평가 합니다.

다른 한편으로, 래퍼 기능 하위 집합, 반복적으로 추론 규칙에 의해 생성 된 미리 정의 된 분류자의 성능을 평가 하 고 최고의 성능을 측정24기능 하위 집합을 만듭니다. 래퍼는 일반적으로 분류 성능에서 필터를 능가 하지만 느린25을 실행 됩니다. 임의 숲 정례화 (RRF)26,27 알고리즘 각 무작위 포리스트 노드, 누구의 기능 중요성 점수 Gini 색인에 의해 평가에서 학습 데이터의 하위 집합에서 기능을 평가 하 여 욕심이 규칙을 사용 하는 예를 들어 . 새로운 기능에 대 한 선택의 정보 이득 선택 기능을 개선 되지 않으면 처벌 될 것 이다. Microarrays (PAM)28,29 알고리즘 또한 래퍼 알고리즘에 대 한 예측 분석 클래스 레이블의 각 한 중심을 계산 하 고 전체 향해 진 중심을 축소 하는 기능을 선택 하는 또한, 클래스 중심입니다. 팸은 외곽 특징에 대 한 강력한입니다.

상위 분류 성능 가진 여러 솔루션은 어떤 주어진 데이터 집합 필요할 수 있습니다. 첫째, 결정적 알고리즘의 최적화 목표는 반드시 생물 학적 샘플에 적합 하지 않습니다는 수학 공식, 예를 들어, 최소 오류 속도30에 의해 정의 됩니다. 둘째, dataset 여러 비슷한 또는 심지어 동일 공연으로 크게 다른 솔루션을 할 수 있습니다. 거의 모든 기존 기능 선택 알고리즘 무작위로 출력31이러한 솔루션 중 하나를 선택 합니다.

이 연구는 어떤 주어진된 이진 분류 데이터 집합에 대 한 비슷한 공연을 여러 기능 선택 솔루션을 생성 하기 위한 정보 분석 프로토콜을 소개 합니다. 가장 생물 의학 연구원 informatic 기술 또는 컴퓨터 코딩에 익숙하지 않은 고려 하면, 사용 하기 쉬운 그래픽 사용자 인터페이스 (GUI) 생물 의학 이진 분류 데이터의 신속한 분석을 촉진 하기 위하여 개발 되었다. 데이터 로드 및 요약, 매개 변수 튜닝, 파이프라인 실행 및 결과 해석 분석 프로토콜에 의하여 이루어져 있다. 간단한 클릭으로, 연구원은 바이오 마커 하위 집합 및 게시-품질 시각화 플롯을 생성할 수 있게. 프로토콜은 두 개의 이진 분류 데이터 집합의 급성 림프 구성 백혈병 (ALL), , ALL1 및 ALL212의 transcriptomes를 사용 하 여 테스트 되었습니다. ALL1 및 ALL2 데이터 집합 광범위 한 연구소 게놈 데이터 분석 센터에서 http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi에서 다운로드 했다. ALL1에는 12,625 기능 128 샘플을 포함 되어 있습니다. 이 샘플의 95 B-세포는 모두 고 33는 T-세포 모든. ALL2 100 샘플 12,625 기능을 포함합니다. 이 샘플의 있습니다 65 환자는 재발을 고통을 하지 않았다 35 환자. ALL1 4 개의 필터와 4 개의 래퍼 96.7%, 및 10012달성 8 기능 선택 알고리즘의 6의 최소 정확도 쉽게 이진 분류 데이터 집합 했다. ALL2 위의 8 기능 선택 알고리즘 83.7% 정확도12보다 더 나은 달성 더 어려운 데이터 집합 동안. 이 최고의 정확도 56 기능 상관 관계 기반 기능 선택 (CFS) 래퍼 알고리즘에 의해 감지와 함께 달성 했다.

Protocol

참고: 다음 프로토콜 정보 분석 절차의 세부 사항 및 주요 모듈의 의사 코드를 설명합니다. 자동 분석 시스템은 파이썬 버전 3.6.0 파이썬 모듈 팬더, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, 수학과 matplotlib를 사용 하 여 개발 되었다. 이 연구에 사용 된 재료는 재료의 테이블에에서 나열 됩니다. 1. 준비 데이터 매트릭스 레이블 클래스 그림 1A</…

Representative Results

이 워크플로 (그림 6)의 목표는 이진 분류 데이터 집합에 대 한 유사한 효율성으로 여러 바이오 마커 하위 집합을 검색 하는입니다. 전체 과정은 두 개의 예제 데이터 집합 ALL1 및 ALL2 최근 출판 바이오 마커 검출에서 추출 연구12,48에 의해 나와 있습니다. 사용자는 보조 자료에 지시에 따라 kSolutionVis를 설치?…

Discussion

이 연구는 이진 분류 사용자 지정 데이터 집합의 따라 하기 쉬운 멀티 솔루션 바이오 마커 검출 및 특성화 프로토콜을 제공합니다. 소프트웨어는 사용자와 소프트웨어의 GUI를 사용 하 여 쉽게 그들의 데이터 집합을 조사 하는 생물 의학 연구원을 수 있도록 다양 한 파일 형식에 대 한 유연한 가져오기/내보내기 인터페이스에 중점을 둔다. 이 연구는 또한 유사 하 게 효과적인 모델링 공연, 이전 많?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

이 작품은 중국 과학원 (XDB13040400)와 길 림 대학에서 시작 그랜트의 전략적 우선 순위 연구 프로그램에 의해 지원 되었다. 익명 검토자와 생물 의학 테스트 사용자 유용성 및 kSolutionVis의 기능 개선에 그들의 건설적인 의견을 주셔서 감사 했다.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video