Summary

Selecteren van meerdere Biomarker Subsets met ook effectieve binaire indeling optredens

Published: October 11, 2018
doi:

Summary

Bestaande algoritmen genereren een oplossing voor een biomarker detectie dataset. Dit protocol blijkt van het bestaan van meerdere ook doeltreffende oplossingen en presenteert een gebruikersvriendelijke software om te helpen biomedische onderzoekers onderzoeken hun datasets voor de voorgestelde challenge. Computerwetenschappers kunnen deze functie in hun biomerker ook detectie algoritmen.

Abstract

Biomerker detectie is een van de meer belangrijke biomedische vragen voor high-throughput ‘omics’ onderzoekers, en bijna alle bestaande biomerker detectie algoritmen genereren een biomarker subset met de geoptimaliseerde prestatiemeting voor een gegeven dataset . Een recente studie blijkt echter het bestaan van meerdere biomerker deelverzamelingen met ook doeltreffend of zelfs identieke indeling optredens. Dit protocol biedt een eenvoudige en ongecompliceerde methode voor het opsporen van biomerker deelverzamelingen met binaire indeling optredens, beter dan een door de gebruiker gedefinieerde cutoff. Het protocol bestaat uit gegevensvoorbereiding en laden, basislijn informatie Samenvattingsstructuur parameter tuning, biomerker screening, resultaat visualisatie en interpretatie, biomerker gene aantekeningen en resultaat en visualisatie uitvoer op kwaliteit van de publicatie. De voorgestelde biomerker screening strategie is intuïtief en toont een algemene regel voor het ontwikkelen van biomerker detectie algoritmen. Een gebruiksvriendelijke grafische user interface (GUI) werd ontwikkeld met behulp van de programmeertaal Python, waardoor biomedische onderzoekers directe toegang hebben tot hun resultaten. De broncode en de handleiding van kSolutionVis kunnen worden gedownload van http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Binaire indeling, een van de meest algemeen onderzocht en uitdagende data mining problemen op het gebied van biomedische, worden gebruikt voor het bouwen van een model van de classificatie getraind op twee groepen van monsters met de meest nauwkeurige discriminatie macht1, 2 , 3 , 4 , 5 , 6 , 7. de grote gegevens gegenereerd op het gebied van biomedische heeft echter de inherente “grote p kleine n” paradigma, met het aantal functies meestal veel groter dan het aantal monsters6,8,9. Daarom moeten biomedische onderzoekers beperken de functie dimensie vóór gebruik te maken van de classificatie-algoritmen om te voorkomen dat de overfitting probleem8,9. Diagnose biomarkers worden gedefinieerd als een deelverzameling van gedetecteerde functies scheiden van patiënten van een bepaalde ziekte van gezonde controle monsters10,11. Patiënten zijn meestal gedefinieerd als de positieve monsters, en de gezonde controles worden gedefinieerd als de negatieve monsters12.

Recente studies hebben gesuggereerd dat er meer dan één oplossing met identieke of ook effectief classificatie voorstellingen voor een biomedische dataset5bestaat. Bijna alle functie selectie algoritmes zijn deterministische algoritmen, produceren slechts één oplossing voor de dezelfde dataset. Genetische algoritmen kunnen gelijktijdig meerdere oplossingen met soortgelijke voorstellingen genereren, maar ze nog steeds probeert te selecteren één oplossing met de beste fitness-functie als de output voor een gegeven dataset13,14.

Functie selectie algoritmen kunnen ruwweg worden gegroepeerd als filters of wrappers12. Een filter algoritme kiest dek functies boven – gerangschikt door hun belangrijke individuele associatie met de labels van de binaire klasse gebaseerd op de veronderstelling dat functies zijn onafhankelijk van elkaar15,16,17 . Hoewel deze veronderstelling niet voor bijna alle levensechte datasets geldt, presteert de heuristische filterregel goed in veel gevallen, bijvoorbeeld, de mRMR (Minimum redundantie en maximale relevantie) algoritme, de Wilcoxon test gebaseerd functie filtering (WRank) algoritme en het ROC (operationele karakteristiek van de ontvanger) perceel gebaseerd algoritme filteren (ROCRank). mRMR, is een efficiënte filter algoritme omdat het benadert het probleem van de combinatorische schatting met een reeks van veel kleinere problemen, vergelijken met de maximale-afhankelijkheid functie selectie algoritme, die elk slechts betrekking heeft op twee variabelen, en Daarom gebruikt paarsgewijze joint waarschijnlijkheden die meer robuuste18,19. Echter kan mRMR onderschatten het nut van sommige functies, zoals het niet de interacties tussen de functies die relevantie kunnen verhogen meet, en dus mist sommige functie combinaties die individueel nutteloos zijn, maar zijn handig alleen wanneer ze gecombineerd. De WRank-algoritme berekent een niet-parametrische score van hoe discriminatoire een functie tussen twee klassen van monsters, en staat bekend om zijn robuustheid voor uitschieters20,21. Voorts evalueert het algoritme ROCRank hoe belangrijk de ruimte onder de ROC Curve (AUC) van een bepaalde functie is voor de onderzochte binaire indeling prestaties22,23.

Aan de andere kant, een wrapper evalueert de vooraf gedefinieerde classificatie uitoefeningvan-een gegeven functie subset, iteratief gegenereerd door een heuristische regel, en creëert de functie subset met de beste prestaties meten24. Een wrapper in het algemeen beter presteert dan een filter in de prestaties van de classificatie, maar loopt langzamer25. De geregulariseerde Random Bos (SRF)26,27 algoritme gebruikt bijvoorbeeld een hebzuchtige regel, met een evaluatie van de functies op een subset van de trainingsgegevens op elk knooppunt van willekeurige bos, wiens functie belang scores worden geëvalueerd door de Gini-index . De keuze van een nieuwe functie worden gestraft als de winst van de informatie niet die van de gekozen functies verbetert. Bovendien, de analyse van de voorspelling voor Microarrays (PAM)28,29 -algoritme, ook een wrapper-algoritme, een centroid berekend voor elk van de klasse etiketten en selecteert vervolgens functies te krimpen de gene centroids richting de algemene klasse centroid. PAM is robuust voor perifere functies.

Meerdere oplossingen met de hoogste classificatie prestaties kunnen nodig zijn voor een gegeven dataset. Ten eerste, het doel van de optimalisatie van een deterministische algoritme wordt gedefinieerd door een wiskundige formule, bijvoorbeeld, minimale fout tarief30, die is niet per se ideaal voor biologische monsters. Ten tweede, een dataset wellicht meerdere afwijkt, oplossingen met vergelijkbare effectieve of zelfs identieke prestaties. Bijna alle bestaande functie selectie algoritmen zal willekeurig een van deze oplossingen als de uitgang-31.

Deze studie zal een analytische informatica-protocol voor het genereren van meerdere oplossingen van de selectie van de functie met soortgelijke voorstellingen voor een bepaalde binaire indeling dataset introduceren. Gezien het feit dat de meest biomedische onderzoekers niet vertrouwd met informatic technieken of computer codering zijn, werd een gebruiksvriendelijke grafische user interface (GUI) ontwikkeld om de snelle analyse van biomedische binaire indeling datasets. Het analytische protocol bestaat uit gegevens laden en samenvatten, parameter tuning pijpleiding uitvoering en resultaat interpretaties. Met een simpele klik is de onderzoeker in staat om de biomerker deelverzamelingen en publicatie hoogwaardige visualisatie percelen te genereren. Het protocol is getest met behulp van de transcriptomes van twee binaire indeling datasets van Acute lymfatische leukemie (ALL), dat wil zeggen, ALL1 en ALL212. De datasets van ALL1 en ALL2 werden gedownload uit het brede Instituut genoom analyse datacenter, beschikbaar op http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 bevat 128 monsters met 12,625 functies. Van deze monsters, 95 zijn B-cel alle en 33 zijn T-cell ALL. ALL2 bevat 100 monsters met 12,625 functies zo goed. Van deze monsters zijn er 65 patiënten die geleden herval en 35 patiënten dat niet. ALL1 was een eenvoudige, binaire indeling dataset, met een minimale nauwkeurigheid van vier filters en vier wrappers 96,7% en 6 van de 8 functie selectie algoritmen bereiken van 100%12. Terwijl ALL2 een moeilijker dataset, met de bovenstaande 8 functie selectie algoritmen niet beter dan 83,7% nauwkeurigheid12bereiken was. Deze beste nauwkeurigheid was bereikt met 56 functies aangetroffen door de wrapper-algoritme, correlatie gebaseerde functie selectie (CFS).

Protocol

Opmerking: Het volgende protocol beschrijft de details van de analytische procedure van informatica en pseudo-codes van de belangrijkste modules. De automatische analyse-systeem werd ontwikkeld met behulp van Python versie 3.6.0 en de Python modules Panda’s, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, wiskunde en matplotlib. De materialen die worden gebruikt in deze studie staan in de Tabel van materialen. 1. Prepareer de Data Matrix en klasse van etiketten Be…

Representative Results

Het doel van deze workflow (Figuur 6) is te detecteren van meerdere biomerker deelverzamelingen met soortgelijke efficiency voor een binaire indeling dataset. Het hele proces wordt geïllustreerd door twee voorbeeld datasets ALL1 en ALL2 geëxtraheerd uit een onlangs gepubliceerd biomerker detectie bestuderen van12,48. Een gebruiker kan het installeren van kSolutionVis door de instructies te volgen in…

Discussion

Deze studie geeft een gemakkelijk-aan-volg multi oplossing biomerker detectie en karakterisering van het protocol voor een gebruiker opgegeven binaire indeling dataset. De software legt de nadruk op gebruiksvriendelijkheid en flexibele import/export interfaces voor verschillende bestandsindelingen, zodat een biomedisch onderzoeker te onderzoeken hun dataset gemakkelijk met behulp van de GUI van de software. Deze studie belicht eveneens de noodzaak van het genereren van meer dan één oplossing met eveneens effectief mode…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gesteund door de strategische prioriteit onderzoeksprogramma van de Chinese Academie van Wetenschappen (XDB13040400) en de subsidie van het opstarten van Universiteit Jilin. Anoniem reviewers en biomedische testen gebruikers werden gewaardeerd voor hun constructieve opmerkingen over de verbetering van de bruikbaarheid en de functionaliteit van kSolutionVis.

Materials

Hardware
laptop Lenovo X1 carbon Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name Company Catalog Number Comments
Software
Python 3.0 WingWare Wing Personal Any python programming and running environments support Python version 3.0 or above

Riferimenti

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O’Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).
check_url/it/57738?article_type=t

Play Video

Citazione di questo articolo
Feng, X., Wang, S., Liu, Q., Li, H., Liu, J., Xu, C., Yang, W., Shu, Y., Zheng, W., Yu, B., Qi, M., Zhou, W., Zhou, F. Selecting Multiple Biomarker Subsets with Similarly Effective Binary Classification Performances. J. Vis. Exp. (140), e57738, doi:10.3791/57738 (2018).

View Video