Summary

A Novel Bayesiaanse Change-point algoritme voor Genoom-brede analyse van diverse ChIPseq Data Types

Published: December 10, 2012
doi:

Summary

Onze Bayesiaanse Change Point (BCP) algoritme is gebaseerd op state-of-the-art ontwikkelingen in het modelleren change-punten via Hidden Markov Models en past deze toe op chromatine immunoprecipitatie sequencing (ChIPseq) data-analyse. BCP presteert goed in zowel brede en punctata data types, maar blinkt uit in nauwkeurig identificeren van robuuste, reproduceerbare eilanden van diffuse histon verrijking.

Abstract

ChIPseq is een veel gebruikte techniek voor het onderzoeken van eiwit-DNA interacties. Lees dichtheidsprofielen zijn gegenereerd met next-sequencing van eiwitgebonden DNA en uitlijnen korte leest een referentie genoom. Verrijkte gebieden worden geopenbaard als pieken die vaak sterk in vorm, afhankelijk van het doeleiwit 1. Bijvoorbeeld transcriptiefactoren binden vaak in een plaats-en sequentie-specifieke wijze en meestal punctata pieken produceren, terwijl histon-modificaties zijn alomtegenwoordig en worden gekenmerkt door brede diffuse eilanden verrijking 2. Betrouwbaar bepalen van deze regio was de focus van ons werk.

Algoritmen voor het analyseren van ChIPseq gegevens met behulp van uiteenlopende methodieken, van heuristiek 3-5 om strengere statistische modellen, zoals Hidden Markov Models (HMM's) 6-8. We zochten een oplossing die de noodzaak voor moeilijk te definiëren, ad hoc parameters die vaak geminimaliseerdcompromisresolutie en het verminderen van de intuïtieve bruikbaarheid van het gereedschap. Met betrekking tot HMM-gebaseerde methoden, hebben we geprobeerd om parameterschatting procedures en eenvoudige, finite state classificaties die vaak worden gebruikt beknotten.

Bovendien, conventionele ChIPseq data-analyse omvat categorisering van de verwachte gelezen dichtheid profielen als ofwel punctata of diffuse gevolgd door verdere toepassing van de juiste tool. Verder hebben we gericht op de noodzaak van deze twee verschillende modellen te vervangen door een enkele, veelzijdiger model, dat bekwaam kan de volledige spectrum van data types.

Om deze doelstellingen te bereiken, moeten we eerst construeerde een statistisch kader dat van nature gemodelleerde ChIPseq data structuren met behulp van een cutting edge vooruitgang in HMM's 9, die alleen expliciete maakt gebruik van formules-een innovatie van cruciaal belang om de prestaties voordelen. Meer geavanceerde dan heuristische modellen, onze HMM biedt oneindige verborgen staten door middel van eenBayesiaanse model. We pasten het aan het identificeren van een redelijke verandering punten in te lezen dichtheid, die verder definiëren segmenten van verrijking. Onze analyse toonde aan hoe onze Bayesiaanse Change Point (BCP) algoritme een verminderde computationele complexiteit-blijkt uit een verkorte looptijd en het geheugen footprint had. De BCP-algoritme werd met succes toegepast op zowel punctata piek en diffuse eiland identificatie met robuuste nauwkeurigheid en beperkte gebruiker gedefinieerde parameters. Deze geïllustreerde zowel de veelzijdigheid en het gebruiksgemak. Daarom geloven we dat het gemakkelijk kan worden geïmplementeerd in een breed bereik van data types en eindgebruikers op een manier die gemakkelijk wordt vergeleken en gecontrasteerd, waardoor het een geweldig hulpmiddel voor ChIPseq data-analyse die kunnen helpen bij samenwerking en bevestiging tussen onderzoeksgroepen. Hier laten we zien op de toepassing van BCP bestaande transcriptiefactor 10,11 en epigenetische gegevens 12 het nut ervan illustreren.

Protocol

1. Voorbereiden invoerbestanden voor BCP Analyse Lijn de korte leest uit sequencing runs (chip en ingang bibliotheken) naar de juiste referentie-genoom met behulp van de gewenste korte lezen uitlijning software. De in kaart gebrachte locaties dienen te worden omgezet in de 6 kolom browser uitbreidbaar gegevens (BED) formaat 13 (UCSC genoom browser, http://genome.ucsc.edu/ ), een door tabs gescheiden regel per toegewezen lezen aanduiding van de i…

Representative Results

BCP blinkt uit in het identificeren van gebieden van brede verrijking in histonmodificatie gegevens. Als referentiepunt, wij eerder vergeleken onze resultaten met die van SICER 3, een bestaande tool die heeft aangetoond een sterke prestatie. Om zo goed mogelijk te illustreren BCP's voordelen, onderzochten we een histon-eiwitten die goed had bestudeerd om een ​​stichting voor de beoordeling van het succes tarieven vast te stellen. Daarom hebben we vervolgens geanalyseerd H3K36me3, aangezien het blijkt …

Discussion

Wij hebben de ambitie om een ​​model voor het analyseren van ChIPseq gegevens die zouden kunnen identificeren zowel punctata en diffuse datastructuren even goed te ontwikkelen. Tot nu toe regio verrijking name diffuse regio's, die de veronderstelde verwachting groot eiland grootte weerspiegelen moeilijk te identificeren. Om deze problemen aan te pakken, hebben we gebruik gemaakt van de meest recente ontwikkelingen in de HMM-technologie, die veel voordelen ten opzichte van bestaande heuristische modellen en minde…

Divulgations

The authors have nothing to disclose.

Acknowledgements

STARR Foundation Award (MQZ), NIH subsidie ​​ES017166 (MQZ), NSF subsidie ​​DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Citer Cet Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video