Summary

A Novel Bayesian Change-punkt Algoritm för Genomvid analys av olika ChIPseq datatyper

Published: December 10, 2012
doi:

Summary

Vår Bayesiansk Ändra Point (BCP) algoritmen bygger på state-of-the-art framsteg inom modellering change-poäng genom Hidden Markov Models och överför dem till kromatin immunoprecipitation sekvensering (ChIPseq) dataanalys. BCP presterar bra i både breda och punktformig datatyper, men utmärker sig i exakt identifiera robusta, reproducerbara öarna diffus histon anrikning.

Abstract

ChIPseq är en allmänt använd teknik för att undersöka protein-DNA interaktioner. Läs densitet profiler genereras med hjälp nästa sekvensering av proteinbundet DNA och anpassa den korta läser till en referens genom. Anrikade regioner avslöjade som toppar, som ofta skiljer dramatiskt i form, beroende på målproteinet 1. Till exempel transkriptionsfaktorer binder ofta på en plats-och sekvensspecifikt sätt och tenderar att producera punktat toppar, medan histon ändringar är mer genomgripande och kännetecknas av breda, diffusa öar av anrikning 2. Tillförlitligt identifiera dessa regioner var i fokus för vårt arbete.

Algoritmer för analys ChIPseq uppgifter har använt olika metoder, från heuristik 3-5 till strängare statistiska modeller, t.ex. Hidden Markov Models (HMM) 6-8. Vi sökte en lösning som minimerat behovet av svåra att definiera, ad hoc parametrar som oftakompromissresolution och minska intuitiva användbarhet av verktyget. När det gäller HMM-baserade metoder, som syftar vi att begränsa förfaranden parameteruppskattning och enkla, ändliga klassificeringar statliga som ofta används.

Dessutom innebär konventionell ChIPseq dataanalys kategorisering av den förväntade läsa densitet profiler som antingen punktat eller diffusa följt av efterföljande applicering av ett lämpligt verktyg. Vi syftade vidare att ersätta behovet av dessa två olika modeller med en enda, mer mångsidig modell som skickligt kan hantera hela spektrumet av datatyper.

För att uppnå dessa mål, vi först konstruerade en statistisk ram som naturligt modellerade ChIPseq datastrukturer med hjälp av en banbrytande framsteg i HMMer 9, som använder endast explicita formler, en innovation avgörande för dess prestanda fördelar. Mer sofistikerade sedan heuristiska modeller rymmer vår HMM oändliga dolda staterna genom ettBayesiansk modell. Vi tillämpade den att identifiera rimlig förändring poäng läses densitet, vilket ytterligare definiera segment av anrikning. Vår analys visade hur vår Bayes Ändra Point (BCP) algoritm hade en reducerad beräkningskomplexitet-framgår av en förkortad körtid och minnesanvändning. BCP-algoritmen framgångsrikt tillämpats på både punktformig topp och diffus ö identifikation med robust noggrannhet och begränsade användardefinierade parametrar. Denna illustrerade både dess mångsidighet och användarvänlighet. Därför anser vi att det kan genomföras snabbt över breda områden av datatyper och slutanvändare på ett sätt som är lätt att jämfört och kontrasterade, vilket gör det till ett utmärkt verktyg för ChIPseq dataanalys som kan hjälpa samarbete och bekräftelse mellan forskargrupper. Här visar vi att tillämpa BCP till befintlig transkriptionsfaktor 10,11 och epigenetiska uppgifter 12 för att illustrera dess användbarhet.

Protocol

1. Förbereda indatafiler för BCP analys Rikta den korta läser produceras från sekvensering körningar (chip och bibliotek input) till lämplig referens genomet med hjälp av föredragna korta programmet läsning inriktning. De mappade platser bör omvandlas till 6 utdragbara kolumnen webbläsare data (BED) format 13 (UCSC genomet webbläsare, http://genome.ucsc.edu/ ), en tabbavgränsad linje per mappad läsa indikerar mappade kromosom, star…

Representative Results

BCP överträffar att identifiera områden med bred anrikning i histonmodifiering data. Som en referenspunkt, jämförde vi tidigare våra resultat till de av SICER 3, en befintlig verktyg som har visat stark utveckling. För att bäst illustrera BCP: s fördelar, har vi granskat en histonmodifiering som hade studerats väl att skapa en grund för att bedöma framgångsrika. Med detta i åtanke, analyserade vi sedan H3K36me3, eftersom det har visat sig associera starkt med aktivt transkriberade gen organ <str…

Discussion

Vi bestämde oss för att utveckla en modell för att analysera ChIPseq uppgifter som skulle kunna identifiera både punktat och diffusa datastrukturer lika bra. Hittills har regioner av anrikning, särskilt diffusa regioner som återspeglar förutsatte förväntningar stor ö storlek, varit svårt att identifiera. För att lösa dessa problem, utnyttjade vi de senaste framstegen inom HMM teknik, som har många fördelar jämfört med befintliga heuristiska modeller och mindre innovativa HMMer.

<p class="jove_conten…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

STARR Foundation Award (MQZ), NIH bidrag ES017166 (MQZ), NSF bevilja DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

Riferimenti

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).
check_url/it/4273?article_type=t

Play Video

Citazione di questo articolo
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video