Summary

A Novel Bayesian Change-Punkt Algorithmus für genomweite Analyse Diverse ChIPseq Datentypen

Published: December 10, 2012
doi:

Summary

Unsere Bayesian ändern Point (BCP)-Algorithmus baut auf state-of-the-art Fortschritte in der Modellierung change-Punkten über Hidden-Markov-Modelle und wendet sie auf Chromatinimmunpräzipitation Sequenzierung (ChIPseq) Datenanalyse. BCP funktioniert gut sowohl breit und punktförmige Datentypen, sondern zeichnet sich durch genaue Identifizierung robust, reproduzierbar Inseln diffuse Histon Bereicherung.

Abstract

ChIPseq ist eine weit verbreitete Technik zur Untersuchung von Protein-DNA-Wechselwirkungen. Lesedichte Profile werden unter Verwendung der nächsten Sequenzierung von Protein-gebundener DNA und Ausrichten des kurzen liest einem Bezugsgenom erzeugt. Angereicherte Regionen als Peaks, die oft drastisch unterscheiden in der Form, in Abhängigkeit von dem Zielprotein 1 offenbart. Zum Beispiel Transkriptionsfaktoren binden oft in einem Standort-und sequenzspezifische Weise und neigen kann punktförmige Spitzen zu produzieren, während Histonmodifikationen weiter verbreitet sind und durch breite, diffuse Inseln Anreicherung 2 gekennzeichnet. Zuverlässig Abgrenzung dieser Regionen lag der Schwerpunkt unserer Arbeit.

Algorithmen zur Analyse ChIPseq Daten wurden verschiedene Methoden, von Heuristiken 3-5 bis strengeren statistischen Modelle, wie zB Hidden Markov Modellen (HMMs) 6-8 eingesetzt. Wir suchten eine Lösung, die die Notwendigkeit für schwierig zu definieren, Ad-hoc-Parameter, die oft minimiertKompromisse Auflösung und verringern die intuitive Bedienbarkeit des Werkzeugs. Mit Bezug auf HMM-basierten Methoden, wollten wir Parameterschätzung Verfahren und einfache, endlichen Klassifikationen, die oft verwendet werden beschneiden.

Darüber hinaus beinhaltet konventionelle ChIPseq Datenanalyse Kategorisierung der erwarteten Lesedichte Profile entweder als punktförmige oder diffuse durch nachfolgende Anwendung des geeigneten Werkzeug gefolgt. Wir weiter das Ziel, die Notwendigkeit für diese zwei unterschiedlichen Modelle mit einem einzigen, vielseitiger Modell, das kompetent adressieren kann das gesamte Spektrum von Datentypen zu ersetzen.

Um diese Ziele zu erreichen, haben wir zunächst eine statistische Rahmen konstruiert, dass natürlich modelliert ChIPseq Datenstrukturen mit einer Schneidkante Fortschritt in HMMs 9, die nur explizite nutzt Formeln-eine Innovation entscheidend für die Performance-Vorteile. Komplexere dann heuristische Modelle beherbergt unsere HMM unendliche versteckten Zustände durch eineBayes-Modell. Wir wandten sie identifizieren vernünftigen Änderung Punkte zu lesen Dichte, die weiter zu definieren Segmente Bereicherung. Unsere Analyse ergab, wie unsere Bayesian ändern Point (BCP)-Algorithmus eine reduzierte Komplexität-nachgewiesen durch eine verkürzte Laufzeit und Speicherbedarf hatte. Die BCP-Algorithmus wurde erfolgreich sowohl punktförmige Spitze und diffuse Insel Identifikation mit robusten Genauigkeit und begrenzte benutzerdefinierten Parametern aufgebracht. Diese illustrierte sowohl ihre Vielseitigkeit und einfache Handhabung. Daher glauben wir, dass es leicht in weiten Bereichen von Datentypen und Endanwender in einer Weise, die einfach verglichen und gegenübergestellt umgesetzt werden, so dass es ein großes Werkzeug für ChIPseq Datenanalyse, die in Zusammenarbeit und Bestätigung zwischen Forschergruppen unterstützen können. Hier zeigen wir die Anwendung der BCP bestehende Transkriptionsfaktor 10,11 und epigenetische Daten 12 seiner Nützlichkeit zu illustrieren.

Protocol

Ein. Vorbereiten Input Files für BCP Analysis Richten Sie den kurzen liest aus Sequenzierung läuft (ChIP und Input-Bibliotheken) der entsprechenden Referenz-Genoms unter Verwendung der bevorzugten kurzen read Alignment-Software produziert. Die abgebildeten Orte sollten an die 6-Säule Browser erweiterbare Daten (BED) Format 13 (UCSC Genom-Browser, umgewandelt werden http://genome.ucsc.edu/ ), eine Tab-getrennte Zeile pro mapped lesen, die den …

Representative Results

BCP zeichnet zu identifizieren Regionen breite Anreicherung in Histonmodifikation Daten. Als Bezugspunkt, wir vorher unsere Ergebnisse mit denen von SICER 3, ein vorhandenes Werkzeug, das starke Leistung gezeigt hat verglichen. Um am besten veranschaulichen BCP die Vorteile, untersuchten wir eine Histon-Modifikation, die gut studiert hatte, um eine Grundlage für die Beurteilung der Erfolgsquoten zu etablieren. In diesem Sinne haben wir dann analysiert H3K36me3, da es sich gezeigt hat, stark assoziieren mit a…

Discussion

Wir wollten ein Modell zur Analyse ChIPseq Daten, die sowohl punktförmige und diffuse Datenstrukturen identifizieren konnte ebenso gut entwickeln. Bis jetzt haben Regionen der Bereicherung, vor allem diffuse Regionen, die die vorausgesetzte Erwartung große Insel groß nachzudenken, war schwer zu identifizieren. Um diese Probleme anzugehen, nutzten wir die jüngsten Fortschritte in der HMM-Technologie, die viele Vorteile gegenüber bestehenden heuristische Modelle und weniger innovative HMMs besitzen.

<p class="jov…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Starr Foundation Award (MQZ), NIH ES017166 (MQZ), NSF DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).
check_url/fr/4273?article_type=t

Play Video

Citer Cet Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video