Summary

A Novel Bayesiana Algoritmo de Mudança-ponto para Genome-wide Análise de tipos de dados ChIPseq Diversos

Published: December 10, 2012
doi:

Summary

Nosso ponto de mudança Bayesiana (BCP) algoritmo baseia-se no estado-da-arte avanços em modelagem de mudanças de pontos através de modelos ocultos de Markov e os aplica a cromatina imunoprecipitação seqüenciamento (ChIPseq) análise de dados. BCP executa bem em tipos de dados ampla e pontuada, mas supera em identificar com precisão robustos, ilhas reproduzíveis de enriquecimento histona difusa.

Abstract

ChIPseq é uma técnica amplamente utilizada para investigar interacções DNA-proteína. Ler a densidade perfis são gerados usando a próxima sequência de ADN ligado à proteína e alinhando a curto leituras para um genoma de referência. Regiões enriquecidas são revelados como picos, o que muitas vezes diferem dramaticamente de forma, dependendo da proteína alvo 1. Por exemplo, factores de transcrição ligam frequentemente em um local e modo específico da sequência e tendem a produzir picos puntiformes, enquanto que modificações de histonas são mais difusas e caracterizam-se por grandes difusas, ilhas de enriquecimento 2. Confiável identificação dessas regiões foi o foco do nosso trabalho.

Algoritmos de análise de dados ChIPseq empregaram várias metodologias, de heurísticas 3-5 aos mais rigorosos modelos estatísticos, por exemplo, modelos ocultos de Markov (HMM) 6-8. Nós procuramos uma solução que minimizasse a necessidade de difíceis de definir, parâmetros ad hoc, que muitas vezescomprometer resolução e diminuir a possibilidade de utilização intuitiva da ferramenta. Com relação aos métodos baseados em HMM, buscamos reduzir os procedimentos de estimação e de parâmetros simples, classificações de estado finito que são frequentemente utilizados.

Além disso, a análise de dados convencional ChIPseq envolve categorização do esperado ler perfis de densidade como quer punctata ou difusa seguido de posterior aplicação da ferramenta apropriada. Nós ainda como objetivo substituir a necessidade de estes dois modelos distintos com um único modelo mais versátil, que pode competentemente abordar todo o espectro de tipos de dados.

Para atingir estes objectivos, o primeiro construído um quadro estatístico que naturalmente modelados estruturas ChIPseq de dados usando um avanço de ponta em HMMs 9, que utiliza apenas fórmulas explícitas-uma inovação crucial para suas vantagens de desempenho. Modelos mais sofisticados, em seguida, heurísticas, nossa HMM acomoda infinitos estados ocultos através de umModelo Bayesian. Nós aplicamos a identificação de pontos de mudança razoável na densidade de ler, que ainda definir segmentos de enriquecimento. Nossa análise revelou como nosso Bayesiana mudar o ponto algoritmo (BCP) teve uma complexidade computacional reduzido evidenciado por um tempo de execução abreviada e consumo de memória. O algoritmo BCP foi aplicado com sucesso tanto o pico punctata e identificação ilha difusa com precisão robusto e limitados parâmetros definidos pelo usuário. Isto ilustrado tanto a sua versatilidade e facilidade de uso. Conseqüentemente, acreditamos que pode ser implementada facilmente em intervalos amplos de tipos de dados e usuários finais de uma forma que pode ser facilmente comparados e contrastados, tornando-se uma grande ferramenta para ChIPseq análise de dados que pode ajudar na colaboração e corroboração entre grupos de pesquisa. Aqui, demonstramos a aplicação do factor de transcrição de BCP existente 10,11 e 12 epigenéticas dados para ilustrar a sua utilidade.

Protocol

1. Preparando os arquivos de entrada para o BCP Análise Alinhe o curta lê produzido a partir de seqüenciamento corridas (Chip e bibliotecas de entrada) para o genoma de referência apropriado, usando o software de alinhamento preferencial curto de leitura. Os locais mapeados devem ser convertidos para as 6 colunas de dados do navegador extensíveis (TCAP) formato 13 (UCSC navegador genoma, http://genome.ucsc.edu/ ), uma linha guia delimitada …

Representative Results

BCP destaca em identificação de regiões de enriquecimento amplo em dados de modificação de histonas. Como ponto de referência, que anteriormente comparação dos nossos resultados aos de SICER 3, uma ferramenta já existente que tem demonstrado forte desempenho. Para ilustrar melhor as vantagens do BCP, examinamos uma modificação de histonas que tinha sido bem estudado para estabelecer uma base para avaliar as taxas de sucesso. Com isto em mente, é então analisada H3K36me3, uma vez que tem sido demo…

Discussion

Nós nos propusemos a desenvolver um modelo de análise de dados que possam identificar ChIPseq ambas as estruturas puntiformes e difusos dados igualmente bem. Até agora, as regiões de enriquecimento, as regiões particularmente difusas, que refletem a expectativa pressuposto de tamanho grande ilha, têm sido difíceis de identificar. Para resolver esses problemas, foram utilizados os mais recentes avanços na tecnologia de HMM, que possuem muitas vantagens sobre os modelos heurísticos existentes e HMMs menos inovado…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR prêmio fundação (MQZ), NIH concessão ES017166 (MQZ), NSF concessão DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video