Vår Bayesiansk Ändra Point (BCP) algoritmen bygger på state-of-the-art framsteg inom modellering change-poäng genom Hidden Markov Models och överför dem till kromatin immunoprecipitation sekvensering (ChIPseq) dataanalys. BCP presterar bra i både breda och punktformig datatyper, men utmärker sig i exakt identifiera robusta, reproducerbara öarna diffus histon anrikning.
ChIPseq är en allmänt använd teknik för att undersöka protein-DNA interaktioner. Läs densitet profiler genereras med hjälp nästa sekvensering av proteinbundet DNA och anpassa den korta läser till en referens genom. Anrikade regioner avslöjade som toppar, som ofta skiljer dramatiskt i form, beroende på målproteinet 1. Till exempel transkriptionsfaktorer binder ofta på en plats-och sekvensspecifikt sätt och tenderar att producera punktat toppar, medan histon ändringar är mer genomgripande och kännetecknas av breda, diffusa öar av anrikning 2. Tillförlitligt identifiera dessa regioner var i fokus för vårt arbete.
Algoritmer för analys ChIPseq uppgifter har använt olika metoder, från heuristik 3-5 till strängare statistiska modeller, t.ex. Hidden Markov Models (HMM) 6-8. Vi sökte en lösning som minimerat behovet av svåra att definiera, ad hoc parametrar som oftakompromissresolution och minska intuitiva användbarhet av verktyget. När det gäller HMM-baserade metoder, som syftar vi att begränsa förfaranden parameteruppskattning och enkla, ändliga klassificeringar statliga som ofta används.
Dessutom innebär konventionell ChIPseq dataanalys kategorisering av den förväntade läsa densitet profiler som antingen punktat eller diffusa följt av efterföljande applicering av ett lämpligt verktyg. Vi syftade vidare att ersätta behovet av dessa två olika modeller med en enda, mer mångsidig modell som skickligt kan hantera hela spektrumet av datatyper.
För att uppnå dessa mål, vi först konstruerade en statistisk ram som naturligt modellerade ChIPseq datastrukturer med hjälp av en banbrytande framsteg i HMMer 9, som använder endast explicita formler, en innovation avgörande för dess prestanda fördelar. Mer sofistikerade sedan heuristiska modeller rymmer vår HMM oändliga dolda staterna genom ettBayesiansk modell. Vi tillämpade den att identifiera rimlig förändring poäng läses densitet, vilket ytterligare definiera segment av anrikning. Vår analys visade hur vår Bayes Ändra Point (BCP) algoritm hade en reducerad beräkningskomplexitet-framgår av en förkortad körtid och minnesanvändning. BCP-algoritmen framgångsrikt tillämpats på både punktformig topp och diffus ö identifikation med robust noggrannhet och begränsade användardefinierade parametrar. Denna illustrerade både dess mångsidighet och användarvänlighet. Därför anser vi att det kan genomföras snabbt över breda områden av datatyper och slutanvändare på ett sätt som är lätt att jämfört och kontrasterade, vilket gör det till ett utmärkt verktyg för ChIPseq dataanalys som kan hjälpa samarbete och bekräftelse mellan forskargrupper. Här visar vi att tillämpa BCP till befintlig transkriptionsfaktor 10,11 och epigenetiska uppgifter 12 för att illustrera dess användbarhet.
Vi bestämde oss för att utveckla en modell för att analysera ChIPseq uppgifter som skulle kunna identifiera både punktat och diffusa datastrukturer lika bra. Hittills har regioner av anrikning, särskilt diffusa regioner som återspeglar förutsatte förväntningar stor ö storlek, varit svårt att identifiera. För att lösa dessa problem, utnyttjade vi de senaste framstegen inom HMM teknik, som har många fördelar jämfört med befintliga heuristiska modeller och mindre innovativa HMMer.
<p class="jove_conten…The authors have nothing to disclose.
STARR Foundation Award (MQZ), NIH bidrag ES017166 (MQZ), NSF bevilja DMS0906593 (HX).
Name of the reagent | Company | Catalogue number | Comments (optional) |
Linux-based workstation |