I modsætning til DNA sekvens data, er epigenomiske data ikke let udsat for tekst-baserede søgninger. Præsenteres her er procedurerne til at bruge en opgraderet version af GeNemo, en web-baseret Bioinformatik værktøj, til at foretage mønster-baseret søgninger til ligheder i epigenomiske data sammenligner tilgængelige online databaser herunder encyklopædi af DNA elementer med brugerdata.
Sammenlignet med robust tekst-baseret søgeværktøjer for genomisk eller RNA sequencing data, nuværende metoder til mønster-baseret ransagninger af epigenomiske og andre funktionelle genomisk data er meget begrænset. GeNemo er den første online-søgning værktøj, der udretter dette mål. Brugernes input deres funktionelle genomisk data i browseren Extensible Data (BED), toppe og stor kanon formater og kan søge efter data i nogen af tre formater. Brugere kan angive hvilke typer af datasæt til at søge mod, at vælge fra en bred vifte af online datasæt, med den encyklopædi af DNA elementer (INDKODE) repræsenterer forskellige epigenomiske mærker, transcriptional faktor bindingssteder og kromatin hypersensitivities eller tilgængelighed i bestemte celletyper, og udviklingsstadier eller arter (musen eller menneske). GeNemo returnerer en liste over genomisk regioner med matchende mønstre til input-data, som kan være set i browseren såvel som hentet i seng-filformat. Den opgraderede GeNemo har forbedret grafisk display, har mere robust interface, og er ikke længere udsat for fejl, som skyldes ændringer i University of California, Santa Cruz (UCSC) genom browser. Fejlfindingstrin for fælles problemer drøftes. Som funktionelle genomisk datamængden vokser eksponentielt, er der et kritisk behov for at udvikle og forfine nye bioinformatic værktøjer som GeNemo for data analyser og tolkning.
Seneste teknologiske fremskridt har tilladt for en hurtig udvidelse af epigenomiske eller funktionelle genomisk data depoter, som har overhalet udviklingen af relevante analytiske værktøjer til at udtrække biologiske indsigter. En vigtig måde at analysere epigenomiske data er at søge brugeroprettede data mod data depoter og især dem fra encyklopædi af DNA elementer (INDKODE)1 projekter til at matche mønstre, der kunne føre til ny viden. For eksempel, kan at identificere lighederne i mønstre af to forskellige epigenomiske varemærker definerede loci på tværs af genomet indikere koordineret af forskellige molekylære spillere på kromatin kropsbygning og transkriptionel regulering2 ,3,4.
Konventionelle tekst-baseret søgning motorer er ineffektive i denne henseende, fordi i modsætning til DNA sekvens, epigenomiske data overvejende findes i form af støtteintensiteter eller funktionelle genomisk regioner. GeNemo, stående for genet Nemo (som i Find Nemo), blev udviklet for at løse dette uopfyldte behov ved hjælp af mønster-baseret søgninger5. Sin algoritme udnytter en Markov kæde Monte Carlo maksimering proces5. Brugere tage deres egne data eller et datasæt hentet fra depoter og søge en bred vifte af online epigenomiske data til at identificere lighederne i mønstre.
Den aktuelle version af GeNemo har en opdateret visning, grænseflader mere håndfast med University of California, Santa Cruz (UCSC) genom-browser6, og er mindre modtagelige for problemer forårsaget af ændringer i sidstnævnte. Navnlig, mens Genemos resultatside bruges til at være baseret på UCSC genom-browser interface, den aktuelle version af GeNemo understøtter sine egne resultatside og er derfor ikke længere negativt påvirket af strukturelle ændringer i UCSC genom-browser. GeNemo kan bruge enhver genomisk signal, herunder protein-bindende, Histon modifikation, kromatin tilgængelighed, topologiske domæner og så videre, som en forespørgsel til at finde colocalized eller lignende segmenter blandt kendte datasæt fra store konsortier. Derfor er det et vigtigt redskab til at undersøge forholdet mellem forskellige epigenomiske af interesse og kendte data genereret i stor skala genomisk projekter.
En grundig forståelse af epigenome er forpligtet til at opnå det fulde potentiale af human genome sequencing i at give nye biologiske indsigter8. I øjeblikket er der kun måder at søge online epigenomiske datasæt ved deres data beskrivelse og titel (dvs., metadata)1. Dette begrænser i høj grad typerne af søgning kan man gøre med epigenomiske data. Mønster-baseret søgning værktøjer for epigenomiske data er afgørende for at udforske forholdet mellem forskellige epigenomiske mærker, som kan føre til nye biologiske indsigter. GeNemo, som søger indhold af data og ikke metadata, er den første tjeneste af sin art til at sammenligne mønstre i epigenomiske data fra publicerede depoter såsom ENCODE database med en bruger-genereret eller downloadet datasæt5. Dette markerer begyndelsen af tilgængeligheden af en epigenomiske søgning værktøj, der er bredt tilgængelige for forskere rundt om i verden bare som tekst-baserede sekvens søgeværktøj blev alment tilgængelig i 1990 ‘ erne. I øjeblikket, er der ingen alternativer til mønster-baseret online søgning værktøjer for epigenomiske data end GeNemo.
En potentiel eksempel på brugen af GeNemo er at søge de Co vises Histon ændringer og andre epigenetiske mærker med transcriptional faktor E2F6 i humane embryonale stamceller (et eksempel E2F6 bindende signal fil er tilgængelig på ENCODE data portal eller på https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Ved hjælp af denne fil som forespørgslen til at søge mod alle ENCODE datasæt i H1-menneskelige stamceller, vil GeNemo vise at E2F6 bindende signal er stærkt beriget med H3K4me1, H3K4me2, H3K4me3 og H3K27me3, som er enig med eksisterende forskning viser, at E2F6 regulerer nogle gener via methylering af H3K279. På den anden side synes der at være colocalization af E2F6 og CtBP2 bindingssteder, som er kendt for at interagere med en faktor i den samme familie, E2F710. Disse resultater for den hele genom mod et stort antal epigenetiske mærker, transcriptional faktor bindende signaler og andre signaler indgår i ENCODE kan opnås temmelig nemt med GeNemo, der kan levere alle potentielle mål for yderligere analyse.
Siden den første publikation5 af GeNemo som en web-baseret epigenomiske data søgning værktøj, er afsnittet resultater af GeNemo blevet opdateret for at have en tilsvarende udseende med Genemos Forside. Afsnittet gamle resultater nøje spejlet afsnittet UCSC genom-browser resultater, og var i høj grad afhængig af UCSC fjernserver til visning. Med den nye grænseflade er GeNemo mere brugervenlig og ikke længere afhængige af UCSC genom server (selvom data er stadig hentede fjernt). Det gør GeNemo mere robust og mindre modtagelige for problemer på grund af kodeændringer på UCSC server. Desuden, den nye, hurtigere polymer grænseflade af GeNemo giver brugeren flere værktøjer til at visualisere og analysere mønstre i data.
Kritiske trin omfatter giver passende input-filen og vælge dataspor til at søge mod. Brugere opfordres kraftigt til at eksperimentere med forskellige spor markering funktioner at blive fortrolig med udvælgelsesprocessen og hvordan forskellige kommandoer kan kombineres til at opnå det ønskede resultat. Især opmærksom på at funktionen “Tilføj” er forpligtet til at tilføje ønskede numre valgt i forespørgslen, mens “Filter” eller “Udelukke” kan bruges som logik gate kommandoer “Og” og “Eller”, henholdsvis. “Update”-funktionen er forpligtet til at påvirke alle valg før implementering af søgningen. Når der returneres ingen resultater, kan en bruger kontrollere filen inputdata, søge mere spor eller øge søgeområdet. Når der er en fejl, vil der være et vindue dukker op definere hvad præcis fejlen er. Der er nogle uklare fejl, selv om. For eksempel, når vinduet siger, at ‘ingen fil blev uploadet’, enten ingen fil blev uploadet, eller den uploadede fil var ikke i et acceptabelt format og, derfor, programmet var ikke i stand til at læse det korrekt. Acceptabel filformater til fil-upload omfatter seng og toppe format fil for både upload metoder og stor kanon for online link upload kun. De ZIP versioner af disse filformater kan også accepteres.
Nuværende begrænsninger af denne tilgang omfatter endnu-til-være-optimeret algoritmer og funktioner ansat i GeNemo. GeNemo kan ikke endnu give nogen vejledning om fortolkningen af enhver datasæt, der returneres. Denne opgave er op til brugerne, der kræver betydelig viden og ekspertise i biologi genom og epigenome. Desuden er en anden nuværende begrænsning, at brugerne ikke kan ændre følsomhed og støj niveauet af søgningerne. Vi forventer at fortsætte med at forbedre og udvide GeNemo på sit mønster søgning kapaciteter og datasæt samling i fremtiden.
The authors have nothing to disclose.
Dette arbejde blev støttet af NIH tilskud, herunder DP1HD087990 fra NICHD, R01HG008135 fra NHGRI. Vi takke medlemmerne af Zhong lab for værdifuld feedback.
Forfatter bidrag:
X.C. og A.T.Z. opdateret GeNemo af kodning nye grænseflade og funktioner; A.T.Z. produceret in-house prøve video; A.T.Z., X.C og sz skrev papiret.