I motsetning til DNA sekvens data, er epigenomic data ikke lett utsettes for tekst-basert søk. Presenteres her er prosedyrer for en oppgradert versjon av GeNemo, et webbasert Bioinformatikk verktøy, for å foreta mønsterbaserte Søk etter likheter i epigenomic data sammenligne tilgjengelig online databaser inkludert Encyclopedia av DNA elementer med brukerens data.
Sammenlignet med de robuste tekstbaserte søkeverktøyene for genomisk eller RNA sekvensering data, gjeldende metoder for mønsterbaserte søk av epigenomic og andre funksjonelle genomic data er svært begrenset. GeNemo er det første online søkeverktøyet som oppnår dette målet. Brukere input funksjonelle genomic dataene i leseren Extensible Data (SENG), topper og bigWig formater og kan søke etter data i tre formater. Brukere kan angi hvilke typer datasett søke mot å velge fra en rekke online datasett, med Encyclopedia av DNA elementer (kode) som representerer ulike epigenomic merker, transcriptional faktor bindende områder og chromatin hypersensitivities eller accessibilities i spesifikke celletyper, og utviklingsstadier eller arter (mus eller human). GeNemo returnerer en liste over genomisk regioner med matchende mønstre til inndataene, som kan vises i leseren samt lastet ned i SENGEN format. Den oppgraderte GeNemo har forbedret grafisk display, har mer robust grensesnitt og er ikke utsatt for feil skyldes endringer i University of California, Santa Cruz (UCSC) genomet nettleser. Fremgangsmåten for feilsøking for vanlige problemer drøftes. Som mengden funksjonelle genomic data vokser eksponentielt, finnes det et kritisk behov for å utvikle og finpusse nye bioinformatic verktøy som GeNemo dataene analyser og tolkning.
Nyere teknologiske fremskritt har tillatt for en rask utbygging av epigenomic eller funksjonelle genomic data depositories, som har overgått utviklingen av relevante analytiske verktøy for å trekke ut biologiske innsikt. En viktig måte å analysere epigenomic data er å søke brukergenererte data mot data depositories, og spesielt de fra Encyclopedia av DNA elementer (kode)1 prosjekter for matchende mønstre som kan føre til ny kunnskap. Eksempelvis kan identifiserer likheter i mønstre av to forskjellige epigenomic markerer definerte loci over genomet indikere koordinert handling av molekylære forskjellige chromatin konformasjon og transcriptional forskrift2 ,3,4.
Tradisjonelle tekstbaserte søkemotorer er ineffektive i denne forbindelse fordi, i motsetning til DNA sekvens, epigenomic data hovedsakelig finnes i intensitet eller funksjonelle genomisk regioner. GeNemo, står for Gene Nemo (som Finding Nemo), ble utviklet for å løse denne udekkede behov bruker mønsterbaserte søk5. Sin algoritme benytter en Markov kjeden Monte Carlo maksimering prosessen5. Brukere ta sine egne data eller dataset lastet ned fra depositories og søk etter en rekke online epigenomic data for å identifisere likheter i mønstre.
Den gjeldende versjonen av GeNemo har en oppdatert skjerm, grensesnitt mer robust med University of California, Santa Cruz (UCSC) genomet nettleser6, og er mindre utsatt for problemer som skyldes endringer i det siste. Spesielt mens Genemos resultatsiden brukt skal baseres på UCSC genomet lesergrensesnittet, gjeldende versjon av GeNemo støtter sin egen resultatsiden og følgelig er ikke negativt påvirket av strukturelle endringer i UCSC genomet nettleseren. GeNemo kan bruke alle genomic signal, inkludert protein-bindende, histone modifisering, chromatin tilgjengelighet, topologisk domener og så videre, som en spørring for å finne colocalized/lignende segmenter blant kjente datasett fra store konsortier. Derfor er det et viktig verktøy for å studere forholdet mellom forskjellige epigenomic rundt og kjente data generert i stor skala genomisk prosjekter.
En grundig forståelse av epigenome er nødvendig for å oppnå det fulle potensialet av menneskelige genom sekvensering å gi nye biologiske innsikt8. Foreløpig er det bare måter å søke online epigenomic datasett av deres databeskrivelse og tittel (i.e., metadata)1. Dette begrenser sterkt hvilke typer søk kan man gjøre med epigenomic data. Mønsterbaserte søkeverktøy for epigenomic data er avgjørende for utforsker forholdet mellom ulike epigenomic merkene, som kan føre til ny biologiske innsikt. GeNemo, som søker av innholdet i dataene og ikke metadataene, er den første i sitt slag til å sammenligne mønstre i epigenomic data fra publiserte depositories som kode databasen med en bruker-generert eller nedlastet dataset5. Dette markerer begynnelsen av tilgjengeligheten av en epigenomic-søkeverktøy som er allment tilgjengelig for forskere over hele verden bare tekstbaserte sekvens søkeverktøy ble allment tilgjengelig på 1990-tallet. I dag er det ingen alternativer for mønster-baserte online søkeverktøy for data som epigenomic ikke GeNemo.
Én potensielle eksempel på bruk av GeNemo er å søke co vises histone endringene og andre epigenetic merker med transcriptional faktor E2F6 i menneskelige embryonale stamceller (en eksempel E2F6 binding signal arkiv er tilgjengelig på kode dataene portal eller på https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Ved hjelp av denne filen som spørring søke mot alle kode datasett i H1-hESC, viser GeNemo at E2F6 binding signalet er sterkt beriket med H3K4me1, H3K4me2, H3K4me3 og H3K27me3, som er enig med eksisterende forskning viser at E2F6 regulerer noen gener via metylering H3K279. På den annen side, synes det å være colocalization av E2F6 og CtBP2 binding nettsteder, som er kjent for å samhandle med en faktor i samme familie, E2F710. Disse resultatene til hele genomet mot en rekke epigenetic merker, transcriptional faktor bindende signaler og andre signaler i kode kan ganske enkelt oppnås med GeNemo, som kan gi alle potensielle mål for videre analyse.
Siden den første publikasjonen5 av GeNemo som en web-basert epigenomic data søkeverktøyet, har resulterer kapittel av GeNemo blitt oppdatert for å ha en matchende opptreden med Genemos forsiden. Gamle resultatinndelingen tett speilet delen UCSC genomet nettleser resultater, og var i stor grad avhengig av den eksterne UCSC serveren for visning. Med det nye grensesnittet er GeNemo mer brukervennlig og ikke lenger avhengig UCSC genomet serveren (selv om dataene er fortsatt Hentet fjernt). Dette gjør GeNemo mer robust og mindre utsatt for problemer på grunn av kodeendringer på UCSC serveren. Videre gir nye, raskere polymer grensesnittet til GeNemo brukeren flere verktøy for å visualisere og analysere mønstre i dataene.
Kritisk trinnene omfatter gir riktig inndatafilen og velge data spor søke mot. Brukere oppfordres til å eksperimentere med forskjellige Spor markering funksjonene å bli kjent med utvelgelsesprosessen og hvordan ulike kommandoer kan kombineres til å oppnå den tilsiktede utfallet. Spesielt oppmerksom på at funksjonen “Legg til” er nødvendig å legge til ønskede spor valgt i spørringen, mens “Filtrere” eller “Utelukk” kan brukes som logikk gate kommandoer “AND” og “Eller”, henholdsvis. Funksjonen “Update” er nødvendig for å påvirke valgene før du implementerer søket. Når ingen resultater returneres, kan en bruker sjekke filen inndataene, søke mer spor eller øke søkeområdet. Når det er en feil, blir det et vindu dukker opp definere hva nøyaktig feilen er. Det er noen tvetydig feil, skjønt. For eksempel når vinduet sier at “ingen fil ble lastet opp’, enten ingen fil ble lastet opp, eller den opplastede filen var ikke av akseptabelt format og, derfor programmet kunne ikke lese det riktig. Filformatene for filopplasting inkluderer SENG og topper formatfil for både opplasting metoder og bigWig for online kobling sende bare. De zippede versjonene av disse filformatene er også akseptabelt.
Nåværende begrensninger av denne tilnærmingen inkluderer ennå-å-være-optimalisert algoritmer og funksjoner i GeNemo. GeNemo kan ikke likevel gi noen veiledning om tolkningen av noen datasett som returneres. Denne aktiviteten er opp til brukerne, som krever betydelig kunnskap og ekspertise i biologi genomet og epigenome. Dessuten, er en annen gjeldende begrensning at brukere ikke kan endre følsomhet og støy nivået av søk. Vi forventer å fortsette å forbedre og utvide GeNemo mønsteret forskende evner og dataset samling i fremtiden.
The authors have nothing to disclose.
Dette arbeidet ble støttet av NIH gir inkludert DP1HD087990 fra NICHD, R01HG008135 fra NHGRI. Vi takker medlemmer av laboratoriet Zhong verdifulle tilbakemeldinger.
Forfatter bidrag:
X.C. og A.T.Z. oppdatert GeNemo av koding nye grensesnittet og funksjoner. A.T.Z. produsert internt eksempelannonsen video; A.T.Z., X.C og sz skrev papiret.