Till skillnad från DNA-sekvensering utsätts epigenetisk data inte lätt för textbaserade sökningar. Presenteras här är förfarandena för att använda en uppgraderad version av GeNemo, ett webbaserat bioinformatik verktyg, för att göra mönster-baserade sökningar för likheter i epigenetisk data som jämför tillgängliga online databaser inklusive encyklopedi av DNA-element med användarens data.
Jämfört med de robusta textbaserade sökverktyg för genomisk eller RNA sekvensering data, nuvarande metoder för mönster-baserade sökningar av epigenetisk och andra funktionella genomisk data är mycket begränsade. GeNemo är den första online sökverktyg som åstadkommer detta mål. Användare deras funktionella genomisk dataunderlag i webbläsarens Extensible Data (säng), toppar och pamp format, och kan söka efter data i något av de tre formaten. Användare kan ange vilka typer av datamängder att söka mot, att välja från en mängd olika online datamängder, med encyklopedi av DNA element (koda) som representerar olika epigenetisk märken, transkriptionell faktor bindningsställen och kromatin llergies eller accessibilities i specifika celltyper, och utvecklingsstadier eller art (mus eller mänskliga). GeNemo returnerar en lista över genomisk regioner med matchande mönster till indata, vilket kan vara visas i webbläsaren samt hämtade i formatet säng. Den uppgraderade GeNemo förbättrats grafisk display, har mer robust gränssnitt och inte längre är benägna att fel på grund av förändringar i University of California, Santa Cruz (UCSC) genomet webbläsare. Felsökningssteg för vanliga problem diskuteras. Som mängden funktionella genomisk data växer exponentiellt, finns det ett kritiskt behov av att utveckla och förädla nya bioinformatiska verktyg såsom GeNemo för dataanalyser och tolkning.
Senaste tekniska framsteg har gjort för en snabb expansion av epigenetisk eller funktionella genomisk data depositarierna, som har outpaced utvecklingen av relevanta analytiska verktyg för att extrahera biologiska insikter. Ett viktigt sätt att analysera epigenetisk data är att söka användargenererade data mot data värdepapperscentralerna och särskilt de från de encyklopedi av DNA element (koda)1 projekt för matchande mönster som kan leda till ny kunskap. Exempelvis kan att identifiera likheter i mönstren för två olika epigenetisk märken på definierade loci hela genomet tyda samordnade åtgärder av olika molekylära spelare på kromatin konformation och Transkriptionsreglering2 ,3,4.
Konventionella text-baserade sökmotorer är verkningslösa i detta avseende eftersom, till skillnad från DNA-sekvens, epigenetisk data finns huvudsakligen i form av stödnivåer eller funktionella genomisk regioner. GeNemo, står för genen Nemo (som i Hitta Nemo), utvecklades för att bemöta detta otillfredsställda behov som använder mönster-baserade sökningar5. Sin algoritm använder tredjeparts en Markov Chain Monte Carlo maximering processen5. Användare ta sina egna data eller en datamängd hämtas från värdepapperscentralerna och Sök en rad online epigenetisk data för att identifiera likheter i mönster.
Den aktuella versionen av GeNemo har en uppdaterad uppvisning, gränssnitt mer kraftfullt med University of California, Santa Cruz (UCSC) genomet webbläsare6, och är mindre känsliga för problem som orsakas av förändringar i den senare. I synnerhet medan Genemos resultatsida brukade baseras på UCSC genomet webbläsarens gränssnitt, den aktuella versionen av GeNemo stöder sin egen resultatsidan och följaktligen inte längre negativt påverkas av strukturella förändringar till UCSC genomet webbläsaren. GeNemo kan använda någon genomisk signal, inklusive protein-bindande, Histon modifiering, kromatin tillgänglighet, topologiska domäner och så vidare, som en fråga för att hitta colocalized/liknande segment bland kända datauppsättningar från stora konsortier. Därför är det ett viktigt verktyg för att studera sambandet mellan olika epigenetisk uppgifter av intresse och kända data som genereras vid storskalig genomisk projekt.
En grundlig förståelse av epigenomet krävs att uppnå mänskliga Genomsekvensering att tillhandahålla nya biologiska insikter8fulla potential. För närvarande finns det bara sätt att söka online epigenetisk datamängder av deras data beskrivning och titel (dvs, metadata)1. Detta begränsar allvarligt typerna av Sök en kan göra med epigenetisk data. Mönster-baserade verktyg för epigenetisk data är väsentliga för att utforska förhållandet mellan olika epigenetisk märken, vilket kan leda till nya biologiska insikter. GeNemo, som söker av innehållet i data och inte metadata, är den första tjänsten i sitt slag att jämföra mönster i epigenetisk data från publicerade förvaringsställen som koda databasen med ett användargenererat eller hämtade datamängden5. Detta markerar början på tillgängligheten av en epigenetisk sökverktyg som är allmänt tillgänglig för forskare runt om i världen bara som text-baserade sekvens sökverktyget blev allmänt tillgänglig i 1990-talet. För närvarande finns det inga alternativ för mönster-baserade online-sökning verktyg för epigenetisk data än GeNemo.
En potentiell exempel på att använda GeNemo är att söka samarbete visasende Histon ändringar och andra epigenetiska märken med transkriptionell faktor E2F6 i mänskliga embryonala stamceller (exempel E2F6 bindande signal finns en fil på koda data portal eller på https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Genom att använda denna fil som fråga för att söka mot alla koda datamängder i H1-hESC, visar GeNemo att E2F6 bindande signal tungt är berikad med H3K4me1, H3K4me2, H3K4me3 och H3K27me3, som instämmer i befintlig forskning visar att E2F6 reglerar vissa gener via metylering av H3K279. Däremot, verkar det vara colocalization av E2F6 och CtBP2 bindande platser, som är kända för att interagera med en faktor i samma familj, E2F710. Dessa resultat för hela genomet mot ett stort antal epigenetiska märken, transkriptionell faktor bindande signaler och andra signaler som ingår i koda kan ganska lätt erhållas med GeNemo, som kan ge alla potentiella mål för vidare analys.
Sedan den första publikation5 av GeNemo som en webbaserad epigenetisk data sökverktyg, har avsnittet resultat GeNemo uppdaterats för att ha ett matchande utseende med Genemos förstasida. Gamla resultatavsnittet nära speglad UCSC genomet webbläsare resultatavsnittet och var till stor del beroende på fjärrservern UCSC för visning. Med det nya gränssnittet är GeNemo mer användarvänlig och inte längre beroende av UCSC genomet servern (även om data hämtas fortfarande distans). Detta gör GeNemo mer robust och mindre mottagliga för problem på grund av ändringar i koden på UCSC servern. Dessutom ger nya, snabbare polymer gränssnittet för GeNemo användaren fler verktyg för att visualisera och analysera mönster i data.
Kritiska steg inkluderar att tillhandahålla lämpliga indatafilen och välja dataspår att söka mot. Användare uppmuntras att experimentera med olika spår urval funktioner bli bekant med urvalsprocessen och hur olika kommandon kan kombineras för att uppnå det avsedda resultatet. Notera i synnerhet att funktionen ”Lägg till” för att lägga till önskade spår valts i frågan, medan ”filtrera” eller ”Uteslut” kan användas som logik gate kommandon ”och” och ”eller”, respektive. Funktionen ”uppdatera” krävs att påverka alla val innan du implementerar sökningen. När inga resultat returneras, kan en användare kontrollera filen indata, söka fler spår eller öka sökintervallets. När det finns ett fel, kommer det att finnas ett fönster poppar upp definiera vad exakt felet är. Det finns några tvetydiga fel, dock. Till exempel när fönstret säger att ‘ingen fil laddades’, antingen ingen fil laddades upp, eller den uppladdade filen var inte i ett godtagbart format och, programmet var följaktligen inte kunna läsa det korrekt. Godkända filformat för filuppladdning inkluderar säng och toppar formatfil för både upload metoder och pamp för online länk uppladdning endast. Den zippade versionen av dessa format är också godtagbara.
Nuvarande begränsningarna med denna metod inkluderar ännu-till-vara-optimerade algoritmer och funktioner används i GeNemo. GeNemo ge inte ännu någon vägledning om tolkningen av någon datamängder som återvände. Denna uppgift är upp till användarna, vilket kräver betydande kunskap och kompetens inom biologi av genomet och epigenomet. Dessutom är en annan nuvarande begränsning att användare inte kan ändra känslighet och brus nivån av sökningarna. Vi förväntar oss att fortsätta att förbättra och expandera GeNemo på dess mönster söka anlagen och datamängd samling i framtiden.
The authors have nothing to disclose.
Detta arbete stöds av NIH beviljar inklusive DP1HD087990 från NICHD, R01HG008135 från NHGRI. Vi tackar medlemmar av Zhong lab för värdefulla synpunkter.
Författare bidrag:
X.C. och A.T.Z. uppdaterad GeNemo av kodning nya gränssnitt och funktioner; A.T.Z. produceras in-house prov video; A.T.Z., X.C och S.Z. skrev på papper.