En rättfram och robust metod för att identifiera potentiella regelverk motiv i samarbete gener presenteras. OMFATTNING kräver inte någon användare parametrar och returnerar motiv som representerar utmärkta kandidater för regulatoriska signaler. Identifieringen av sådana reglerande signaler hjälper till att förstå den underliggande biologin.
SCOPE är en ensemble motiv hitta som använder tre komponenter algoritmer parallellt för att identifiera potentiella regelverk motiv med överrepresentation och motiv positionsinställningen 1. Varje komponent algoritm är optimerad för att hitta en annan typ av motiv. Genom att ta de bästa av dessa tre metoder, utför OMFATTNING bättre än någon enskild algoritm, även i närvaro av bullriga uppgifter 1. I denna artikel använder vi en webbversion av SCOPE 2 för att undersöka gener som är involverade i telomer underhåll. SCOPE har införlivats i minst två andra motiv att hitta program 3,4 och har använts i andra studier 5-8.
De tre algoritmer som utgör omfattning är BEAM 9, som finner icke-degenererade motiv (ACCGGT), PRISM 10, som finner urarta motiv (ASCGWT) och brickan 11, som finner längre tvåparts motiv (ACCnnnnnnnnGGT). Dessa tre algoritmer har optimerats för att hitta sin motsvarande typ av motiv. Tillsammans möjliggör de för möjligheter att utföra extremt bra.
När en gen som har analyserats och kandidat motiv identifierats kan OMFATTNING leta efter andra gener som innehåller motiv som, när de läggs till de ursprungliga, kommer att förbättra motivet poäng. Detta kan ske genom överrepresentation eller motiv positionsinställningen. Arbeta med partiell gen-apparater som biologiskt har verifierat transkriptionsfaktor bindningsställen, fanns utrymme kunna identifiera de flesta av resten av gener regleras också av den givna transkriptionsfaktor.
Utdata från OMFATTNING visar kandidat motiv, deras betydelse och annan information både som bord och som ett grafiskt motiv karta. Vanliga frågor och kurser i videoform finns på SCOPE webbplats som också innehåller en "Sample Sök" knappen som tillåter användaren att utföra en provkörning.
Scope har ett mycket användarvänligt gränssnitt som gör att nybörjare att få tillgång till algoritmen har full effekt utan att behöva bli en expert i bioinformatik av motiv att hitta. Som indata, kan OMFATTNING ta en lista över gener, eller sekvenser Fasta. Dessa kan föras in i fält webbläsare text eller läsa från en fil. Utgången från OMFATTNING innehåller en lista över alla identifierade motiv med sina poäng, antal förekomster, fraktion av gener som innehåller motiv, och den algoritm som används för att identifiera motivet. För varje motiv, resultatet detaljer inkluderar en konsensus representation av motivet, en sekvens logotyp, en position vikt matris, och en lista med exempel för varje motiv förekomst (med exakta positioner och "strand" anges). Resultaten visas i ett webbläsarfönster och även eventuellt via e-post. Tidigare artiklar beskriva omfattningen algoritmer i detalj 1,2,9-11.
SCOPE ger forskare med ett kraftfullt verktyg som ska användas för identifiering av potentiella regelverk motiv i uppsättningar coordinately gener. Användaren behöver inte gissa storleken på motivet eller antalet förekomster av motivet som många andra motiv att hitta webbplatser kräver. Dessa parametrar är i stort sett okända tills motivet identifieras. Gränssnittet är mycket enkelt både för inmatning av sekvenser eller genen namn och för visning av utdata.
OMFATTNING utgång ger detaljerad information om alla de motiv som identifieras med hjälp av tre olika sätt att motiv representation. Varje instans av motiv i alla de gener är listad med position och "strand" information. Grafiskt resultat i form av motiv kartor ger en visuell display som är lätt att förstå och ger ett intuitivt sätt att se mönster i det motiv som är närvarande.
Omfattning är mycket robust för att förekomsten av buller i data. Vanligtvis sker denna form av extra gener att vara närvarande i startelvan uppsättning som inte kan faktiskt vara tillsammans regleras med resten av gener. Detta händer ofta när man startar med gener som är co-uttrycks i microarray experiment. Ibland experimentet är bullriga, eller det kan finnas flera transkriptionsfaktorer aktiveras i experimentella förhållanden används för microarray experiment. Dessa olika transkriptionsfaktorer kommer troligen att ha olika mål webbplatser på DNA. Även i närvaro av 4-faldig främmande gener (brus: signalen förhållandet är 4:1), finns utrymme har fortfarande 50% av dess riktighet i att förutsäga områden 1.
Även OMFATTNING innehåller över 2 miljoner synonymer för gen-namn, misslyckas det ibland för att identifiera vissa gener namn. Vi uppdaterar ständigt vår synonym listor, men ibland tycker att olika synonymer hänvisar till samma gen. I dessa fall inkluderar vi inte synonymer på grund av oklarhet. Om du har en gen namn som inte hittas av SCOPE, rekommenderas det att du refererar till arvsmassan specifik webbplats för att hitta ett alternativ gen som ska användas i omfattning. Exempel på lämpliga genen namn för varje art tillhandahålls av SCOPE.
OMFATTNING innehåller för närvarande 72 arter med nya arter tillkommer hela tiden. På webbplatsen finns Video Hjälp och Vanliga frågor. Källkoden är fritt tillgänglig för akademiskt användare genom att skriva till RHG.
The authors have nothing to disclose.
Denna forskning stöddes av ett bidrag till RHG från National Science Foundation, DBI-0.445.967.