Summary

Använda utrymme för att identifiera potentiella Regulatory motiv i Coregulated Gener

Published: May 31, 2011
doi:

Summary

En rättfram och robust metod för att identifiera potentiella regelverk motiv i samarbete gener presenteras. OMFATTNING kräver inte någon användare parametrar och returnerar motiv som representerar utmärkta kandidater för regulatoriska signaler. Identifieringen av sådana reglerande signaler hjälper till att förstå den underliggande biologin.

Abstract

SCOPE är en ensemble motiv hitta som använder tre komponenter algoritmer parallellt för att identifiera potentiella regelverk motiv med överrepresentation och motiv positionsinställningen 1. Varje komponent algoritm är optimerad för att hitta en annan typ av motiv. Genom att ta de bästa av dessa tre metoder, utför OMFATTNING bättre än någon enskild algoritm, även i närvaro av bullriga uppgifter 1. I denna artikel använder vi en webbversion av SCOPE 2 för att undersöka gener som är involverade i telomer underhåll. SCOPE har införlivats i minst två andra motiv att hitta program 3,4 och har använts i andra studier 5-8.

De tre algoritmer som utgör omfattning är BEAM 9, som finner icke-degenererade motiv (ACCGGT), PRISM 10, som finner urarta motiv (ASCGWT) och brickan 11, som finner längre tvåparts motiv (ACCnnnnnnnnGGT). Dessa tre algoritmer har optimerats för att hitta sin motsvarande typ av motiv. Tillsammans möjliggör de för möjligheter att utföra extremt bra.

När en gen som har analyserats och kandidat motiv identifierats kan OMFATTNING leta efter andra gener som innehåller motiv som, när de läggs till de ursprungliga, kommer att förbättra motivet poäng. Detta kan ske genom överrepresentation eller motiv positionsinställningen. Arbeta med partiell gen-apparater som biologiskt har verifierat transkriptionsfaktor bindningsställen, fanns utrymme kunna identifiera de flesta av resten av gener regleras också av den givna transkriptionsfaktor.

Utdata från OMFATTNING visar kandidat motiv, deras betydelse och annan information både som bord och som ett grafiskt motiv karta. Vanliga frågor och kurser i videoform finns på SCOPE webbplats som också innehåller en "Sample Sök" knappen som tillåter användaren att utföra en provkörning.

Scope har ett mycket användarvänligt gränssnitt som gör att nybörjare att få tillgång till algoritmen har full effekt utan att behöva bli en expert i bioinformatik av motiv att hitta. Som indata, kan OMFATTNING ta en lista över gener, eller sekvenser Fasta. Dessa kan föras in i fält webbläsare text eller läsa från en fil. Utgången från OMFATTNING innehåller en lista över alla identifierade motiv med sina poäng, antal förekomster, fraktion av gener som innehåller motiv, och den algoritm som används för att identifiera motivet. För varje motiv, resultatet detaljer inkluderar en konsensus representation av motivet, en sekvens logotyp, en position vikt matris, och en lista med exempel för varje motiv förekomst (med exakta positioner och "strand" anges). Resultaten visas i ett webbläsarfönster och även eventuellt via e-post. Tidigare artiklar beskriva omfattningen algoritmer i detalj 1,2,9-11.

Protocol

<p class="jove_title"> 1. Förbered en lista med namn för gener som du tror är co-reglerade för analys med SCOPE.</p><p class="jove_content"> Spara listan som en textfil eller kopiera den till urklipp för att klistra in SCOPE i steg 3. Filen ska innehålla en gen namn per rad utan ytterligare information. Alternativt kan du förbereda dig listan som en Fasta-fil som innehåller själva sekvenser som skall analyseras.</p><p class="jove_title"> 2. Starta webbläsaren och ansluta till URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Ange den information som SCOPE behöver för att utföra analysen.</p><p class="jove_content"> Den första SCOPE sidan visas i figur 1. Olika avsnitt behandlas i detta steg.</p><ol><li> Använd "Art" popup-meny för att välja de arter du kommer att undersöka. Det är viktigt att välja rätt arter eftersom SCOPE hänvisar till arvsmassan för att beräkna bakgrund förekomster för någon kandidat Motivet är att undersöka.</li><li> Använd 'uppströms sekvensen "radio-knapparna för att välja antingen intergenic eller fast längd. Intergenic kommer att analysera alla sekvensen mellan av genen som du tittar på och det tidigare (uppströms) gen. Detta innebär att olika uppströms längder kommer att användas för varje gen. Välja fast längd kommer att titta på exakt det antal nukleotider uppströms från början av den aktuella genen. I detta fall kommer SCOPE undersöka lika lång uppströms sekvens för varje gen, även om det sträcker sig in i tidigare genen (eller inte). Normalt är 800 nätter den bästa längden att välja, men detta kan variera med arter.</li><li> Nästa berätta OMFATTNING vad genen som att analysera antingen genom att klistra in i din gen lista i genen listan textrutan eller genom att trycka på "välj fil"-knappen för att välja den fil som innehåller en förteckning av gener som du skapade tidigare. Du kan alternativt klistra in i ett Fasta sekvens filen till samma textruta.</li><li> I nästa avsnitt på sidan finns en kryssruta för "undersöka genomet för andra gener som innehåller funnit motiv (s)?" Detta alternativ kan lägga mycket analys gången sedan OMFATTNING måste utvärdera alla andra gener i arvsmassan. Detta kan dock vara mycket användbara för att identifiera andra gener som är bra kandidater för att vara tillsammans regleras med gener i startelvan genen set. Eftersom OMFATTNING analyser är relativt snabb, föreslås det att du lämnar ut i din inledande analys. Det kan alltid vara påslagen från resultatsidan att köra analysen, som förklaras i avsnittet Resultat.</li><li> Den "Resultat måste innehålla avsnittet kan användas för att ange ett motiv som du vill ha utrymme att i sin analys. Du kanske vill göra detta om du letar efter ett specifikt motiv.</li><li> Det sista avsnittet på sidan kan användas för att ange din e-postadress och en kommentar som ska sparas med analysen. Om detta är ifyllt, kommer SCOPE skicka ett mail med en länk tillbaka till den webbsida som innehåller resultat och det kommer också att inkludera två bilagor. Den ena är en vanlig textfil som har alla analysresultaten i mänskliga läsbart format. Den andra bilagan innehåller en XML-fil som har alla resultat som SCOPE har hittats i en dator läsbart format. Om du vill göra några ytterligare analyser av resultaten, är den XML-fil är mycket användbart. Båda filerna är "zippade" innan de skickas med e-post.</li><li> För den här demonstrationen, kommer vi att starta med samma information. Detta kan lätt uppnås genom att trycka på "Exempel Sök" knappen som kommer att fylla i nödvändig information. Tryck på denna knapp nu. Tre gener kommer att föras för dig och lämpliga val som görs för andra områden. Lämna dessa eftersom de ställs in. De tre generna är involverade i telomer underhåll i<em> Saccharomyces cerevisiae</em>. Det ifyllda formuläret visas i Figur 2. Tryck på "Kör räckvidd" knappen längst ner på sidan för att påbörja analysen.</li></ol><p class="jove_title"> 4. Representativa resultat:</p><p class="jove_content"> De viktigaste resultaten av analysen visas i figur 3. Överst på sidan innehåller en tabell med information om de motiv som hittades av SCOPE. Den första kolumnen innehåller en lista med motiv som hittades och små färgade fyrkanter fungera som en legend för den grafiska motiv kartan nedan. Visningen av en viss motiv kan växlas på eller av genom att klicka i den färgade rutan (eller där den färgade rutan skulle vara). Detta kan vara mycket användbart att dölja visningen av högt upprepade motiv som kan göra det svårt att se de mindre utbredda motiv mönster.</p><p class="jove_content"> Andra kolumner med data Count (antalet förekomster av motiv i hela genen set), Sig värde (en indikation på betydelsen av att motivet), täckning (i procent av de inlämnade gener som innehåller minst en instans av som motiv), och algoritm (vilken av de tre komponenter algoritmer användes för att upptäcka motivet).</p><p class="jove_content"> Genom att klicka på någon av de uppräknade motiven tar användaren till en sida med detaljerad information för det motiv. Resultaten detaljer visas för cyan motiv (atgnnnnttg) i Figur 4. På den här sidan är motivet representerad på tre sätt: en sekvens logotyp, en position vikt matris, och en lista över alla motiv instanser med sina positioner, trådar och gener.</p><p class="jove_content"> Lite längre ner på sidan finns några ytterligare detaljer om resultaten för att leta efter andra gener som innehåller detta motiv. Som framgår i det här fallet fanns det 1344 andra gener som innehåller motiv, som alla faktiskt förbättrat Sig värde när de läggs till den ursprungliga genen set. Genom att trycka "Lägg kontrolleras gener för att söka" kommer att återvända till omfattningen installationssidan med dessa gener läggs till den ursprungliga genen set och de parametrar som som de var tidigare. I detta fall är 10 extra gener läggs till de ursprungliga tre.</p><p class="jove_content"> Figur 5 visar resultaten av analysen som innehåller extra gener för detta motiv. De ursprungliga tre gener finns på undersidan av resultaten (med gemener). Om man tittar på mönstret av motiv i uppströms regionen dessa extra gener visar tydligt att de är likartade. Faktum är att många av dessa gener involverade i telomer underhåll som var den ursprungliga tre gener. Observera också att den ursprungliga motivet är nu den högsta poäng motiv i denna uppsättning.</p><p class="jove_content"> En annan uppsättning SCOPE resultat visas i Figur 6. I det här fallet, den uppsättning av gener är de som är inblandade i ribosomen biogenes i Saccharomyces cerevisiae. Dessa gener är egentligen inte en del av ribosomen, men är ansvarig för montering ribosomer och innehåller ett antal ändringar enzymer. Vad som står klart i figuren är att de röda och gröna motiv utgör en tillförlitlig mönster som sannolikt kommer att vara inblandade i regleringen av gener i denna uppsättning. Vi undersöker detta mönster av "moduler" mer i detalj och kommer att rapportera om detta i en senare publikation.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong> Figur 1</strong>. Huvudsaklig räckvidd ingång sida. Denna sida används för att ange de gener som skall analyseras och fastställa arten och längden av uppströms område som ska undersökas. Alternativt kan användaren begära resultaten via e-post eller begränsa sökningen till angiven motiv. Video Hjälp finns också.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong> Figur 2</strong>. Huvudsaklig räckvidd ingång sida med värden fyllas i för att utföra en sökning. Dessa parametrar är resultatet av att trycka på "Exempel Sök"-knappen. I detta fall är kryssrutan för att hitta andra gener som innehåller motiv hittats av SCOPE kontrolleras. Det här alternativet tar längre tid att beräkna (varje gen i genomet måste granskas), men kan ge intressanta insikter.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong> Figur 3</strong>. Huvudsaklig räckvidd resultatsidan. Denna sida sammanfattar resultaten av omfattningen sökningen. En lista över alla höga poäng motiv tillhandahålls och en färgkodade motiv karta visar placeringen av de identifierade motiv i uppsättningen analyserade gener. Klicka på en färgad ruta bredvid ett motiv för att växla visningen av att motivet på eller av i motivet kartan. Förutom en betydelse poäng (Sig värde), den andel av gener som innehåller motiv (täckning), och den algoritm som används för att upptäcka att motivet finns också.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"> Figur 4</strong>. Detta resulterar detaljsida tas upp när ett visst motiv är klickade i de viktigaste resultaten sida. Det visar uppgifter om enskilda motiv. Sekvensen logotyp, ställning vikt matris, och det samförstånd sekvensen var och en representerar en annan typ av sammanställning av förteckningen över motivet fall även på sidan. Eftersom "att hitta extra gener" kontrollerades i den ursprungliga sökningen setup, det finns även information på denna sida om några andra gener i arvsmassan som innehåller detta motiv. Från denna sida är det också möjligt att starta en annan SCOPE köra inklusive extra gener identifierats på denna sida.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"> Figur 5</strong>. Denna siffra visar resultaten att leta efter extra gener för motivet "atgnnnnttg" visas i Figur 4. De ursprungliga tre gener är i gemener på botten av motivet kartan. De extra gener visas i versaler. Det finns ett tydligt mönster till motiv i tidigare delar av dessa gener. Observera också att den angivna motivet visar en algoritm som "LETAUPP" eftersom det är så det var identifierats. Den matchar faktiskt 5<sup> Th</sup> Motiv hittats av spacer i denna analys.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"> Figur 6</strong>. OMFATTNING utgång för gener involverade i ribosomen biogenes i Saccharomyces cerevisiae. Notera bevaras mönstret av moduler bestående av motiven "aaawtttbh" (röd) och "abctcatcd" (grön) separerade med cirka 10-30 nätter och närvarande vid 100-200 nukleotider uppströms transkription start för genen.</p>

Discussion

SCOPE ger forskare med ett kraftfullt verktyg som ska användas för identifiering av potentiella regelverk motiv i uppsättningar coordinately gener. Användaren behöver inte gissa storleken på motivet eller antalet förekomster av motivet som många andra motiv att hitta webbplatser kräver. Dessa parametrar är i stort sett okända tills motivet identifieras. Gränssnittet är mycket enkelt både för inmatning av sekvenser eller genen namn och för visning av utdata.

OMFATTNING utgång ger detaljerad information om alla de motiv som identifieras med hjälp av tre olika sätt att motiv representation. Varje instans av motiv i alla de gener är listad med position och "strand" information. Grafiskt resultat i form av motiv kartor ger en visuell display som är lätt att förstå och ger ett intuitivt sätt att se mönster i det motiv som är närvarande.

Omfattning är mycket robust för att förekomsten av buller i data. Vanligtvis sker denna form av extra gener att vara närvarande i startelvan uppsättning som inte kan faktiskt vara tillsammans regleras med resten av gener. Detta händer ofta när man startar med gener som är co-uttrycks i microarray experiment. Ibland experimentet är bullriga, eller det kan finnas flera transkriptionsfaktorer aktiveras i experimentella förhållanden används för microarray experiment. Dessa olika transkriptionsfaktorer kommer troligen att ha olika mål webbplatser på DNA. Även i närvaro av 4-faldig främmande gener (brus: signalen förhållandet är 4:1), finns utrymme har fortfarande 50% av dess riktighet i att förutsäga områden 1.

Även OMFATTNING innehåller över 2 miljoner synonymer för gen-namn, misslyckas det ibland för att identifiera vissa gener namn. Vi uppdaterar ständigt vår synonym listor, men ibland tycker att olika synonymer hänvisar till samma gen. I dessa fall inkluderar vi inte synonymer på grund av oklarhet. Om du har en gen namn som inte hittas av SCOPE, rekommenderas det att du refererar till arvsmassan specifik webbplats för att hitta ett alternativ gen som ska användas i omfattning. Exempel på lämpliga genen namn för varje art tillhandahålls av SCOPE.

OMFATTNING innehåller för närvarande 72 arter med nya arter tillkommer hela tiden. På webbplatsen finns Video Hjälp och Vanliga frågor. Källkoden är fritt tillgänglig för akademiskt användare genom att skriva till RHG.

Declarações

The authors have nothing to disclose.

Acknowledgements

Denna forskning stöddes av ett bidrag till RHG från National Science Foundation, DBI-0.445.967.

Referências

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).
check_url/pt/2703?article_type=t

Play Video

Citar este artigo
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video