Summary

Usando SCOPE para identificar potenciais Motivos regulamentação em Genes Coregulated

Published: May 31, 2011
doi:

Summary

Um método simples e direta e robusta para identificar potenciais motivos regulamentares em co-regulados genes é apresentado. SCOPE não requer quaisquer parâmetros de usuário e retorna motivos que representam excelentes candidatos para sinais de regulamentação. A identificação de tais sinais regulamentares ajuda a compreender a biologia subjacente.

Abstract

SCOPE é um finder motivo ensemble que utiliza três algoritmos de componentes em paralelo para identificar potenciais motivos de regulamentação por sobre-representação e de preferência motivo a posição 1. Cada componente é otimizado algoritmo para encontrar um tipo diferente de motivo. Ao tomar o melhor destes três abordagens, SCOPE desempenho melhor do que qualquer algoritmo único, mesmo na presença de dados ruidosos 1. Neste artigo, vamos utilizar uma versão web do SCOPE 2 a examinar genes que estão envolvidos na manutenção dos telômeros. SCOPE foi incorporado pelo menos dois outro motivo encontrar programas 3,4 e tem sido usada em outros estudos 5-8.

Os três algoritmos que compõem SCOPE são BEAM 9, que não encontra motivos degenerada (ACCGGT), PRISM 10, que encontra motivos degenerada (ASCGWT), e SPACER 11, que encontra motivos mais bipartido (ACCnnnnnnnnGGT). Estes três algoritmos foram otimizados para encontrar o seu tipo correspondente do motivo. Juntos, eles permitem SCOPE para executar muito bem.

Uma vez que um conjunto de genes tem sido analisado e motivos candidato identificado, SCOPE pode olhar para outros genes que contêm o motivo que, quando adicionado ao conjunto original, irá melhorar a pontuação motivo. Isso pode ocorrer através de uma sobre-representação ou de preferência de posicionamento motivo. Trabalhando com conjuntos de gene parcial que biologicamente verificada sites de fator de transcrição de ligação, SCOPE foi capaz de identificar a maioria do resto dos genes também regulado pelo fator de transcrição dado.

Saída do SCOPE mostra motivos candidato, o seu significado, e outras informações tanto como uma mesa e como um mapa motivo gráfica. FAQs e tutoriais em vídeo estão disponíveis no site da SCOPE que também inclui um "Sample Search" botão que permite ao usuário realizar um ensaio.

Âmbito tem uma interface muito amigável que permite que usuários novatos para acessar potência total do algoritmo sem ter que se tornar um especialista no tema da bioinformática achado. Como entrada, SCOPE pode levar uma lista de genes ou seqüências FASTA. Estes podem ser inseridos em campos de texto browser, ou ler de um arquivo. A saída do SCOPE contém uma lista de todos os motivos identificados com sua pontuação, número de ocorrências, a fração de genes contendo o motivo, eo algoritmo usado para identificar o motivo. Para cada tema, os detalhes resultado inclui uma representação de consenso do motivo, um logotipo seqüência, a matriz de pesos posição, e uma lista de instâncias para cada ocorrência motif (com posições exatas e "vertente" indicado). Resultados são retornados em uma janela do navegador e também opcionalmente por e-mail. Trabalhos anteriores descrevem os algoritmos SCOPE em detalhe 1,2,9-11.

Protocol

<p class="jove_title"> 1. Prepare uma lista de nomes de genes que você acredita que são co-regulados para análise por SCOPE.</p><p class="jove_content"> Salvar a lista como um arquivo de texto ou copiá-lo para a área de transferência para colar em SCOPE no passo 3. O arquivo deve conter um nome de gene por linha com nenhuma informação adicional. Alternativamente, você pode preparar a lista como um arquivo FASTA contendo as seqüências de reais a serem analisadas.</p><p class="jove_title"> 2. Inicie o navegador web e se conectar à URL:<a href="http://genie.dartmouth.edu/SCOPE/"> Http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. Digite as informações que precisa SCOPE para realizar a análise.</p><p class="jove_content"> A página inicial é SCOPE mostrado na Figura 1. Diferentes seções são abordados nesta etapa.</p><ol><li> Use o menu 'Espécies' pop-up para escolher as espécies que serão examinando. É importante escolher a espécie correta porque SCOPE refere-se ao genoma para calcular as freqüências de fundo de ocorrência por qualquer motivo candidato que está examinando.</li><li> Use o 'upstream seqüência de botões "de rádio para escolher intergênica ou comprimento fixo. Intergênico irá analisar toda a sequência do gene entre você está olhando eo gene (upstream) anterior. Isto significa que diferentes comprimentos a montante será utilizado para cada gene. Escolhendo comprimento fixo vai olhar exatamente esse número de nucleotídeos upstream a partir do início do gene atual. Neste caso, SCOPE examinará o mesmo comprimento de seqüência de montante para cada gene, mesmo que isso se estende para o gene anterior (ou não). Tipicamente, a 800 nts é o melhor período para escolher, mas isso pode variar com a espécie.</li><li> Em seguida dizer que SCOPE gene conjunto para analisar ou colando na sua lista de gene na caixa de texto gene lista, ou pressionando o botão o arquivo 'escolha' para selecionar o arquivo contendo a lista de genes que você criou anteriormente. Você pode, alternativamente, colar em um arquivo de seqüência FASTA na caixa de texto mesmo.</li><li> A próxima seção da página contém uma caixa de seleção "Examine genoma de outros genes que contêm motivo encontrado (s)? ' Esta opção pode aumentar o tempo de análise considerável desde SCOPE tem que avaliar todos os outros genes no genoma. No entanto, isto pode ser muito útil na identificação de outros genes que são bons candidatos para serem co-regulado com os genes no conjunto gênico de partida. Desde análises SCOPE são relativamente rápidos, é sugerido que você deixe esta fora em sua análise inicial. Ele sempre pode ser ligado a partir da página de resultados para executar novamente a análise, como explicado na seção de resultados.</li><li> O "Resultados deve incluir secção pode ser usado para introduzir um tema que você quer escopo para incluir na sua análise. Você pode querer fazer isso se você estiver procurando por um motivo específico.</li><li> A última seção da página pode ser utilizada para introduzir o seu endereço de e-mail e um comentário para ser salvo com a análise. Se este for preenchido, SCOPE irá enviar um email com um link para a página web que contém os resultados, e que também irá incluir dois anexos. Um deles é um arquivo de texto que tem todos os resultados da análise em formato legível humano. O segundo anexo contém um arquivo XML que tem todo o resultado que SCOPE encontrou em um formato legível em computador. Se você quiser fazer algumas análises adicionais sobre os resultados, o arquivo XML é muito útil. Ambos os arquivos são "zipado" antes de ser enviado com o e-mail.</li><li> Para este demo, vamos começar com a mesma informação. Isso pode ser facilmente alcançado, pressionando o "Sample Search 'botão que irá preencher as informações necessárias. Pressione este botão agora. Três genes serão inseridos para você e escolhas apropriadas feito para os outros campos. Deixe-os como eles são definidos. Os três genes estão envolvidos na manutenção dos telômeros em<em> Saccharomyces cerevisiae</em>. O formulário preenchido é mostrado na Figura 2. Pressione o botão 'Run ÂMBITO "na parte inferior da página para iniciar a análise.</li></ol><p class="jove_title"> 4. Resultados representativos:</p><p class="jove_content"> Os principais resultados da análise são mostrados na Figura 3. A parte superior da página contém uma tabela de informações sobre os motivos que foram encontrados por SCOPE. A primeira coluna contém uma lista de motivos que foram encontrados e pequenos quadrados coloridos servir de legenda para o mapa motivo gráfico mostrado abaixo. A exibição de qualquer motivo dado pode ser ativado ou desativado, clicando na caixa de cor (ou onde a caixa colorida seria). Isto pode ser muito útil para ocultar a exibição de motivos altamente repetidas que podem dificultar a ver os padrões motivo menos prevalentes.</p><p class="jove_content"> Outras colunas de dados são Count (o número de ocorrências desse tema no conjunto de gene inteiro), Sig valor (uma indicação da importância desse tema), Cobertura (a percentagem de genes submetidos que contenham pelo menos uma instância de que motivo), e Algoritmo (qual dos três algoritmos componente foi usado para detectar o motivo).</p><p class="jove_content"> Clicando em qualquer um dos motivos listados levará o usuário para uma página contendo informações detalhadas sobre esse tema. Os resultados são mostrados detalhes para o motivo ciano (atgnnnnttg) na Figura 4. Nesta página, o motivo é representado de três formas: um logotipo seqüência, a matriz de pesos posição, e uma lista de todas as instâncias motivo com suas posições, vertentes e genes.</p><p class="jove_content"> Um pouco mais abaixo na página estão alguns detalhes adicionais sobre os resultados da procura de outros genes que contém este motivo. Como pode ser visto, neste caso, havia 1.344 genes, contendo o motivo, que realmente melhorou o valor Sig, quando adicionado ao conjunto gene original. Clicando no botão "Adicionar genes marcados para pesquisar" irá retornar para a página de configuração do SCOPE com esses genes adicionados ao conjunto gene original e os parâmetros definidos como eram anteriormente. Neste caso, 10 genes extras são adicionados aos três original.</p><p class="jove_content"> Figura 5 mostra os resultados da análise contendo os genes extra para este motivo. O original de três genes estão na parte inferior dos resultados (em minúsculas). Observando o padrão de motivos na região a montante destes genes extras mostra claramente que eles são semelhantes. Na verdade, muitos desses genes estão envolvidos na manutenção dos telômeros como eram os originais três genes. Note também que o motivo original é agora o motivo maior pontuação neste conjunto.</p><p class="jove_content"> Set Outro dos resultados SCOPE é mostrado na Figura 6. Neste caso, o conjunto de genes são aqueles que estão envolvidos na biogênese do ribossomo em Saccharomyces cerevisiae. Estes genes não são realmente parte do ribossomo, mas são responsáveis ​​pela montagem dos ribossomos e incluir um número de enzimas de modificação. O que fica claro na figura é que os motivos vermelho e verde formam um padrão confiável, que é susceptível de ser envolvidos na regulação dos genes neste conjunto. Estamos investigando esse padrão de "módulos" com mais detalhes e apresentará um relatório sobre ele em uma publicação posterior.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong> Figura 1</strong>. Página de entrada principal SCOPE. Esta página é utilizada para introduzir os genes a serem analisados ​​e para definir as espécies eo comprimento da região a montante a ser examinado. Opcionalmente, o usuário pode solicitar os resultados por e-mail ou restringir a pesquisa a qualquer motivo especificado. Ajuda de vídeo também está disponível.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong> Figura 2</strong>. Página de entrada principal SCOPE com valores preenchidos para a realização de uma pesquisa. Estes parâmetros são o resultado de pressionar o botão "Busca da amostra '. Neste caso, a caixa de seleção para encontrar outros genes contendo os motivos encontrados pelo SCOPE está marcada. Esta opção leva mais tempo para calcular (a cada gene no genoma deve ser examinado), mas podem fornecer insights interessantes.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong> Figura 3</strong>. Principais ÂMBITO página de resultados. Esta página resume os resultados da pesquisa SCOPE. A lista de todos os motivos de pontuação alta é fornecido e um mapa de cores motivo codificados mostra o posicionamento dos temas identificados no conjunto de genes analisados. Clicando em uma caixa colorida ao lado de um motivo irá alternar a exibição desse tema ligado ou desligado no mapa motivo. Além de uma pontuação de significância (valor Sig), a fração de genes contendo o motivo (cobertura), eo algoritmo usado para encontrar esse tema também são fornecidos.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"> Figura 4</strong>. Esta página de detalhes de resultados é criado quando um motivo específico é clicado na página de resultados principal. Ela mostra detalhes do motivo individual. O logotipo da seqüência, a matriz de peso posição, ea seqüência consenso cada um representa um tipo diferente de resumo da lista de instâncias motivo também na página. Uma vez que "encontrar genes extra 'foi verificada na configuração pesquisa original, há também informações sobre esta página sobre quaisquer outros genes no genoma que contêm esse motivo. A partir desta página também é possível iniciar outra corrida SCOPE incluindo os genes extras identificados nesta página.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"> Figura 5</strong>. Esta figura mostra os resultados da procura de genes extras para 'atgnnnnttg' o motivo mostrado na Figura 4. O original de três genes estão em letras minúsculas na parte inferior do mapa motivo. Os genes adicionais são mostrados em maiúsculas. Há um padrão claro para os motivos nas regiões a montante destes genes. Observe também que o motivo especificado mostra um algoritmo como "PROC" porque é assim que foi identificado. Que realmente corresponde à 5<sup> Th</supMotif> encontrado por SPACER nesta análise.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"> Figura 6</strong>. Saída para SCOPE genes envolvidos na biogênese do ribossomo em Saccharomyces cerevisiae. Observe o padrão de conservação de módulos que consiste em 'aaawtttbh' os motivos (vermelho) e 'abctcatcd "(verde), separados por cerca de 10-30 nts e presente em 100-200 nucleotídeos a montante do início da transcrição do gene.</p>

Discussion

ÂMBITO fornece ao pesquisador uma poderosa ferramenta a ser usada para a identificação de potenciais motivos regulamentares em conjuntos de genes coordenadamente regulado. O usuário não é obrigado a adivinhar o tamanho do motivo ou o número de ocorrências do motivo como motivo encontrar muitos outros sites exigem. Estes parâmetros são basicamente desconhecido até que o motivo é identificado. A interface é muito simples, tanto para entrar ou seqüências de gene nomes, e para ver a saída.

ÂMBITO saída fornece informações detalhadas sobre todos os temas que são identificados, usando três diferentes formas de representação motivo. Cada instância do motivo em todos os genes é listado com a posição e "fio" de informação. Resultados gráficos na forma de mapas motivo fornecer uma exibição visual que é fácil de compreender e fornece uma maneira intuitiva de ver padrões nos motivos que estão presentes.

SCOPE é muito robusto para a presença de ruído nos dados. Normalmente, este assume a forma de genes extras estar presente no conjunto de partida que não pode realmente ser co-regulado com o resto dos genes. Isto acontece muitas vezes quando se inicia com os genes que são co-expressas em experimentos de microarray. Às vezes, a experiência é barulhento, ou pode haver vários fatores de transcrição ativados em condições experimentais utilizadas para o experimento de microarray. Estes fatores de transcrição diferentes, provavelmente têm sites diferentes do alvo no DNA. Mesmo na presença de 4 vezes genes estranhos (ruído: relação sinal é 4:1), o escopo é ainda mantém 50% de sua precisão em predizer locais 1.

Embora SCOPE contém mais de 2 milhões sinônimos para nomes de gene, que às vezes não consegue identificar alguns nomes de genes. Nós estamos constantemente atualizando nossas listas de sinônimo, mas às vezes acham que sinônimos diferentes referem-se ao mesmo gene. Nesses casos, nós não incluímos os sinônimos por causa da ambigüidade. se você tiver um nome de gene que não é encontrado por escopo, é recomendado que você consulte o site do genoma específica para encontrar um nome de gene alternativa para uso em SCOPE. Exemplos de nomes de gene apropriado para cada espécie são fornecidas pelo SCOPE.

SCOPE atualmente contém 72 espécies com espécies novas que estão sendo adicionados o tempo todo. O site contém vídeo ajuda, assim como FAQs. Código-fonte está disponível gratuitamente para usuários acadêmicos, escrevendo para RHG.

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Esta pesquisa foi suportada por uma concessão para RHG da National Science Foundation, DBI-0445967.

Riferimenti

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Citazione di questo articolo
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video