Ao contrário dos dados de sequência de DNA, epigenomic dados não são prontamente submetidos a pesquisas baseadas em texto. Aqui apresentados são os procedimentos para usar uma versão atualizada do GeNemo, uma ferramenta de Bioinformática baseado na web, para realizar pesquisas baseada em padrões para semelhanças em epigenomic dados comparando bancos de dados disponíveis on-line incluindo livre de elementos de DNA com dados do usuário.
Comparado com as ferramentas de busca robusto baseado em texto para genômica ou RNA dados de sequenciamento, metodologias atuais para pesquisas baseada em padrões de epigenomic e outros dados de genômicos funcionais são muito limitadas. GeNemo é a primeira ferramenta de busca on-line que realiza esse objetivo. Usuários seus dados de genômicos funcionais no navegador de dados extensível (cama), picos e graúdos formatos de entrada e podem pesquisar dados em qualquer um dos três formatos. Os usuários podem especificar quais tipos de conjuntos de dados para pesquisar contra, escolhendo entre uma variedade de conjuntos de dados on-line, com o livre de DNA elementos (ENCODE) representando epigenomic diferentes marcas, locais obrigatórios do fator transcricional e cromatina hypersensitivities ou acessibilidades em tipos de células específicas e estádios de desenvolvimento ou espécie (mouse ou humanos). GeNemo retorna uma lista de regiões genômicas com correspondência de padrões para os dados de entrada, que podem ser visualizados no navegador, bem como baixados no formato de arquivo de cama. O GeNemo atualizado melhorou a exibição gráfica, tem interface mais robusto e não é mais propenso a erros devido a mudanças na Universidade da Califórnia, navegador do genoma de Santa Cruz (UCSC). Etapas de solução de problemas para problemas comuns são discutidas. Como a quantidade de dados de genômicas funcionais está expandindo exponencialmente, há uma necessidade crítica para desenvolver e aperfeiçoar as novas ferramentas de bioinformatic como GeNemo para análises de dados e interpretação.
Avanços tecnológicos recentes permitiram uma expansão rápida de epigenomic ou depositários de dados genômica funcional, que já ultrapassou o desenvolvimento de ferramentas analíticas relevantes para extrair ideias biológicas. Um aspecto importante para analisar os dados de epigenomic é a busca de dados gerados por usuários contra depositários de dados e especialmente os da livre de elementos de DNA (ENCODE)1 projetos para correspondência de padrões que podem levar a novos conhecimentos. Por exemplo, identificar semelhanças nos padrões de duas marcas diferentes epigenomic em loci definidos através do genoma pode indicar uma acção coordenada pelos diferentes jogadores moleculares na conformação da cromatina e Regulamento transcriptional2 ,3,4.
Os motores de busca convencionais baseados em texto são ineficazes neste sentido porque, ao contrário da sequência de DNA, existem predominantemente epigenomic dados no formato de intensidades ou regiões de genômicas funcionais. GeNemo, em pé por Gene Nemo (como em Procurando Nemo), foi desenvolvido para atender a essa necessidade não atendida usando pesquisas baseadas no padrão5. Seu algoritmo utiliza um Markov Chain Monte Carlo maximização processo5. Usuários levar seus próprios dados ou um conjunto de dados baixados depositários e busca uma matriz de dados on-line epigenomic para identificar semelhanças em padrões.
A versão atual do GeNemo tem um display atualizado, interfaces de forma mais enérgica com a Universidade da Califórnia, Santa Cruz (UCSC) genoma navegador6e é menos suscetível a problemas causados por alterações no último. Em particular, enquanto a página de resultados do GeNemo usado para basear-se na interface de navegador UCSC genome, a versão atual do GeNemo suporta sua própria página de resultados e, consequentemente, é já não afectada por mudanças estruturais para o navegador do genoma UCSC. GeNemo pode usar qualquer sinal de genômica, incluindo proteína ligadora, modificação de histona, acessibilidade de cromatina, domínios topológicos e assim por diante, como uma consulta para encontrar segmentos colocalized/semelhante entre conjuntos de dados conhecidos de grandes consórcios. Portanto, é uma ferramenta importante para estudar a relação entre dados de diferentes epigenomic de interesse e dados conhecidos gerados em projetos de grande escala genômica.
Uma compreensão completa da Epigenoma é necessário para alcançar o pleno potencial de sequenciamento do genoma humano em fornecer novos conhecimentos biológicos8. Atualmente, há apenas maneiras de Pesquisar por sua descrição de dados e o título (ou seja, metadados)1, conjuntos de dados on-line epigenomic. Isto limita severamente os tipos de pesquisa que se pode fazer com epigenomic dados. Ferramentas de busca baseada em padrões para epigenomic dados são essenciais para explorar a relação entre epigenomic de diferentes marcas, que podem levar a novos insights biológicos. GeNemo, que busca pelo conteúdo dos dados e metadados não, é o primeiro serviço deste tipo de comparação de padrões de dados epigenomic de depositários publicados, tais como o banco de dados do ENCODE com um gerado pelo usuário ou baixado dataset5. Isto marca o início da disponibilidade de uma ferramenta de pesquisa de epigenomic que é amplamente acessível aos pesquisadores ao redor do mundo apenas como ferramenta de pesquisa de sequência baseada em texto tornou-se amplamente disponível na década de 1990. Atualmente, não existem alternativas para ferramentas de busca on-line baseada em padrões para epigenomic dados que não sejam GeNemo.
Um exemplo de potencial de uso GeNemo é para pesquisar as modificações do histone co aparecendo e outras marcas epigenéticas com o fator transcricional E2F6 em células-tronco embrionárias humanas (ficheiro de exemplo E2F6 do sinal de ligação está disponível no portal de dados ENCODE ou no https://sysbio.UCSD.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Usando este arquivo como consulta para pesquisar em todos os datasets ENCODE em H1-hESC, GeNemo irá mostrar que o sinal de ligação E2F6 fortemente é enriquecido com H3K4me1, H3K4me2, H3K4me3 e H3K27me3, que concorda com estudos existentes, mostrando que a E2F6 regula alguns genes através metilação de H3K279. Por outro lado, parece ser o colocalization de sítios de ligação E2F6 e CtBP2, que é conhecido por interagir com um fator da mesma família, E2F710. Estes resultados para o genoma inteiro contra um grande número de marcas epigenéticas, sinais de ligação do fator transcricional e outros sinais incluídos no ENCODE podem ser facilmente obtidos com GeNemo, que pode fornecer todos os potenciais alvos para posterior análise.
Desde a primeira publicação5 de GeNemo como uma ferramenta de busca de dados baseado na web epigenomic, a seção de resultados de GeNemo foi atualizada para ter uma aparência correspondente com a primeira página do GeNemo. A antiga seção de resultados estreitamente espelhado seção resultados UCSC navegador do genoma e foi largamente dependente do servidor remoto UCSC para exibição. Com a nova interface, GeNemo é o mais user-friendly e já não depende do servidor de genoma UCSC (apesar de dados ainda são buscados remotamente). Isso faz GeNemo mais robusto e menos suscetível a problemas devido a alterações de código no servidor UCSC. Além disso, a interface de novo, mais rápido polímero de GeNemo dá ao usuário mais ferramentas para visualizar e analisar padrões nos dados.
Passos críticos incluem fornecendo o arquivo de entrada apropriado e selecionando trilhas de dados para pesquisar contra. Os usuários são fortemente encorajados a experimentar com várias funções de seleção de faixa para se familiarizar com o processo de seleção e como diferentes comandos podem ser combinadas para alcançar o resultado pretendido. Em particular, observe que a função “Adicionar” é necessário para adicionar faixas desejadas selecionadas para a consulta, enquanto o “Filtro” ou “Excluir” pode ser usado como comandos de portão de lógica “E” e “Ou”, respectivamente. A função de “Atualização” é necessário para afetar todas as seleções antes de implementar a pesquisa. Quando há resultados são retornados, um usuário pode verificar o arquivo de dados de entrada, mais faixas de busca ou aumentar o intervalo de pesquisa. Sempre que há um erro, haverá uma janela aparecendo definindo o que é exatamente o erro. Há alguns erros ambíguos, embora. Por exemplo, quando a janela diz que ‘nenhum arquivo foi carregado’, ou nenhum arquivo foi carregado, ou o arquivo carregado não era de um formato aceitável e, por conseguinte, o programa não foi capaz de lê-lo corretamente. Formatos de arquivo aceitável para upload de arquivo incluem cama e picos de arquivo de formato para ambos os métodos de carregamento e graúdos para upload link online apenas. As versões zipadas desses formatos de arquivo também são aceitáveis.
Limitações atuais desta abordagem incluem o ainda-para-ser-otimizada algoritmos e funções empregadas em GeNemo. GeNemo ainda não pode fornecer qualquer orientação sobre a interpretação de quaisquer conjuntos de dados retornados. Esta tarefa cabe aos usuários, que requer considerável conhecimento e experiência na biologia do genoma e Epigenoma. Além disso, outra limitação atual é que os usuários não podem alterar o nível de ruído e sensibilidade das buscas. Esperamos continuar a melhorar e expandir a GeNemo em seu padrão de busca recursos e coleção de dataset no futuro.
The authors have nothing to disclose.
Este trabalho foi financiado pelo NIH concede incluindo DP1HD087990 de FORMULADORES, R01HG008135 de tempo. Agradecemos a membros do laboratório Zhong para feedback valioso.
Contribuições do autor:
X.C. e A.T.Z. atualizado GeNemo codificando a nova interface e recursos; A.T.Z. produziu o vídeo de amostra in-house; A.T.Z., x. c e S.Z. escreveram o jornal.