Contrairement aux données de séquençage d’ADN, épigénomique données facilement ne subissent pas de recherches basées sur du texte. Présentées ici sont les procédures à utiliser une version améliorée de Gilbert, un outil web-basé de bioinformatique, de mener des recherches axées sur le modèle des similarités dans épigénomique données comparant les bases de données en ligne disponibles y compris Encyclopedia of DNA Elements avec données de l’utilisateur.
Comparé avec les outils de recherche textuelle robustes pour génomique ou RNA séquençage des données, les méthodes actuelles pour les recherches axées sur le modèle d’épigénomique et autres données génomiques fonctionnelles sont très limitées. Gilbert est le premier outil de recherche en ligne qui permet d’atteindre cet objectif. Utilisateurs d’entrée leurs données de génomiques fonctionnelles dans le navigateur Extensible données (lit), pics et formats de bigWig et peuvent rechercher des données dans l’un des trois formats. Utilisateurs peuvent spécifier quels types d’ensembles de données pour la recherche contre, choisissant parmi une variété de jeux de données en ligne, avec l’Encyclopédie d’ADN éléments (encodage) représentant épigénomique différentes marques, les sites de fixation de facteur de transcription et la chromatine hypersensibilité ou accessibilités dans les types spécifiques de cellules et des stades ou des espèces (souris ou l’homme). Gilbert retourne une liste des régions génomiques assortis de motifs pour les données d’entrée, qui peuvent être affichées dans le navigateur mais aussi téléchargées au format lit. La mise à niveau Gilbert s’est améliorée à affichage graphique, dispose d’une interface plus robuste et n’est donc plus exposée aux erreurs dues aux changements dans l’Université de Californie, navigateur de génome de Santa Cruz (UCSC). Les auteurs discutent les étapes de dépannage pour les problèmes courants. Comme la quantité de données génomiques fonctionnelles se développe exponentiellement, il y a un besoin essentiel de développer et d’affiner les nouveaux outils bioinformatiques tels que Gilbert pour les analyses de données et l’interprétation.
Les progrès technologiques récents ont permis une extension rapide du épigénomique ou dépositaires de données génomiques fonctionnelles, qui ont dépassé l’élaboration d’outils d’analyse pertinents pour extraire les connaissances biologiques. Un moyen important d’analyser les données épigénomique est à la recherche de données généré par l’utilisateur contre les dépositaires de données et en particulier ceux de l’Encyclopédie des éléments de l’ADN (Encoder)1 projets pour faire correspondre des modèles qui pourraient conduire à de nouvelles connaissances. Par exemple, identifier les similitudes dans les patrons de deux marques différentes épigénomique locus définis au sein du génome peut indiquer une action coordonnée des différents acteurs moléculaires sur la conformation de la chromatine et régulation transcriptionnelle2 ,3,4.
Moteurs de recherche de texte classiques sont inefficaces à cet égard parce que, contrairement à la séquence d’ADN, épigénomique données existent principalement sous la forme des intensités ou régions génomiques fonctionnelles. Gilbert, debout pour le gène Nemo (comme dans le monde de Nemo), a été développé pour répondre à ce besoin non comblé à l’aide de recherches basées sur du modèle5. Son algorithme utilise un Markov Chain Monte Carlo de processus de maximisation5. Utilisateurs de tirer leurs propres données ou un dataset téléchargé de dépositaires et Rechercher un tableau de données en ligne épigénomique pour identifier les ressemblances dans les modes.
La version actuelle de Gilbert a un affichage mis à jour, interfaces plus robuste avec l’Université de Californie, Santa Cruz (UCSC) génome navigateur6et est moins sensible aux problèmes causés par des changements dans ce dernier. En particulier, tandis que la page de résultats de Gilbert permettant de se fonder sur l’interface du navigateur UCSC genome, la version actuelle de Gilbert prend en charge sa propre page de résultats et par conséquent est n’est plus affectée par les changements structurels au navigateur UCSC genome. Gilbert peut utiliser n’importe quel signal génomique, y compris-la liaison aux protéines, modification d’histone, accessibilité de la chromatine, domaines topologiques et ainsi de suite, comme une requête pour trouver les segments épididymaire/similaires parmi les ensembles de données connues de grands consortiums. Par conséquent, il est un outil important pour étudier la relation entre épigénomique différentes données d’intérêt et des données connues générées en projets en génomique à grande échelle.
Une compréhension approfondie de l’épigénome est nécessaire pour réaliser le plein potentiel du séquençage du génome humain en offrant de nouvelles perspectives biologique8. Actuellement, il y a seulement des méthodes de recherche en ligne épigénomique datasets par leur description des données et leur titre (p. ex., métadonnées)1. Cela limite fortement le type de recherche, on peut faire avec les données de l’épigénomique. Des outils de recherche axée sur le modèle de données épigénomique sont essentiels pour explorer la relation entre les marques épigénomique différents, ce qui peuvent conduire à nouvelles connaissances biologiques. Gilbert, qui recherche par le contenu des données et pas de métadonnées, est le premier service du genre à comparer des modèles épigénomique données publiées dépositaires tels que la base de données de coder avec un généré par l’utilisateur ou téléchargé dataset5. Cela marque le début de la disponibilité d’un outil de recherche épigénomique qui est largement accessible aux chercheurs partout dans le monde just comme outil de recherche textuelle séquence est devenu largement disponible dans les années 1990. Actuellement, il n’y a aucune solution de rechange pour outils de recherche en ligne axée sur le modèle pour épigénomique données autre que Gilbert.
Un exemple possible d’utiliser Gilbert est de rechercher les modifications d’histone co comparantes et autres marques épigénétiques avec le facteur de transcription E2F6 dans des cellules souches embryonnaires humaines (un fichier de signal de liaison exemple E2F6 est disponible sur le portail de données ENCODE ou au https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.Bed). En utilisant ce fichier en tant que requête de recherche contre tous les datasets ENCODE en H1-CSEh, Gilbert va montrer que E2F6 signal de liaison est fortement enrichie en H3K4me1, H3K4me2, H3K4me3 et H3K27me3, qui est d’accord avec les recherches montrant que E2F6 réglemente certains gènes via méthylation de H3K279. En revanche, il semble y être co-localisation des sites de liaison E2F6 et CtBP2, qui est connue pour interagir avec un facteur dans la même famille, de E2F710. Ces résultats pour le génome entier contre un grand nombre de marques épigénétiques, facteur de transcription liaison signaux et autres signaux inclus dans Encoder peuvent être assez facilement obtenus avec Gilbert, qui peut fournir toutes les cibles potentielles pour une analyse ultérieure.
Depuis la première publication5 de Gilbert comme un outil de recherche de données épigénomique basé sur le web, la section résultats de Gilbert has been updated to ont un aspect correspondant à la page de couverture de Gilbert. L’ancienne section résultats étroitement en sens inverse de la section des résultats UCSC genome browser et dépendait en grande partie sur le serveur distant de UCSC pour l’affichage. Avec la nouvelle interface, Gilbert est plus facile à utiliser et n’est plus dépendant sur le serveur de génome UCSC (même si les données sont récupérées toujours à distance). Cela rend Gilbert plus robustes et moins sensibles aux problèmes dus aux modifications de code au niveau du serveur UCSC. En outre, l’interface de polymère nouvelle et plus rapide de Gilbert donne à l’utilisateur plus d’outils pour visualiser et analyser les tendances dans les données.
Étapes critiques incluent fournissant le fichier d’entrée approprié et choisir les pistes de données à rechercher contre. Les utilisateurs sont vivement encouragés à expérimenter avec différentes fonctions de sélection de piste afin de vous familiariser avec le processus de sélection et comment les différentes commandes peuvent être combinées pour atteindre le résultat visé. En particulier, Notez que la fonction « Ajouter » est nécessaire pour ajouter des pistes désirées, sélectionnés à la requête, « Filtre » ou « Exclude » peut être utilisés comme des commandes de porte logique « AND » et « Ou », respectivement. La fonction « Update » est tenue d’affecter toutes les sélections avant d’implémenter la recherche. Lorsque aucun résultats ne sont retournés, un utilisateur peut vérifier le fichier de données d’entrée, plusieurs pistes de recherche ou augmenter la portée de la recherche. Chaque fois qu’il y a une erreur, il y aura une fenêtre surgissent de définir ce qu’est exactement l’erreur. Il y a quelques erreurs ambiguës, cependant. Par exemple, quand la fenêtre dit que « aucun fichier a été téléchargé », soit aucun fichier a été téléchargé, ou le fichier uploadé n’était pas un format acceptable et, par conséquent, le programme n’était pas capable de le lire correctement. Formats de fichiers acceptables pour l’upload de fichier comprennent lit et pics fichier de format pour les méthodes de téléchargement et gros bonnet pour le téléchargement de lien en ligne seulement. Les versions zippées de ces formats de fichier sont également acceptables.
Les limites actuelles de cette approche incluent les fonctions employées dans Gilbert et encore-à-être-optimisée des algorithmes. Gilbert ne peut fournir encore aucune indication sur l’interprétation de tout jeux de données retournées. Cette tâche agit les utilisateurs, ce qui nécessite des connaissances et l’expertise dans la biologie du génome et épigénome. En outre, une autre limitation de courant est que les utilisateurs ne peuvent pas modifier le niveau de sensibilité et le bruit des recherches. Nous nous attendons à continuer d’améliorer et d’élargir les Gilbert sur son modèle, la recherche de capacités et collecte de données à l’avenir.
The authors have nothing to disclose.
Ce travail a été soutenu par les NIH subventions y compris DP1HD087990 du NICHD, R01HG008135 du NHGRI. Nous remercions les membres du laboratoire Zhong pour vos précieux commentaires.
Contributions de l’auteur :
X.C. et A.T.Z. mis à jour Gilbert en codant la nouvelle interface et ses caractéristiques ; A.T.Z. produit la vidéo de l’échantillon interne ; A.T.Z., X.C et S.Z. a écrit le livre.