Pattern-based Search of Epigenomic Data Using GeNemo

Alvin Zheng; Xiaoyi Cao; Sheng Zhong

doi:10.3791/56136

JoVE Journal > Bioengineering

Please note that all translations are automatically generated. Click here for the English version.

Bioengineering

Recherche axée sur le modèle de données épigénomique Gilbert

Published: October 08, 2017

doi:

10.3791/56136

Alvin Zheng*¹, Xiaoyi Cao*¹, Sheng Zhong

¹Department of Bioengineering,University of California San Diego

Summary

Contrairement aux données de séquençage d’ADN, épigénomique données facilement ne subissent pas de recherches basées sur du texte. Présentées ici sont les procédures à utiliser une version améliorée de Gilbert, un outil web-basé de bioinformatique, de mener des recherches axées sur le modèle des similarités dans épigénomique données comparant les bases de données en ligne disponibles y compris Encyclopedia of DNA Elements avec données de l’utilisateur.

Abstract

Comparé avec les outils de recherche textuelle robustes pour génomique ou RNA séquençage des données, les méthodes actuelles pour les recherches axées sur le modèle d’épigénomique et autres données génomiques fonctionnelles sont très limitées. Gilbert est le premier outil de recherche en ligne qui permet d’atteindre cet objectif. Utilisateurs d’entrée leurs données de génomiques fonctionnelles dans le navigateur Extensible données (lit), pics et formats de bigWig et peuvent rechercher des données dans l’un des trois formats. Utilisateurs peuvent spécifier quels types d’ensembles de données pour la recherche contre, choisissant parmi une variété de jeux de données en ligne, avec l’Encyclopédie d’ADN éléments (encodage) représentant épigénomique différentes marques, les sites de fixation de facteur de transcription et la chromatine hypersensibilité ou accessibilités dans les types spécifiques de cellules et des stades ou des espèces (souris ou l’homme). Gilbert retourne une liste des régions génomiques assortis de motifs pour les données d’entrée, qui peuvent être affichées dans le navigateur mais aussi téléchargées au format lit. La mise à niveau Gilbert s’est améliorée à affichage graphique, dispose d’une interface plus robuste et n’est donc plus exposée aux erreurs dues aux changements dans l’Université de Californie, navigateur de génome de Santa Cruz (UCSC). Les auteurs discutent les étapes de dépannage pour les problèmes courants. Comme la quantité de données génomiques fonctionnelles se développe exponentiellement, il y a un besoin essentiel de développer et d’affiner les nouveaux outils bioinformatiques tels que Gilbert pour les analyses de données et l’interprétation.

Introduction

Les progrès technologiques récents ont permis une extension rapide du épigénomique ou dépositaires de données génomiques fonctionnelles, qui ont dépassé l’élaboration d’outils d’analyse pertinents pour extraire les connaissances biologiques. Un moyen important d’analyser les données épigénomique est à la recherche de données généré par l’utilisateur contre les dépositaires de données et en particulier ceux de l’Encyclopédie des éléments de l’ADN (Encoder)¹ projets pour faire correspondre des modèles qui pourraient conduire à de nouvelles connaissances. Par exemple, identifier les similitudes dans les patrons de deux marques différentes épigénomique locus définis au sein du génome peut indiquer une action coordonnée des différents acteurs moléculaires sur la conformation de la chromatine et régulation transcriptionnelle² ^,³^,⁴.

Moteurs de recherche de texte classiques sont inefficaces à cet égard parce que, contrairement à la séquence d’ADN, épigénomique données existent principalement sous la forme des intensités ou régions génomiques fonctionnelles. Gilbert, debout pour le gène Nemo (comme dans le monde de Nemo), a été développé pour répondre à ce besoin non comblé à l’aide de recherches basées sur du modèle⁵. Son algorithme utilise un Markov Chain Monte Carlo de processus de maximisation⁵. Utilisateurs de tirer leurs propres données ou un dataset téléchargé de dépositaires et Rechercher un tableau de données en ligne épigénomique pour identifier les ressemblances dans les modes.

La version actuelle de Gilbert a un affichage mis à jour, interfaces plus robuste avec l’Université de Californie, Santa Cruz (UCSC) génome navigateur⁶et est moins sensible aux problèmes causés par des changements dans ce dernier. En particulier, tandis que la page de résultats de Gilbert permettant de se fonder sur l’interface du navigateur UCSC genome, la version actuelle de Gilbert prend en charge sa propre page de résultats et par conséquent est n’est plus affectée par les changements structurels au navigateur UCSC genome. Gilbert peut utiliser n’importe quel signal génomique, y compris-la liaison aux protéines, modification d’histone, accessibilité de la chromatine, domaines topologiques et ainsi de suite, comme une requête pour trouver les segments épididymaire/similaires parmi les ensembles de données connues de grands consortiums. Par conséquent, il est un outil important pour étudier la relation entre épigénomique différentes données d’intérêt et des données connues générées en projets en génomique à grande échelle.

Protocol

Remarque : le protocole peut être suspendu n’importe où. 1. Configuration de base obtenir un lit, pics format ou BigWig 7 fichier contenant les données à être entrés dans le génome. Le fichier doit porter le nom d’extension " lit ", " broadpeaks " " narrowpeaks ", ou " bigWig " respectivement. Remarque : version zippée de ce type de fichiers fonctionne également. Utilise un navigateur internet pour aller à genemo.org. N’importe quel système d’exploitation capable d’exécuter les principaux navigateurs internet devrait être en mesure d’utiliser Gilbert. Choisir quelles espèces à la recherche contre l’utilisation du menu déroulant. Actuellement les espèces disponibles incluent humaines et à la souris. Upload fichier utilisateur à l’aide d’une url ou un téléchargement direct. BigWig fichiers fonctionnent uniquement avec la méthode de téléchargement url. LIT et pics format des fichiers de travail avec les deux méthodes (wiggle fichiers ne peuvent pas être téléchargées comme la plupart des données à partir de maintenant). 2. Le programme d’installation en option fournir une adresse de courriel dans la case correspondante afin de recevoir les résultats de recherche par courriel lorsque la recherche est faite. Remarque : lorsque vous recherchez une grande partie du génome et/ou contre un grand nombre de titres (voir ci-dessous), il est recommandé que l’utilisateur fournit l’accès à son courrier électronique, étant donné que la recherche peut prendre un certain temps. Par exemple, une recherche de 100 mégabases prend environ 15 s. Un lien vers les résultats de recherche sera envoyé à l’adresse électronique fournie lors de la recherche est terminée. Le lien expire dans 7 jours à l’issue d’une recherche. Fournir un fichier de bigwig ou le fichier d’affichage wiggle peut-être depuis une url. Ce fichier d’affichage n’affectera pas les résultats ; il ne sera montré aux côtés des résultats. Spécifier une plage de recherche (y compris les positions du chromosome et de paires de bases) dans la case correspondante. Listent le chromosome, paires de bases de début et fin de paires de bases. Utilisation ' RCRI ' pour le format de chromosome, où ' N ' est la lettre/nombre de chromosomes (1, 2, … X ou Y). Pour les paires de bases, il suffit de taper les numéros. Inclure des espaces entre les trois entrées, ou un deux-points ( :) entre le nombre de chromosomes et la paire de première base, et/ou un trait d’Union entre les deux paires de bases. Par exemple : chr1:1000000-2000000, chr1 chr1 chr1:1000000 de 1000000-2000000, 2000000, 2000000 de 1000000. Remarque : Les étapes 2.1 à 2.3 sont facultatifs. figure 1 : Gilbert ' s première page avec les domaines nécessaires remplis. Un utilisateur doit entrer l’espèce, la recherche de fichiers et la plage de recherche, puis sélectionnez les titres qu’il souhaite Rechercher contre. Adresse e-mail et afficher le fichier sont facultatifs. s’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. 3. sélection des données Figure 2 : fenêtre de sélection de piste. Cela est mis en place en cliquant sur le " sélection de données " bouton sur la page de couverture. Ici, les utilisateurs sélectionnent les titres pour rechercher le fichier d’entrée contre. Certains des morceaux sont déjà sélectionnées par défaut. s’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. Après avoir cliqué sur le bouton de sélection de données, choisir quels types de pistes à la recherche contre (par exemple, pour ajouter à la requête). La collection de piste comprend de nombreux différents ensembles de données des laboratoires dans le monde. Que la liste des pistes est assez longue, les utilisateurs peuvent vouloir utiliser le bouton de filtre (en haut) pour faciliter les sélections de la piste. Les titres peuvent être filtrés par l’expérience, de tissus, de lignée cellulaire et/ou de Lab. Il y a cinq boutons sur le fond permettant d’exécuter la sélection de plage : tout sélectionner, sélectionnez aucun, Add, filtre, exclure. Sélectionner tout " et " ne rien sélectionner " parlent d’elles-mêmes. Le " Add " bouton ajoute les titres actuellement sélectionnés à la requête. Il sert de la porte logique " ou ". Notez qu’en sélectionnant l’ou les filtres ci-dessus (p. ex., certaines expériences, des tissus, des lignées cellulaires ou des laboratoires) n’ajoute pas automatiquement les titres correspondants à la requête de recherche. Les utilisateurs doivent d’abord sélectionner les titres (par exemple, cerveau, foie sous le tissu) et puis cliquez sur le " Add " bouton pour les ajouter à la requête. Lors de la sélection des titres, Notez que seulement les filtres spécifiés dans l’onglet dans la fenêtre filtre s’appliquera à la requête de recherche. Sélections sur les autres onglets seront enregistrées dans la fenêtre de filtre, mais pas appliquées à la requête de recherche. Le " filtre " bouton conserve uniquement les types de pistes actuellement sélectionnés dans la fenêtre de filtre dans la requête et supprime tous les autres types de voies ferrées. Il sert de la porte logique " et ". Essentiellement, " filtre " permet la sélection de l’interaction entre deux catégories de titres (par exemple, certains tissus avec certains laboratoires). Notez que " filtre " n’ajoute pas les types de titres sélectionnés à la requête si elles ne sont pas déjà dans la requête. Le " Exclude " bouton supprime tous les types de pistes qui sont actuellement sélectionnés dans la fenêtre de filtre de la requête. Il sert de la porte logique " pas ", par opposition à la " filtre " fonction. Encore une fois, " exclure " n’ajoute aucune piste actuellement ne pas sélectionné dans la fenêtre de filtre à la requête. figure 3 : fenêtre de filtre . Cela est mis en place en cliquant sur le " filtre " bouton sur la fenêtre de sélection de piste. Ici, les utilisateurs peuvent sélectionner plusieurs pistes en même temps, avec une facilité relative. s’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. figure 4 : comment utiliser la fonction de filtre. s’il vous plaît cliquez ici pour visionner une version agrandie de cette figure. après avoir ajouté les pistes désirées à la requête, cliquez sur le " mise à jour " bouton en bas à droite. Ceci est nécessaire afin de tenir compte de deux façons de sélectionner des données : choisir les pistes de données individuelles ou filtrage/hors. Le " réinitialiser la vue " bouton permet de réinitialiser la requête à la voie par défaut associée à la régulation de l’expression génique dans les cellules souches embryonnaires humaines/souris. Remarque : Choisir les pistes à être recherchées contre " sélection de données " est facultative mais recommandée êtrecause les pistes de recherche par défaut sont très probables ne pas adapté à l’utilisateur ' besoins de s. 4. Recherche et résultats cliquez le " recherche " bouton après la sélection de données. La recherche peut prendre un certain temps. Une fois la recherche terminée, les utilisateurs verront les diverses boîtes dans la page de résultats. Chaque case représente une partie du génome où un utilisateur ' fichier de données de s est un modèle correspondant étroitement avec un ou plusieurs des pistes l’utilisateur a demandé. S’il n’y a aucun essai visible, boîtes la recherche plusieurs types de voies ferrées ou d’agrandir la plage de recherche avec le même fichier d’entrée. Un moyen facile de le faire sans refaire tout est en cliquant sur le " ☰ " bouton à côté du logo. Cela ouvrira un encadré qui permet à l’utilisateur de modifier la recherche. Les résultats peuvent être exportés sous forme de fichier lit en cliquant sur le " Télécharger le fichier lit " bouton sur le bas de la page de résultats. Cliquez sur le bouton visualiser dans le coin supérieur droit de chaque zone pour visualiser les résultats. Panneau dans la visualisation sur la droite, plusieurs choses sont affichés, y compris les données, qui inclut le fichier d’entrée de l’utilisateur, le fichier d’affichage si on était entré, correspondance des titres, et certains défaut de titres. D’après les résultats, l’utilisateur peut comparer des datasets ENCODE connues contre le dataset fourni pour complément d’enquête. L’utilisateur peut également faire référence aux gènes UCSC Voir le contexte des résultats de la requête. Si les titres de plusieurs lignes de cellules/tissus sont sélectionnés, l’utilisateur peut utiliser ces résultats pour nous éclairer sur la spécificité tissulaire des similitudes entre le dataset donné et les ENCODE datasets. Page sur les résultats, l’utilisateur peut déplacer sur toutes traces d’intégrer en amont ou en aval du génome ; lorsque le curseur de la souris est sur le point de coordonnées, l’utilisateur peut utiliser la roulette de la souris et/ou zoomer et dézoomer. figure 5 : page de résultats de. Cette recherche particulière a donné 363 régions correspondantes. Affichage de la première région correspondante peut être fait en cliquant sur le " Voir la " bouton en bas à gauche de chaque zone de la région qui en résulte. Sur la partie gauche de la fenêtre d’affichage, on peut considérer que les deux fichiers (voie d’entrée et sélectionné) sont similaires au modèle de force de signal. s’il vous plaît cliquez sur ici pour obtenir une version agrandie de cette figure.

Representative Results

Montré ici dans la Figure 5 est une recherche simulée. L’espèce humaine a été sélectionnée, et l’exemple de fichier correspondant a été utilisé comme fichier de données d’entrée. En outre, les titres par défaut, comme le montre la Figure 3, ont été sélectionnés. Il y avait un total de 363 appariement de régions, et la première région est indiquée dans la page d’affichage. On voit que le patron de l’intensité de 17036000 à 17038000 de base sur le chromosome 1 du fichier d’entrée et l’un des morceaux choisis est très similaire.

Discussion

Une compréhension approfondie de l’épigénome est nécessaire pour réaliser le plein potentiel du séquençage du génome humain en offrant de nouvelles perspectives biologique⁸. Actuellement, il y a seulement des méthodes de recherche en ligne épigénomique datasets par leur description des données et leur titre (p. ex., métadonnées)¹. Cela limite fortement le type de recherche, on peut faire avec les données de l’épigénomique. Des outils de recherche axée sur le modèle de données épigénomique sont essentiels pour explorer la relation entre les marques épigénomique différents, ce qui peuvent conduire à nouvelles connaissances biologiques. Gilbert, qui recherche par le contenu des données et pas de métadonnées, est le premier service du genre à comparer des modèles épigénomique données publiées dépositaires tels que la base de données de coder avec un généré par l’utilisateur ou téléchargé dataset⁵. Cela marque le début de la disponibilité d’un outil de recherche épigénomique qui est largement accessible aux chercheurs partout dans le monde just comme outil de recherche textuelle séquence est devenu largement disponible dans les années 1990. Actuellement, il n’y a aucune solution de rechange pour outils de recherche en ligne axée sur le modèle pour épigénomique données autre que Gilbert.

Un exemple possible d’utiliser Gilbert est de rechercher les modifications d’histone co comparantes et autres marques épigénétiques avec le facteur de transcription E2F6 dans des cellules souches embryonnaires humaines (un fichier de signal de liaison exemple E2F6 est disponible sur le portail de données ENCODE ou au https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.Bed). En utilisant ce fichier en tant que requête de recherche contre tous les datasets ENCODE en H1-CSEh, Gilbert va montrer que E2F6 signal de liaison est fortement enrichie en H3K4me1, H3K4me2, H3K4me3 et H3K27me3, qui est d’accord avec les recherches montrant que E2F6 réglemente certains gènes via méthylation de H3K27⁹. En revanche, il semble y être co-localisation des sites de liaison E2F6 et CtBP2, qui est connue pour interagir avec un facteur dans la même famille, de E2F7¹⁰. Ces résultats pour le génome entier contre un grand nombre de marques épigénétiques, facteur de transcription liaison signaux et autres signaux inclus dans Encoder peuvent être assez facilement obtenus avec Gilbert, qui peut fournir toutes les cibles potentielles pour une analyse ultérieure.

Depuis la première publication⁵ de Gilbert comme un outil de recherche de données épigénomique basé sur le web, la section résultats de Gilbert has been updated to ont un aspect correspondant à la page de couverture de Gilbert. L’ancienne section résultats étroitement en sens inverse de la section des résultats UCSC genome browser et dépendait en grande partie sur le serveur distant de UCSC pour l’affichage. Avec la nouvelle interface, Gilbert est plus facile à utiliser et n’est plus dépendant sur le serveur de génome UCSC (même si les données sont récupérées toujours à distance). Cela rend Gilbert plus robustes et moins sensibles aux problèmes dus aux modifications de code au niveau du serveur UCSC. En outre, l’interface de polymère nouvelle et plus rapide de Gilbert donne à l’utilisateur plus d’outils pour visualiser et analyser les tendances dans les données.

Étapes critiques incluent fournissant le fichier d’entrée approprié et choisir les pistes de données à rechercher contre. Les utilisateurs sont vivement encouragés à expérimenter avec différentes fonctions de sélection de piste afin de vous familiariser avec le processus de sélection et comment les différentes commandes peuvent être combinées pour atteindre le résultat visé. En particulier, Notez que la fonction « Ajouter » est nécessaire pour ajouter des pistes désirées, sélectionnés à la requête, « Filtre » ou « Exclude » peut être utilisés comme des commandes de porte logique « AND » et « Ou », respectivement. La fonction « Update » est tenue d’affecter toutes les sélections avant d’implémenter la recherche. Lorsque aucun résultats ne sont retournés, un utilisateur peut vérifier le fichier de données d’entrée, plusieurs pistes de recherche ou augmenter la portée de la recherche. Chaque fois qu’il y a une erreur, il y aura une fenêtre surgissent de définir ce qu’est exactement l’erreur. Il y a quelques erreurs ambiguës, cependant. Par exemple, quand la fenêtre dit que « aucun fichier a été téléchargé », soit aucun fichier a été téléchargé, ou le fichier uploadé n’était pas un format acceptable et, par conséquent, le programme n’était pas capable de le lire correctement. Formats de fichiers acceptables pour l’upload de fichier comprennent lit et pics fichier de format pour les méthodes de téléchargement et gros bonnet pour le téléchargement de lien en ligne seulement. Les versions zippées de ces formats de fichier sont également acceptables.

Les limites actuelles de cette approche incluent les fonctions employées dans Gilbert et encore-à-être-optimisée des algorithmes. Gilbert ne peut fournir encore aucune indication sur l’interprétation de tout jeux de données retournées. Cette tâche agit les utilisateurs, ce qui nécessite des connaissances et l’expertise dans la biologie du génome et épigénome. En outre, une autre limitation de courant est que les utilisateurs ne peuvent pas modifier le niveau de sensibilité et le bruit des recherches. Nous nous attendons à continuer d’améliorer et d’élargir les Gilbert sur son modèle, la recherche de capacités et collecte de données à l’avenir.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par les NIH subventions y compris DP1HD087990 du NICHD, R01HG008135 du NHGRI. Nous remercions les membres du laboratoire Zhong pour vos précieux commentaires.

Contributions de l’auteur :
X.C. et A.T.Z. mis à jour Gilbert en codant la nouvelle interface et ses caractéristiques ; A.T.Z. produit la vidéo de l’échantillon interne ; A.T.Z., X.C et S.Z. a écrit le livre.

Materials

GENEMO

https://www.genemo.org

Comparative Epigenome Browser

References

The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
Roh, T. -. Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

Recherche axée sur le modèle de données épigénomique Gilbert

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Recherche axée sur le modèle de données épigénomique Gilbert

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below