Im Gegensatz zu DNA Reihenfolge Daten epigenomischen Daten nicht ohne weiteres Text-basierte Suche unterliegen. Hier sind die Verfahren, die eine verbesserte Version des GeNemo, eine Web-basierte Bioinformatik-Tool verwenden, um Muster-basierte Suche nach Gemeinsamkeiten im Vergleich zur Verfügung Online-Datenbanken, einschließlich der Enzyklopädie der DNA-Elemente mit epigenomischen-Daten durchzuführen Daten des Benutzers.
Im Vergleich mit den robusten textbasierte Suche Tools für genomische oder RNA Sequenzierung Daten, aktuelle Methoden für die Pattern-basierte Suche von epigenomischen und anderen funktionalen genomischen Daten sind sehr begrenzt. GeNemo ist das erste Online-such-Tool, das dieses Ziel erreicht. Benutzer geben ihre funktionale genomischen Daten im Browser erweiterbare Daten (Bett), Gipfeln und BigWig Formate und können Daten in einem der drei Formate suchen. Benutzer können angeben welche Datensätze zu durchsuchen, Auswahl aus einer Vielzahl von Online-Datasets mit der Enzyklopädie des DNA-Elemente (ENCODE) Vertreter der verschiedenen epigenomischen Marken, transcriptional Faktor Bindungsstellen und chromatin Überempfindlichkeiten oder Erreichbarkeiten in bestimmten Zelltypen und Entwicklungsstadien oder Tierarten (Maus oder Mensch). GeNemo gibt eine Liste der genomischen Regionen mit passenden Muster zu den Eingabedaten, die möglicherweise werden im Browser angezeigt als auch im Bett-Format heruntergeladen. Die aktualisierten GeNemo grafische Darstellung verbessert hat, hat mehr robuste Oberfläche und ist nicht mehr anfällig für Fehler aufgrund von Änderungen in der University of California, Santa Cruz (UCSC) Genom Browser. Schritte zur Problembehandlung für häufig auftretende Probleme werden diskutiert. Wie funktionelle Genomik Datenmenge exponentiell wächst, gibt es eine kritische Notwendigkeit zu entwickeln und zu verfeinern, neue bioinformatische Werkzeuge wie GeNemo für Datenanalyse und Interpretation.
Jüngsten technologischen Fortschritte haben erlaubt, für einen raschen Ausbau der epigenomischen oder funktionelle Genomdaten Depots, die die Entwicklung der relevanten Analysetools, biologische Erkenntnisse zu extrahieren überholt haben. Eine wichtige Methode zur Analyse epigenomischen Daten soll Suchdaten User generated gegen Daten-Depots und insbesondere aus der Enzyklopädie von DNA-Elemente (ENCODE)1 Projekte für übereinstimmende Muster, die zu neuen Erkenntnissen führen könnten. Zum Beispiel kann Ähnlichkeiten in den Mustern der beiden unterschiedlichen epigenomischen Markierungen an definierten Loci über das Genom identifizieren koordiniertes Handeln von verschiedenen molekularen Spielern auf Chromatin Konformation und transcriptional Regelung2 hinweisen ,3,4.
Herkömmlichen Text-basierte Suchmaschinen sind in dieser Hinsicht unwirksam, weil im Gegensatz zu DNA-Sequenz, epigenomischen Daten überwiegend im Format der Intensitäten oder funktionalen genomische Regionen vorhanden. GeNemo, stehend für Gene Nemo (wie findet Nemo), wurde entwickelt, um dieses ungedeckten Bedarfs mit Muster-basierte Suche5. Der Algorithmus nutzt eine Markov Chain Monte Carlo Maximierung Prozess5. Nutzer nehmen ihre eigenen Daten oder ein Dataset heruntergeladen von Depots und Suche eine Reihe von Online-epigenomischen Daten Ähnlichkeiten im Muster zu identifizieren.
Die aktuelle Version des GeNemo hat eine aktualisierte Display, Schnittstellen mit der University of California, Santa Cruz (UCSC) Genom Browser6, robuster und weniger anfällig für Probleme, verursacht durch Veränderungen in der zweiten. Insbesondere während GeNemos Ergebnisseite verwendet, um auf der Browseroberfläche UCSC Genom beruhen, die aktuelle Version des GeNemo unterstützt eine eigene Ergebnisseite und folglich wird nicht mehr beeinträchtigt durch strukturelle Veränderungen an den UCSC-Genom-Browser. GeNemo können alle genomischen Signal, einschließlich Proteinbindung Histon-Modifikation, Chromatin Zugänglichkeit, topologische Domänen und So weiter, als eine Abfrage zum Suchen von colocalized/ähnliche Segmente unter bekannten Datensätze aus großen Konsortien. Daher ist es ein wichtiges Instrument, um die Beziehung zwischen verschiedenen epigenomischen relevante Daten und bekannten im genomischen Großprojekten gewonnenen Daten zu studieren.
Ein gründliches Verständnis der das Epigenom ist erforderlich, um das volle Potenzial der Sequenzierung des menschlichen Genoms bei der Bereitstellung von neuen biologischen Erkenntnisse8zu erreichen. Derzeit gibt es nur Möglichkeiten, Online-epigenomischen-Datasets durch ihre Datenbeschreibung und Titel (z.B. Metadaten)1zu suchen. Dies schränkt die Art der Suche, was man mit epigenomischen Daten machen kann. Pattern-basierte such-Tools für epigenomischen Daten sind unerlässlich für Ausflüge in die Beziehung zwischen verschiedenen epigenomischen Marken, was zu neuen biologischen Erkenntnissen führen kann. GeNemo, die durch den Inhalt der Daten und keine Metadaten sucht, ist der erste seiner Art, Muster in epigenomischen Daten aus veröffentlichten Depots wie z. B. das ENCODE-Datenbank mit User generated zu vergleichen oder Dataset5heruntergeladen. Dies markiert den Beginn der Verfügbarkeit von einer epigenomischen-Suchwerkzeug, die ist leicht zugänglich für Forscher auf der ganzen Welt nur als Text-basierte Sequenz-such-Tool weit verbreitet in den 1990er Jahren wurde. Derzeit gibt es keine Alternativen für Pattern-basierte Online-such-Tools für epigenomischen Daten als GeNemo.
Ein Beispiel der Verwendung von GeNemo ist die Co erscheinenden Histon-Modifikationen und andere epigenetischen Markierungen mit dem transcriptional Faktor E2F6 in humanen embryonalen Stammzellen suchen (eine E2F6 Bindung Signal Beispieldatei ist erhältlich beim ENCODE Datenportal oder im https://sysbio.ucsd.edu/Public/xcao3/ENCODESample/ENCFF001UBC.Bed). Mithilfe dieser Datei als Abfrage gegen alle ENCODE-Datasets in H1-hESC suchen wird GeNemo zeigen, dass E2F6 Bindung Signal stark mit H3K4me1, H3K4me2, H3K4me3 und H3K27me3, die mit vorhandenen Forschung zeigt angereichert ist, dass E2F6 einige Gene über reguliert stimmt Methylierung von H3K279. Auf der anderen Seite, scheint es NS1 von E2F6 und CtBP2 verbindliche Aufstellungsorte, die bekannt ist für die Interaktion mit einem Faktor in der gleichen Familie, E2F710. Diese Ergebnisse für das gesamte Genom gegen eine große Anzahl von epigenetischen Markierungen, transcriptional Faktor Bindung Signale und andere Signale im ENCODE enthalten relativ leicht mit GeNemo, erhalten Sie die alle möglichen Ziele zur weiteren Analyse zur Verfügung stellen können.
Seit der ersten Veröffentlichung5 der GeNemo als eine Web-basierte epigenomischen-Daten-such-Tool wurde der Ergebnisteil der GeNemo aktualisiert, um einen passenden Auftritt mit GeNemos ersten Seite haben. Die alten Ergebnisteil eng der UCSC Genom Browser Ergebnisteil gespiegelt, und war weitgehend abhängig von der UCSC-Remoteserver für die Anzeige. Mit der neuen Schnittstelle ist GeNemo benutzerfreundlicher und nicht mehr abhängig von der UCSC-Genom-Server (obwohl Daten noch aus der Ferne abgerufen werden). Dies macht GeNemo robuster und weniger anfällig für Probleme aufgrund von Änderungen am Code auf dem Server der UCSC. Darüber hinaus gibt die neuen, schnelleren Polymer-Schnittstelle des GeNemo dem Benutzer mehr Werkzeuge zu visualisieren und zu analysieren, Muster in den Daten.
Wichtige Schritte umfassen Bereitstellung der entsprechenden input-Datei und wählen Sie Daten-Tracks zu durchsuchen. Benutzer werden ermutigt zum Experimentieren mit verschiedenen Track Auswahlfunktionen das Auswahlverfahren und wie verschiedene Befehle kennen können kombiniert werden, um das gewünschte Ergebnis zu erzielen. Beachten Sie insbesondere, dass die Funktion “Add” erforderlich ist, fügen Sie die gewünschten Tracks ausgewählt, um die Abfrage während “Filter” oder “Ausschließen” als Logik-Gate-Befehle verwendet werden können “Und” und “Bzw.”. Die Funktion “Aktualisieren” ist erforderlich, um die Auswahl zu beeinflussen, vor der Implementierung der Suchergebnis. Wenn keine Ergebnisse zurückgegeben werden, kann ein Benutzer überprüfen Sie die eingegebenen Daten-Datei, suchen mehr Spuren oder erhöhen den Suchbereich ein. Wenn ein Fehler vorliegt, wird ein Fenster definieren, was genau der Fehler auftauchen. Allerdings gibt es einige mehrdeutige Fehler. Beispielsweise wenn das Fenster sagt, dass “keine Datei hochgeladen wurde”, entweder keine Datei hochgeladen wurde, oder die hochgeladene Datei wurde nicht von einem akzeptablen Format und, folglich, das Programm konnte nicht richtig gelesen. Akzeptable Dateiformate für Datei-Upload sind Bett und Gipfeln Formatdatei für beide Uploadmethoden und BigWig für Online-Link Upload nur. Die gezippten Versionen dieser Datei-Formate sind ebenfalls zulässig.
Aktuelle Einschränkungen dieses Ansatzes umfassen noch optimierte Algorithmen und Funktionen in GeNemo beschäftigt. GeNemo kann nicht noch Anleitungen zur Auslegung der Datensätze zurückgegeben. Diese Aufgabe obliegt den Nutzern, erfordert erhebliche Kenntnisse und Erfahrungen in der Biologie des Genoms und Epigenom. Darüber hinaus ist ein weiteres Strombegrenzung, dass Benutzer nicht die Empfindlichkeit und Rauschen Ebene der Suchanfragen ändern können. Wir erwarten weiterhin zu verbessern und erweitern seine Muster Suche Fähigkeiten und Dataset-Sammlung in Zukunft GeNemo.
The authors have nothing to disclose.
Diese Arbeit wurde unterstützt von NIH gewährt, einschließlich DP1HD087990 von NICHD, R01HG008135 von NHGRI. Wir danken Mitglieder des Zhong Lab für wertvolles Feedback.
Autor Beiträge:
X.C. und A.T.Z. aktualisiert GeNemo durch Codierung neue Benutzeroberfläche und Funktionen; A.T.Z. produziert die hauseigene Beispielvideo; A.T.Z., X.C und S.Z. schrieb die Zeitung.