Summary
DNA シーケンス データとは異なり、エピゲノムのデータはテキスト ベースの検索に容易に服従しません。エピゲノム データと DNA 要素の百科事典を含む利用可能なオンラインのデータベースを比較することで類似のパターン ベースの検索を行う GeNemo、web ベースのバイオインフォマティクス ツールのアップグレードされたバージョンを使用する手順は、ここで紹介ユーザーのデータ。
Abstract
強力なテキスト ベースの検索ツールと比較ゲノムや RNA 配列データ、エピゲノムと他の機能ゲノムデータのパターン ベースの検索の現在の方法が非常に限られました。GeNemo は、この目標を達成する最初のオンライン検索ツールです。ユーザーは、ブラウザー拡張データ (ベッド)、ピーク、大物形式機能ゲノム データを入力し、3 つの形式のいずれかでデータを検索します。ユーザーが指定に対して、検索を実行するデータセットの種類を百科事典の DNA 要素 (エンコード) 異なるエピゲノム マーク、転写因子結合部位とクロマチンを表すさまざまなオンラインのデータセットから選択します。過敏症または特定の細胞型と発達段階や種 (マウスや人間) のアクセシビリティ。GeNemo は、ブラウザーで表示可能性があります、ベッド ファイル形式でダウンロードこともできる入力データにパターン マッチングによるゲノム領域の一覧を返します。アップグレードされた GeNemo グラフィカル表示を改善して、堅牢なインターフェイスを持つ、カリフォルニア大学サンタ ・ クルス (UCSC) のゲノムのブラウザーの変更によるエラーになりやすいのはや。一般的な問題のトラブルシューティング手順を説明します。機能ゲノム データ量は指数関数的に拡大し、開発し、データの解析と解釈の GeNemo など新しい bioinformatic ツールを改良する重要な必要性があります。
Introduction
最近の技術の進歩は、エピゲノムあるいはゲノム機能のデータ保管所を生物学的洞察力を抽出する関連する分析ツールの開発を上回っているの急速な拡大のため許可されています。エピゲノム データを分析する重要な方法の 1 つはデータ保管所と新しい知識につながるパターン マッチングのための百科事典の DNA 要素 (エンコード)1プロジェクトからの特にそれらに対してユーザーが生成したデータを検索します。例えば、ゲノム全体で定義された遺伝子座で 2 つの異なるエピゲノム印のパターンの類似性を識別する可能性があります異なる分子選手のクロマチン構造と転写制御2 協調的行動、3,4。
従来のテキスト ベースの検索エンジンは、効果的なこの点で、DNA シーケンスとは異なりエピゲノム データは主に強度や機能ゲノム領域の形式で存在します。遺伝子 nemo (), ファインディングニモのように立っている GeNemo は5パターン ベースの検索を使用してこのニーズに対処するため開発されました。そのアルゴリズムは、マルコフ連鎖モンテカルロ法の最大化プロセス5を利用しています。ユーザーが独自のデータを取るまたはデータセットを保管および検索オンライン エピゲノム データの配列パターンの類似性を識別するためにからダウンロードします。
GeNemo の現在のバージョンは、更新されたディスプレイ、カリフォルニア大学サンタクルス (UCSC) のゲノムのブラウザー6より確実でインターフェイスを持っているし、後者の変更によって生じる問題を受けにくい。特に、GeNemo の結果ページは UCSC のゲノムのブラウザー インターフェイスに基づいて使用、GeNemo の現在のバージョンは独自の検索結果ページをサポートし、したがってもはや悪影響を受ける UCSC のゲノムのブラウザーへの構造変化。GeNemo は、大規模なコンソーシアムから既知のデータ セットの中で,/類似したセグメントを検索するクエリとして蛋白結合、ヒストン修飾、クロマチン接近性、位相ドメイン、およびを含む任意のゲノムの信号を使用できます。したがって、それは目的の異なるエピゲノム データと大規模なゲノム プロジェクトで生成される既知のデータとの関係を研究する重要なツールです。
Protocol
注: どこでも一時停止できるプロトコル
。1 です。 基本的なセットアップ
- ピークを取得ベッド形式、またはゲノムに入力されるデータを含む大物 7 ファイル。ファイルには、拡張子 " ベッド "、" broadpeaks " " narrowpeaks "、または " の大物 " それぞれ
。 注: これらのタイプのファイルの圧縮バージョンも動作します 。
- は、genemo.org に行きインターネット ブラウザーを使用します。最も一般的なインターネットのブラウザーを実行できる任意のオペレーティング システムは、GeNemo を使用することができるはず 。
- の選択ドロップ ダウン メニューを使用して、検索する種。現在利用可能な種は人間を含むし、マウスします 。
- アップロード url または直接アップロードを使用してユーザー ファイル。大物は、url アップロード方法でのみ作業をファイルします。ベッドとピーク (今主なデータとしては小刻みに動くファイルをアップロードできません) 両方の方法でファイルの書式を設定します 。
2。オプションのセットアップ
- 対応するボックスに検索が完了したときにメールで検索結果を受け取るために電子メール アドレスを提供します
。 注: トラック (下記参照) の多数に対しておよび/またはゲノムの大部分を検索する場合は、検索は、長い時間をかかることがありますので、ユーザーが彼/彼女の電子メールを提供することをお勧めします。たとえば、100 megabase の検索は約 15 秒。検索結果へのリンクは、検索が完了したときに入力したメール アドレスに送信されます。検索の完了後 7 日以内にリンクが切れます 。
- 提供の大物ファイルまたは url から wiggle の表示ファイルがあります。このファイルを表示、結果は影響しませんそれだけ結果と一緒に表示されます 。
- 対応するボックス (染色体と塩基対の位置を含む) 検索範囲を指定します。
- 染色体を一覧表示、塩基対を開始および終了の塩基対 。
- 使用 ' chrN ' 染色体形式のどこ ' N ' は染色体数/手紙 (1、2、… X、または Y)。塩基対の数字で入力します 。
- はすべての 3 つのエントリの間にスペースを含めるまたは染色体数や一塁ペアは、2 つの塩基対の間のハイフンの間にコロン (:) が含まれます。例: chr1:1000000-2000000、chr1 1000000 2000000、chr1 1000000 2000000、chr1:1000000 2000000
。 注: 2.1 2.3 の手順は省略可能です 。
図 1 : GeNemo ' s フロント ページに記入が必要領域。ユーザーは入力種、検索ファイルと検索範囲に対する検索希望のトラックを選択する必要があります。メール アドレスとファイルを表示するオプションです この図の拡大版を表示するにはここをクリックしてください。
3 しますデータ選択
図 2 : トラックの選択] ウィンドウ。。これはクリックしてで育て、" データの選択 " フロント ページ上のボタン。ここでは、ユーザーは、入力ファイルに対して検索するトラックを選択します。トラックのいくつかは既にデフォルト選択されて この図の拡大版を表示するのにはここをクリックしてください
- データ選択ボタンをクリックした後 (つまり クエリに追加する) に対して検索するトラックの種類を選択します。トラック コレクションには、世界中のラボから多くの異なるデータセットが含まれています。
- トラックのリストは非常に長く、ユーザーがトラック選択を容易にする (上) [フィルター] ボタンを使用する必要があります。実験、組織、細胞、研究室によってトラックをフィルター可能性があります
- トラックの選択を実行する下に 5 つのボタンがあります: すべて選択、選択なし、追加、フィルター、除外します 。
- すべて選択 " と " を選択なし " 一目瞭然です 。
- 、" 追加 " ボタン現在選択されているトラックをクエリに追加します。論理ゲートとして " または "。(例えば、特定の実験、組織、細胞または研究所) 上のフィルターを選択する、追加せず、自動的に対応するトラックの検索クエリに注意してください。ユーザーする必要があります最初 (例えば 脳、肝臓組織の下で)、トラックを選択し、クリックして、" 追加 " それらをクエリに追加するボタン。トラックを選択すると、フィルター ウィンドウで開いたタブで指定されているフィルターのみが検索クエリに適用することに注意してください。他のタブの選択、フィルター ウィンドウで保存されたが検索クエリに適用されません 。
- 、" フィルター " ボタンの種類のクエリでフィルター] ウィンドウで現在選択されているトラックのみを保持し、他のすべてのタイプのトラックを削除します。それは論理ゲートとして機能 " と "。基本的には、" フィルター " (例えば、特定のラボと特定の組織) のトラックの 2 つのカテゴリ間の相互作用を選択できます。注意してください " フィルター " 既にクエリでない場合は、クエリに選択したタイプのトラックを追加されません 。
- 、" 除外 " ボタンは、クエリからフィルター ウィンドウで現在選択されているトラックのすべてのタイプを削除します。それは論理ゲートとして機能 " いない "、反対に、" フィルター " 機能。もう一度、" を除外 " クエリにフィルター ウィンドウで現在選択されていないすべてのトラックは追加されません 。
図 3 : フィルター ウィンドウ.これはクリックしてで育て、" フィルター " トラック選択ウィンドウのボタン。ここでは、ユーザーが相対的な容易さと同時に多くのトラックを選択できます この図の拡大版を表示するのにはここをクリックしてください
図 4 : filter 関数を使用する方法。 この図の拡大版を表示するのにはここをクリックしてください
- 目的のトラックをクエリに追加すると後をクリックして、" Update " 右下のボタン。これは、データを選択する 2 つの方法に対応するために必要です: 個々 のデータ トラックを選択またはフィルタ リング/を除く。" ビューをリセット " ボタン人間/マウス胚性幹細胞での遺伝子発現制御に関連する初期設定のトラックにクエリをリセットします
。 注: を介してに対して検索するトラックの選択 " データの選択 " はオプションですが推奨されます。デフォルト検索トラックが最も可能性の高いユーザーに適していない ' s ニーズ 。
4。検索結果と結果
- をクリックして、" 検索 " データ選択後ボタン。検索は、いくつかの時間をかかることがあります 。
- 検索が完了すると、結果ページでさまざまなボックスが表示されます。各ボックスは、ユーザーが、ゲノムのセクションを表します ' s データ ファイルが 1 つ以上のユーザーが照会トラックに密接に一致したパターン。
- ボックス表示しようとトラックのより多くの種類を検索したり、検索範囲を同じ入力ファイルと大きくはない場合。すべてをやり直すことがなくこれを行う簡単な方法をクリックすると、" ☰ "、ロゴの横にあるボタン。これは、検索を変更することができますサイドバーを開くがします 。
- をクリックしてベッド ファイルとして結果をエクスポートできます、" ベッド ファイルのダウンロード " の結果ページの下部にあるボタン.
- 上に表示ボタンをクリックして結果を表示する各ボックスの右。
表示ファイルのトラックに一致する、1 つが入力された場合、ユーザー入力ファイルが組み込まれていますデータを含む
- で、可視化パネル右、複数のものが表示されます、いくつかの既定の追跡されます。結果からユーザーはさらなる調査のため提供されているデータセットに対して知られているエンコード データセットを比較可能性があります。ユーザーは、クエリ結果のコンテキストを表示する UCSC 遺伝子を指す場合も。複数セルの行/組織からトラックを選択すると、ユーザーは与えられたデータセットおよびエンコード データセット間の類似の組織特異性についての洞察を得るためにこのような結果を使用可能性があります 。
- の結果] ページで、ユーザーを下流または上流に移動する任意のトラックにドラッグすること; ゲノムの座標上にマウス ポインター ユーザーがマウス ホイールを使用しておよび/またはズームインおよびズームアウトします 。
図 5 : 結果ページ。この特定の検索には、363 の対応領域が返されます。最初の一致する領域を表示するをクリックして行うことができます、" ショー " 結果の地域欄の左下のボタン。表示ウィンドウの左部分に見られる 2 つのデータ ファイル (入力と選択したトラック) が信号強度パターンで似たような をクリックしてくださいこの図の拡大版を表示するのにはここで
Representative Results
シミュレートされた検索は、図 5に示します。人間の種が選択されていると、対応するサンプル ファイルは、入力データ ファイルとして使用されました。さらに、図 3に見られるように、初期設定のトラックが選択されました。合計 363 地域をマッチングされ、最初の領域は、表示ページに表示されます。それは、光強度パターンは、入力ファイルの第 1 染色体 17036000 に 17038000 をベースし、選択したトラックの 1 つは非常に似ている見ることができます。
Discussion
エピゲノムの徹底的な理解は、新しい生物学的洞察力8を提供する人間のゲノムの完全な可能性を達成するために必要です。現在データの説明とタイトル (すなわちメタデータ)1オンライン エピゲノム データセットを検索する唯一の方法があります。これは深刻なエピゲノム データで行うことができます 1 つの検索の種類を制限します。エピゲノム データに対してパターン ベースの検索ツールは、新しい生物学的洞察につながる可能性があります別のエピゲノムのマークの間の関係を探検に不可欠です。GeNemo は、データとメタデータではなくの内容による検索、ユーザー生成とデータベースのエンコードなど公開された保管所からエピゲノム データ内のパターンを比較するには、その種の最初のサービスは、またはデータセット5をダウンロードします。これはシーケンスのテキスト ・ ベースの検索ツールが 1990 年代に広く利用可能になっただけで世界中の研究者に広くアクセス可能なエピゲノムの検索ツールの可用性の始まりです。現在、GeNemo 以外のエピゲノム データに対するパターン ベースのオンライン検索ツールの選択肢はありません。
GeNemo を使用しての 1 つの潜在的な例はヒト胚性幹細胞 (例 E2F6 バインド信号ファイルは、またはエンコード データ ポータルで利用可能に共同出現のヒストン修飾とその他エピゲノム転写因子 E2F6 を検索するにはhttps://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed)。H1 hESC のすべてのエンコードのデータセットに対して検索を実行するクエリとしてこのファイルを使用して、GeNemo は、E2F6 バインディング信号が H3K4me1、H3K4me2、H3K4me3、H3K27me3 は、E2F6 がを介していくつかの遺伝子を調節することを示す既存の研究と一致すると濃縮されて大きく表示されます。H3K279のメチル化。その一方で、同じ家族、E2F710の要因と対話するために知られている E2F6 と CtBP2 の結合部位の共存に注目が表示されます。エピゲノム、転写因子結合信号その他の信号のエンコードに含まれている数が多いと全体のゲノムのこれらの結果は、さらなる分析のためのすべての潜在的なターゲットを提供できる GeNemo と比較的簡単に取得できます。
文書の最初の5 GeNemo エピゲノムの web ベース データ検索ツールとして、以来 GeNemo の結果セクション GeNemo のフロント ページと一致する外観にアップデートされました。古い結果セクションは密接に UCSC のゲノム ブラウザーの [結果] セクションをミラー化され、ディスプレイ用のリモート UCSC サーバーに大きく依存していた。新しいインターフェイスと GeNemo がより使いやすく、UCSC のゲノム サーバーにもはや依存 (にもかかわらず、データがリモートでフェッチされるまだ)。これは、ように GeNemo より堅牢コードの変更に起因する問題に敏感で UCSC サーバー。さらに、GeNemo の新しい高速ポリマー界面が視覚化し、データ内のパターンを分析するツールをユーザーに与えます。
重要な手順には、適切な入力ファイルを提供して、データに対して検索するトラックの選択が含まれます。ユーザーは、様々 な実験に強く推奨選択プロセスとどのように異なるコマンドに精通するトラックの選択機能は意図されていた結果を達成するために組み合わせることができます。特に、「Add」関数が"フィルター"または「除外」ロジック ゲート コマンドとして使用できますが、クエリに選択した目的のトラック追加する必要があるに注意してください"AND"と"OR"、それぞれ。「更新」機能は、検索を実装する前にすべての選択に影響を与える必要があります。結果は返されません、ユーザー可能性があります入力データ ファイルを確認してくださいより多くのトラックを検索または検索範囲を増加させます。エラーがあるときに、まさにエラーを定義ポップアップ ウィンドウになります。ただし、いくつかのあいまいなエラーがあります。たとえば、こと 'ファイルはアップロードされませんでした」という、かファイルはアップロードされませんでした、またはアップロードされたファイルが受け付け可能な形式のなかったし、したがって、プログラムはそれを正しく読み取ることでした。ファイルのアップロードのための適切なファイル形式では、アップロードする方法、両方のベッドとピークの形式ファイル オンライン リンク アップロードだけの大物をご利用など。これらのファイル形式の圧縮バージョンも問いません。
このアプローチの現在の制限には、まだ最適化アルゴリズムと GeNemo で採用されている機能が含まれます。GeNemo はまだ返される任意のデータセットの解釈に任意のガイダンスを提供できません。このタスクは、ユーザーまで多大な知識とゲノム、エピゲノムの生物学の専門知識が必要です。さらに、別の現在の制限は、ユーザーが検索の感度とノイズ レベルを変更できないです。向上・検索機能とデータセットのコレクションを将来的にそのパターンに GeNemo を拡大し、続ける予定です。
Disclosures
著者は開示する競合金融興味を持ってないです。
Acknowledgments
この作品は、NIH によって支えられた補助金含め NICHD、NHGRI から R01HG008135 から DP1HD087990。貴重なフィードバックの仲研究室のメンバーに感謝いたします。
著者の貢献:
X.C. と A.T.Z. は、新しいインターフェイスと機能のコーディングによって GeNemo を更新A.T.Z. 制作社内サンプル動画;A.T.Z.、X.C と S.Z. は、紙を書いた。
Materials
Name | Company | Catalog Number | Comments |
GENEMO | https://www.genemo.org | Comparative Epigenome Browser |
References
- The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
- Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
- Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
- Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
- Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
- Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
- Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
- Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
- Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
- Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).