Proteogenomic ツールの紹介ポゴと高速、量的なポスト翻訳の修正、変形のためのプロトコルの参照ゲノム上に質量分析法によってペプチド マッピングを有効にします。このツールは統合、proteogenomic や個人的なプロテオーム研究直交ゲノム解析データとのインタ フェースを表示するために使用します。
遺伝子、成績証明書、そして蛋白質間のクロストークは細胞応答への鍵したがって、別々 のエンティティとしての分子レベルの解析細胞内の分子のダイナミクスの理解を高めるための統合研究にゆっくりと拡張されています。可視化と他のオミックス データセットとプロテオミクスの統合のための現在のツールは大規模な研究に適しています。さらに、彼らはのみ基本的なシーケンスをキャプチャ、翻訳後修飾と定量を破棄することを識別します。これらの問題に対処する関連の翻訳後修飾とゲノムの注釈を参照する定量化ペプチドをマップする PoGo を開発しました。さらに、ツールは、単一のアミノ酸の亜種を組み込むカスタマイズされたシーケンス データベースからペプチドのマッピングを有効に開発されました。PoGo はコマンド ライン ツールが、グラフィカルなインターフェイス PoGoGUI により Ensembl ゲノムの注釈によってサポートされている 25 種にペプチドを簡単にマップする非バイオインフォマティクス研究者。生成された出力は、ゲノミクス フィールドからファイル形式を借りて、したがって、可視化、ゲノムのほとんどのブラウザーでサポートします。大規模な研究は、PoGo はまた proteogenomics のデータを簡単に共有を有効にするゲノムにマップされたデータの web アクセス可能なリポジトリを作成する TrackHubGenerator によってサポートされます。少しの努力でこのツールは、数百万の他の使用可能なシーケンス id ベースのツールを上回るだけ、数分以内のゲノムを参照するペプチドをマップできます。このプロトコルは、公開データセットの定量的プロテオミクスと大規模な研究とポゴ proteogenomics マッピングの最善の方法を示します。
細胞、ゲノム、トランスクリプトーム、プロテオームの内部および外的な刺激への応答を調節して、相互に連携して健康と病気につながる特定の機能を実行するには互いに影響します。したがって、特性と遺伝子、成績証明書、および蛋白質の定量化は重要な細胞プロセスを完全に理解するためにあります。次世代シーケンス (NGS) は、遺伝子と転写発現を定量化すること最もよく適用される戦略の 1 つです。ただし、蛋白質の表現が質量分析法 (MS) による評価は一般的。最後のディケイド MS 技術の飛躍的な発展は、プロテオーム、トランスクリプトーム1と対等なデータを作るのより完全な同定及び定量化になりました。Proteogenomics とマルチ-オミックス NGS と MS のデータを統合する方法としては癌のサブタイプを識別して新規創薬のターゲット癌2につながる複数の分子レベルの細胞プロセスを評価する包括的なアプローチになっています。,3。 その proteogenomics は遺伝子転写の注釈4プロテオームの証拠を提供する使用された最初に注意することが重要です。以前非コーディングすると思ったいくつかの遺伝子は最近大規模な人体組織データセット5,6,7を考慮した再評価を受けています。さらに、プロテオーム データは、正常に非モデル生物8,9の注釈の努力をサポートする使用されます。ただし、proteogenomic データ統合ゲノム機能に関連してハイライト タンパク質発現に更に悪用される可能性し、結合された参照システムおよび方法を提供することにより成績証明書と蛋白質間のクロストークを明らか共同可視化。
ゲノム座標10、11,12 に MS をマッピング ペプチドのトランスクリプトミクス、プロテオミクス、ゲノミクス データの共通のリファレンスを提供するために多数のツールが実装されて、13,14,15,16,17。アプローチは、マッピング参照、ゲノムのブラウザー、および図 1に示すように、他のプロテオミクスのツールとの統合の度合いのサポートなどの面で異なります。ゲノム16に逆翻訳されたペプチドをマップするいくつかのツールに、間他はペプチド15の塩基配列を再構築するのに蛋白質および遺伝子アノテーション内検索エンジン注釈の位置を使用します。まだ他は11,13に対するペプチドをマップするのにゲノムの 3 または 6 フレーム翻訳を使用します。最後に、いくつかのツールは塩基配列をスキップし、ペプチドに関連するゲノム座標10,12、マップする中間物としてアミノ酸シーケンス翻訳 RNA シーケンス マップ転写産物を使用 14,17。しかし、塩基配列の翻訳は時間のかかるプロセス、カスタム データベース ペプチド マッピングに伝達されるエラーになりやすいです。高速かつ高スループットのマッピング、小規模かつ包括的な参照は重要です。したがって、関連付けられているゲノム座標と標準化された蛋白質の参照はゲノム マッピングする正確なペプチドの不可欠です。新側面 proteogenomics、変形およびポスト翻訳の修正 (Ptm)2,3、定款などで近年の研究の気運が高まっています。ただし、これら一般にサポートされていませんマッピング ツールを図 1に示すように、現在の proteogenomic によって。マッピングのスピードおよび品質を向上させるため、ポゴを開発したゲノム18にペプチドの高速かつ定量的なマッピングを可能にするツール。また、ポゴ最大 2 つのシーケンスのバリエーションと注釈付き翻訳後修飾ペプチドのマッピングを有効にします。
ポゴは、プロテオームとグローバル変更を取り込む高解像度の定量的のデータセットの急激な増加に対処するために開発された、個人の多様性と精密医療といった大規模な分析中央ユーティリティを提供しています。この資料では、ゲノムの機能に関連して翻訳後修飾の存在を可視化するこのツールのアプリケーションについて説明します。さらに、代替接続イベント マップされたペプチドの同定とカスタム バリアントの参照ゲノム データベースによるペプチドのマッピングについて説明します。このプロトコルでは、PoGo のこれらの機能を示す誇りアーカイブ19からダウンロード公開されているデータセットを採用しています。さらに、このプロトコルでは、TrackHubGenerator の大規模な proteogenomics 研究のためのゲノムにマップされているペプチドのオンライン アクセス可能なハブを作成するためのアプリケーションについて説明します。
このプロトコルは、ソフトウェア ツール ポゴとそのグラフィカル ユーザー インターフェイス PoGoGUI のゲノム座標上にペプチドの高速マッピングを有効に方法について説明します。ツールでは、定量的、翻訳後修飾など参照アノテーションを使用してゲノムへのマッピングのバリアントが有効なユニークな機能を提供しています。この記事は、大規模な proteogenomic 研究のメソッドを示し、18その他の利用可能なツールと比較して、速度やメモリ使用効率を強調します。ゲノムのオンライン アクセス可能なハブを作成するツール TrackHubGenerator と組み合わせてとゲノム データ リンク、ポゴ、そのグラフィカル ユーザー インターフェイスにより大規模な proteogenomics 研究ゲノムのコンテキストでそのデータを表示します。さらに、データセットに対してバリアント データベースおよび定量的プロテオミクス22,29検索ポゴのユニークな特徴を示します。
GCT ファイルなど、1 つのファイルは、貴重な可視化とペプチド機能とゲノムの遺伝子間のリンクを提供します。ただし、単独でこれらに基づく解釈は困難または一意性、ポスト翻訳の修正、定量的な値など proteogenomics の単一の面に彼らの制限のため誤解を招くかもしれないことに注意する重要です。したがって、出力ファイル、オプションとの組み合わせは、手で proteogenomic の質問対応、組み合わせを変更を慎重に選択することが重要です。たとえば、異なるサンプル間で定量化に関する研究に適してかもしれない間、ゲノム機能7の注釈の偉大な値の特定の genomic 位置へのマッピングの一意性についての情報があります。タンパク質豊富な29の変化するゲノム機能。各設定の PoGo で出力を生成する必要があります。出力は生成されず、または空のファイルは出力フォルダーに示すように、場合に、目的のコンテンツと必要なファイル形式の入力ファイルをチェックすることをお勧めします。ファイルの形式や内容が PoGo の期待が従わない場合 (例えば、おそらくトラン スクリプト変換シーケンスを含んでいる FASTA ファイル、転写産物の塩基配列を含む) のエラー メッセージはユーザーを要求します。入力ファイルを確認します。
プロトコルおよびツールの制限はほとんどゲノム解析で一般的に使用されるファイル形式の再利用に基づいています。Proteogenomic 用ゲノム解析で使用されるファイル形式を転用、特定の制限を伴います。これは、ゲノムの中心のゲノムの可視化のための要件の異なるセット、翻訳後修飾プロテオミクス データを可視化する必要があるなどの proteogenomic データ。これはゲノミクスのファイル形式で単一機能の使用状況によって制限されます。多くの手法とツールは、自信を持って翻訳後修飾ペプチド シーケンス31,32,33,34内をローカライズするプロテオミクスの開発されています。しかし、ゲノム上のユニーク識別可能な方法で複数の変更の可視化は、ゲノムのファイルフォーマットの構造によって妨げられています。したがって、同じ型の複数の Ptm の単一のブロック可視化修飾部位のあいまいさはありませんが一度にのみ単一機能を視覚化するゲノミクス コミュニティから異なる要件の結果。それにもかかわらず、ポゴ翻訳後修飾に及ぼす単一のヌクレオチドの亜種などのゲノムの機能に焦点を当てた研究を可能にするゲノム座標にマッピング ポスト翻訳の修正の利点があります。ポゴを使用して、バリアント マップ全マッピングの数が増えます。ただし、マップされたペプチドのユニークな色と、信頼性の低いものから信頼性の高いマッピングが強調表示されます。知られている単一のヌクレオチドの亜種からバリアント型ペプチドのマッピングは、VCF 形式で亜種と一緒にマップされたペプチドを可視化を伴うことが。この方法でバリアント ペプチドの信頼性の低いマッピングを示すカラーコードは知られている塩基配列のバリアントの存在によって却下します。
ポゴを使用するための重要なステップは、正しいファイルとフォーマットの使用です。GTF 形式でアノテーションを同行するタンパク質として翻訳された写しシーケンスの使用は、主な条件です。ポゴを使用してアミノ酸の不一致のペプチドをマップするを検討する際のもう一つの重要な要素は、メモリです。一方メモリ効率の標準的なアプリケーション、1 つまたは 2 つの不一致で可能なマッピングの大幅と指数関数的に増加数はメモリ使用量18の同様に急激な増加に します。段階的なマッピングを提案する最初の不一致なしペプチドをマップし、それらをセットから削除するには、このプロトコルで説明されているようです。以降以前割り当てられていないペプチドすることができますを使用してマップ 1 つの不一致とペプチド マップされていない残りの 2 つの不一致と、手順を繰り返すことができます。
質量分析のスループットが大幅に改善インターフェイス ゲノム研究とプロテオーム データ近年より頻繁になっているので、容易にこれらの種類の同じ座標系でデータのやり取りを可能にするツールがますます欠かせない。ここで紹介するツールは、ゲノムを結合する必要性と理解を促進するより良い統合研究の小規模および大規模なデータセットにまたがる参照アノテーションにペプチド マッピングによるプロテオーム データに役立ちます。幸いに、ポゴはひと精巣35に発現する新規遺伝子のアノテーション作業をサポートする参照アノテーションと同じ形式で提供される遺伝子候補者にペプチドをマップに適用されています。ここで紹介した方法はペプチッド識別に使用するデータベースに依存しません。プロトコルが識別するために役立つことがあると RNA シーケンス実験から GTF ファイルを関連付けられている小説の翻訳を使用して、製品の可視化翻訳シーケンスからの入力ファイルを適応しました。
いくつかのアプローチとペプチドをガイド RNA シーケンス マッピングするゲノム シーケンスに直接ペプチドをマップに至るゲノム座標にマップする特殊なアプリケーション シナリオの広い範囲でツールは導入された10、をされています。11,12,13,14,15,16,17します。 ただし、これらのポスト翻訳の修正があるとペプチド レベルに RNA 配列読み取りの基になるマッピングでエラーを反映可能性がありますときにペプチドを正しくマップする失敗の結果することができます。ポゴを具体的にはこれらの障害を克服するために、直交ゲノミクスのプラットフォームと統合するプロテオーム高解像度データセットの急速な増加に対処する開発しました。ここで説明したツールは、高スループットのワークフローに統合できます。PoGoGUI グラフィカル インターフェイスを介してツールは使いやすく、スペシャ リストのバイオインフォマティクス トレーニングは必要ありません。
The authors have nothing to disclose.
この作品は、Wellcome の信頼 (WT098051) と GENCODE プロジェクトに NIH グラント (U41HG007234) によって賄われていた。
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |