Summary
Proteogenomic ツールの紹介ポゴと高速、量的なポスト翻訳の修正、変形のためのプロトコルの参照ゲノム上に質量分析法によってペプチド マッピングを有効にします。このツールは統合、proteogenomic や個人的なプロテオーム研究直交ゲノム解析データとのインタ フェースを表示するために使用します。
Abstract
遺伝子、成績証明書、そして蛋白質間のクロストークは細胞応答への鍵したがって、別々 のエンティティとしての分子レベルの解析細胞内の分子のダイナミクスの理解を高めるための統合研究にゆっくりと拡張されています。可視化と他のオミックス データセットとプロテオミクスの統合のための現在のツールは大規模な研究に適しています。さらに、彼らはのみ基本的なシーケンスをキャプチャ、翻訳後修飾と定量を破棄することを識別します。これらの問題に対処する関連の翻訳後修飾とゲノムの注釈を参照する定量化ペプチドをマップする PoGo を開発しました。さらに、ツールは、単一のアミノ酸の亜種を組み込むカスタマイズされたシーケンス データベースからペプチドのマッピングを有効に開発されました。PoGo はコマンド ライン ツールが、グラフィカルなインターフェイス PoGoGUI により Ensembl ゲノムの注釈によってサポートされている 25 種にペプチドを簡単にマップする非バイオインフォマティクス研究者。生成された出力は、ゲノミクス フィールドからファイル形式を借りて、したがって、可視化、ゲノムのほとんどのブラウザーでサポートします。大規模な研究は、PoGo はまた proteogenomics のデータを簡単に共有を有効にするゲノムにマップされたデータの web アクセス可能なリポジトリを作成する TrackHubGenerator によってサポートされます。少しの努力でこのツールは、数百万の他の使用可能なシーケンス id ベースのツールを上回るだけ、数分以内のゲノムを参照するペプチドをマップできます。このプロトコルは、公開データセットの定量的プロテオミクスと大規模な研究とポゴ proteogenomics マッピングの最善の方法を示します。
Introduction
細胞、ゲノム、トランスクリプトーム、プロテオームの内部および外的な刺激への応答を調節して、相互に連携して健康と病気につながる特定の機能を実行するには互いに影響します。したがって、特性と遺伝子、成績証明書、および蛋白質の定量化は重要な細胞プロセスを完全に理解するためにあります。次世代シーケンス (NGS) は、遺伝子と転写発現を定量化すること最もよく適用される戦略の 1 つです。ただし、蛋白質の表現が質量分析法 (MS) による評価は一般的。最後のディケイド MS 技術の飛躍的な発展は、プロテオーム、トランスクリプトーム1と対等なデータを作るのより完全な同定及び定量化になりました。Proteogenomics とマルチ-オミックス NGS と MS のデータを統合する方法としては癌のサブタイプを識別して新規創薬のターゲット癌2につながる複数の分子レベルの細胞プロセスを評価する包括的なアプローチになっています。,3。 その proteogenomics は遺伝子転写の注釈4プロテオームの証拠を提供する使用された最初に注意することが重要です。以前非コーディングすると思ったいくつかの遺伝子は最近大規模な人体組織データセット5,6,7を考慮した再評価を受けています。さらに、プロテオーム データは、正常に非モデル生物8,9の注釈の努力をサポートする使用されます。ただし、proteogenomic データ統合ゲノム機能に関連してハイライト タンパク質発現に更に悪用される可能性し、結合された参照システムおよび方法を提供することにより成績証明書と蛋白質間のクロストークを明らか共同可視化。
ゲノム座標10、11,12 に MS をマッピング ペプチドのトランスクリプトミクス、プロテオミクス、ゲノミクス データの共通のリファレンスを提供するために多数のツールが実装されて、13,14,15,16,17。アプローチは、マッピング参照、ゲノムのブラウザー、および図 1に示すように、他のプロテオミクスのツールとの統合の度合いのサポートなどの面で異なります。ゲノム16に逆翻訳されたペプチドをマップするいくつかのツールに、間他はペプチド15の塩基配列を再構築するのに蛋白質および遺伝子アノテーション内検索エンジン注釈の位置を使用します。まだ他は11,13に対するペプチドをマップするのにゲノムの 3 または 6 フレーム翻訳を使用します。最後に、いくつかのツールは塩基配列をスキップし、ペプチドに関連するゲノム座標10,12、マップする中間物としてアミノ酸シーケンス翻訳 RNA シーケンス マップ転写産物を使用 14,17。しかし、塩基配列の翻訳は時間のかかるプロセス、カスタム データベース ペプチド マッピングに伝達されるエラーになりやすいです。高速かつ高スループットのマッピング、小規模かつ包括的な参照は重要です。したがって、関連付けられているゲノム座標と標準化された蛋白質の参照はゲノム マッピングする正確なペプチドの不可欠です。新側面 proteogenomics、変形およびポスト翻訳の修正 (Ptm)2,3、定款などで近年の研究の気運が高まっています。ただし、これら一般にサポートされていませんマッピング ツールを図 1に示すように、現在の proteogenomic によって。マッピングのスピードおよび品質を向上させるため、ポゴを開発したゲノム18にペプチドの高速かつ定量的なマッピングを可能にするツール。また、ポゴ最大 2 つのシーケンスのバリエーションと注釈付き翻訳後修飾ペプチドのマッピングを有効にします。
ポゴは、プロテオームとグローバル変更を取り込む高解像度の定量的のデータセットの急激な増加に対処するために開発された、個人の多様性と精密医療といった大規模な分析中央ユーティリティを提供しています。この資料では、ゲノムの機能に関連して翻訳後修飾の存在を可視化するこのツールのアプリケーションについて説明します。さらに、代替接続イベント マップされたペプチドの同定とカスタム バリアントの参照ゲノム データベースによるペプチドのマッピングについて説明します。このプロトコルでは、PoGo のこれらの機能を示す誇りアーカイブ19からダウンロード公開されているデータセットを採用しています。さらに、このプロトコルでは、TrackHubGenerator の大規模な proteogenomics 研究のためのゲノムにマップされているペプチドのオンライン アクセス可能なハブを作成するためのアプリケーションについて説明します。
Protocol
1. 準備・ ダウンロード ・ セットアップ
注: ファイルとフォルダーのパスの例は、標準ユーザーのアクセスの容易さのための Windows 形式のとおりです。ポゴと PoGoGUI の macOS および Linux オペレーティング システムも承ります。
-
GitHub からポゴと PoGoGUI をダウンロードします。
- Web ブラウザーを開き、ポゴ github では (http://github.com/cschlaffner/PoGo/) に移動します。リリースを選択し、最新のリリースの zip 圧縮ファイルをダウンロードします。(例えばC:\PoGo\executables\) の実行可能ファイルのフォルダーに圧縮ファイルを抽出します。
- PoGoGUI (http://github.com/cschlaffner/PoGoGUI/) GitHub 上で公開する web ブラウザーで移動します。リリースを選択し、(例えば、 "PoGoGUI v1.0.2.jar") で最新リリースの jar ファイルをダウンロードします。実行可能ファイル フォルダーに jar ファイルを格納します。
-
ゲノムの注釈や翻訳された蛋白質のコーディング シーケンスをダウンロードします。
注: ダウンロード、GENCODE7 (www.gencodegenes.org) または Ensembl20 (www.ensembl.org) 一般的な転送形式 (GTF) でのタンパク質配列ゲノムの注釈および翻訳蛋白質コーディング順序サポートされている種FASTA 形式。- Web ブラウザーで www.gencodegenes.org に移動し、データを選択 |人間 |現在のリリースで。GTF リンク経由で包括的な遺伝子アノテーションをダウンロードし、データ フォルダー (例えばC:\PoGo\Data\) に gz で圧縮されたファイルを解凍解凍プログラム (例えば7-Zip) を使用します。
- FASTA リンクを介して転写翻訳シーケンスの蛋白質のコーディングをダウンロードして前の手順で生成されたデータ フォルダーに gz で圧縮されたファイルを展開します。
- また、www.ensembl.org に web ブラウザーで移動し、ダウンロード後にFTP 経由でデータをダウンロードを選択します。サポートされている種 (例えば人間) を見つけます。遺伝子のセット] 列で GTF リンクを使用して、トラン スクリプト コメントの最新リリース ファイルをダウンロードします。構造名"species.release.gtf.gz"を持つファイルを選択し、データ フォルダーに、gz で圧縮されたファイルを抽出します。
- FASTA を使用して蛋白質のコーディング謄本翻訳シーケンス リンク蛋白質シーケンス (FASTA)列の最新のリリースをダウンロードしてください。名前の構造体「species.release.pep.all.fa.gz」ファイルを選択し、、データ フォルダーに、gz で圧縮されたファイルを抽出。
-
ペプチッド識別ファイルを準備します。
注: PoGo はのみ、サンプル識別子、ペプチッド シーケンス、ペプチド-スペクトル-マッチ (Psm) と定量的な値の番号を含む 4 列の形式をサポートしています。ただし、PoGoGUI 標準化された識別ファイル形式の mzIdentML、mzid、mzTab と公に利用できるフレームワーク ms データ コア api21を使用して PoGo の 4 列の形式に変換します。プライド アーカイブ19から mzIdentML、mzid、または mzTab の形式でファイルをダウンロードできます。または、拡張子 .tsv または .pogo をタブ区切りファイル形式でデータを提供することができます。形式は、次のコラム ヘッダーの 4 列を含まれて: サンプル識別子 (サンプル)、ペプチド配列 (ペプチド) ペプチド-スペクトル-マッチ (Psm) とペプチドの定量 (クワント) の数。例を図 2に示します。- プライド アーカイブ19 (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files22) からひと精巣に関するプロテオミクス研究から mzTab 形式のファイルの例をダウンロードします。
- 保存し、1.2.1 の手順で作成されたデータ フォルダーに gz 圧縮ファイルを抽出します。
注: また、プライド アーカイブ (ファイル"Traktman_2013_MaxQuantOutput-full.zip"https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files23から) から MaxQuant で検索人間プロテオミクスのサンプル データをダウンロードします。 - 保存し、1.2.1 手順で作成したデータのフォルダーで zip 圧縮ファイルを抽出します。
- 空白のスプレッドシートを開くとフォルダー c:/PoGo/データ/Traktman_2013_MaxQuantOutput-フル/結合/txt から peptides.txt ファイルをインポート/データ オプションを使用して |テキスト/CSV から。開くウィンドウで編集をクリックします。
- 「シーケンス」「実験 BR1」"実験 BR2」、「実験 BR3」、"比 H/l 正規化 BR1"、"BR2 を正規化比 H/L"、、「比 H/l 正規化 BR3」を除くすべての列を削除します。
- 列を選択「比 H/L 正規化 BR1」、「BR2 を正規化比 H/L」、および「比 H/L 正規化 BR3」変換をクリック |列をピボット解除。"実験 BR1"、「実験 BR2」、「実験 BR3」の列を選択し、unpivot 操作を繰り返します。
- 「属性」結果列を選択し、、変換を使用してコンテンツを分割 |列を分割 |区切り文字で。ドロップ ダウン メニューの区切り記号としてスペースを選択します。列"Attribute.1"に対して操作を繰り返します。
- "Attribute.1.1"、"Attribute.2"、"Attribute.3"、"Attribute.1.1.1"の結果列を削除します。
- 追加の列を使用して列を追加 |カスタムの列オプション。次を表すカスタム列の数式を適応:「[Attribute.4]=[Attribute.1.2] =」。
- "FALSE"を含むすべての行を除外する生成されたカスタム列にフィルターを適用します。"TRUE"が含まれている行だけが残ります。
- "Attribute.1.2"と「カスタム」の列を削除して、次のように残りの列の順序を変更:"Attribute.4"、「シーケンス」、"Value.1"と「値」。
- それぞれ、「実験」、「ペプチド」、「Psm」、「クオンツ」に列名を変更します。家を使用してファイルを読み込む |閉じる & ロード。
- ファイルを使用して、タブ区切りファイルとしてファイルを保存 |名前を付けて保存タイプ「テキスト (タブ区切り) (*.txt)」を選択します。「Peptides_pogo.txt」名前を変更、フォルダー c:/PoGo/データで保存。
2. マッピング注釈付き翻訳後修飾と定量を含む可視化ペプチド
注: ブラウザー拡張データ (ベッド) フォーマットをサポートのゲノムのブラウザーで生成される出力ファイルを読み込めます。ブラウザーの選択は、統合ゲノム ブラウザー (IGV)24 (以下のもの)、UCSC のゲノムのブラウザーの25日、Ensembl ゲノム ブラウザー20です。ポゴのマッピングに使用されるアノテーション GTF とタンパク質 FASTA のバージョンのゲノムのブラウザーでゲノムのバージョンと一致する注意してくださいすることが重要です。人間 Ensembl リリース 57-75、GENCODE バージョン 3 d 19 用 GRCh37/hg19;Ensembl バージョン 76 以上 GENCODE 20 以上、GRCh38/hg38 を使用します。マウス Ensembl バージョン 74 以上、GENCODE M2 のまたはより高く、GRCm38 を使用します。
-
PoGoGUI を用いるペプチド マップ (図 3 参照)。
- 実行可能ファイルのフォルダーに移動します。PoGoGUI vX.X.X.jarのアイコンをダブルクリックしてプログラムを起動します。
注: グラフィカル ユーザー インターフェイスは始動し、オプションの簡単かつ視覚的選択を許可します。 - 「PoGo 実行可能ファイル」の横にある [選択] ボタンをを使用します。その後、関連するオペレーティング システムのサブフォルダー (たとえばC:\PoGo\Executables\Windows\) に実行可能ファイルのフォルダーに移動します。ポゴ (例えばPoGo.exe) の実行可能ファイルを選択し、 [開く] ボタンをクリックして、選択を確定します。
- タンパク質配列の参照入力ファイルを選択するには、選択をクリックします。データ フォルダーに移動し、翻訳 FASTA ファイルを選択します。[開く] ボタンをクリックして、選択を確認します。
- 選択ボタンを使用して議事録アノテーション ファイルを選択します。データ フォルダーに移動し、注釈 GTF ファイルを選択します。[開く] ボタンをクリックして選択を確定します。
- ペプチッド識別ファイルを追加-複数ファイルの選択が有効になっている、「ペプチド ファイル」の横にある[追加] ボタンを使用しますして。サポートされている形式の mzTab、mzIdentML、または mzid、またはタブで区切った 4 列形式をダウンロードし、手順 1.3 の準備では、ファイルを選択します。
- 出力フォーマット選択でベッドと GTF の横にあるチェック ボックスのチェックを外します。PTM ベッドと GCT チェックを残すのみ。
- ドロップダウンの選択から、データの適切な種を選択します。FASTA ファイル、GTF ファイル、およびドロップダウン選択では、同じ種が欠かせません。
- [スタート] ボタンをクリックしてマッピングを開始します。
注: 必要に応じて、PoGoGUI ポゴ形式に入力ファイルを変換、将来の便宜のため同じフォルダーにポゴ ファイルを提供する、マッピング プロセスを開始します。1.3.1 のステップでダウンロードした単一の mzTab ファイルの変換は、マッピングを開始する前に 10-20 分の間持続します。
- 実行可能ファイルのフォルダーに移動します。PoGoGUI vX.X.X.jarのアイコンをダブルクリックしてプログラムを起動します。
-
統合的ゲノミクス ビューアーで可視化
注: は、図 4を参照してください。- ファイルを通じて IGV の"_ptm.bed"で終わる PoGo の出力ファイルを読み込む |ファイルからロードファイルを選択します。
注: サイズのためいくつかのファイルはゲノム領域の迅速な再読み込みを許可するインデックスの世代を必要があります。IGV は世代に自動的にユーザーにプロンプトを表示します。指示に従って下さい。 - "_Noptm.bed"で終わるファイルの読み込みの手順を繰り返します。このファイルには、変更することがなくが見つかりましたすべてのペプチドが含まれています。
- トラックを識別するファイル名と、読み込まれた各ファイルは別々 のトラックとして表示に注意してください。トラックの順序を変更するには、ドラッグし、リスト内の目的の位置にドロップします。
- 各トラックが折りたたまれた方法に最初表示されることに注意してください。展開し、トラック名を右クリックし、シーケンスを含むペプチドの完全なビューを展開または積み上げビューの踏み付けを選択します。
- 「.Gct」で終わるファイルの読み込みの手順を繰り返します。このファイルには、注釈付きサンプルあたりペプチド定量が含まれています。
- 異なり、読み込まれているファイルの各注釈付きサンプルが読み込まれます別のトラックとして。再編成を通じてサンプルのドラッグ アンド ドロップ操作。
- ドロップ ダウン メニューで染色体を選択することによってゲノム内を移動、ゲノム座標で入力、遺伝子シンボルを検索またはクリックし、拡大する染色体のセクションを選択するを保持します。
- ファイルを通じて IGV の"_ptm.bed"で終わる PoGo の出力ファイルを読み込む |ファイルからロードファイルを選択します。
3. 参照ゲノムにカスタム バリアント データベースを介してペプチド マッピング
注: グラフィカル ユーザー インターフェイス (GUI) を使用して、またはコマンド ライン インターフェイスは、PoGo のマッピングを実行できます。彼らは互換性が。このプロトコルでは、コマンド ・ ライン ・ インターフェイスを使用して、互換性を強調します。このプロトコルのセクションの 2 番目の部分には、ソフトウェア ツール R26が必要です。パッケージがインストールされていることを確認してください。
- 参照ペプチドを参照ゲノムにマップします。
- コマンド プロンプト (cmd) を開き、ポゴ (例えばC:\PoGo\Executables\) の実行可能ファイルのフォルダーに移動します。
- 次のコマンドを入力します。
PoGo.exe - gtf \PATH\TO\GTF fasta - \PATH\TO\FASTA-\PATH\TO\IN で-ベッドをフォーマット-種 MYSPECIES- それぞれ \PATH\TO\GTF、\PATH\TO\FASTA、および \PATH\TO\IN に注釈 GTF、蛋白質シーケンス FASTA、(".tsv"または".pogo"で終わるファイルの 4 列の形式) でペプチッド識別ファイルへのパスに置き換えてください。また (例えば人間) のデータとの整合性の種で MYSPECIES を置き換えます。
- "Enter"キーを押すことによって、実行を確認します。さらに、進行する前に実行が完了するまで待ちます。
注: これは数分をかかる場合があります。結果のファイルはペプチドの入力ファイルと同じフォルダーに保存され、次のように \PATH\TO\OUT.pogo.bed とみなされます。
- 入力ファイルからバリアント ペプチドのみを抽出します。
- オープンの R と負荷入力ファイル \PATH\TO\IN の次のコマンドを使用します。
inputdata <-read.table("PATH/TO/IN",header=TRUE,sep="\t") - コマンドを使用して、既にマップされているペプチドを読み込みます。
mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE) - Inputdata から既にマップされたペプチドを削除します。
peptidesnotmapped <-inputdata [! (inputdata$ ペプチド %mappedpeptides% $V4)] - 新しい入力ファイルにマップされていないペプチドを印刷します。
write.table (peptidesnotmapped、"PATH\TO\IN.notmapped.pogo"、ヘッダー = FALSE、sep ="\t"col.names=TRUE,row.names=FALSE,quote=FALSE)
- オープンの R と負荷入力ファイル \PATH\TO\IN の次のコマンドを使用します。
- 残りのペプチドの不一致を許可する参照ゲノムにマップします。
- ステップ 3.1 のようにコマンド プロンプトを開き、ポゴの実行可能ファイルのフォルダーに移動します。
- 1 アミノ酸の不一致を許可する以下のコマンドを入力し、\PATH\TO\GTF、\PATH\TO\FASTA、および \PATH\TO\IN.notmapped.pogo アノテーション GTF、タンパク質配列 FASTA、および 3.2 の手順で作成したペプチド同定ファイルへのパスを代入します。また (例えば人間) のデータとの整合性の種で MYSPECIES を置き換えます。
- PoGo.exe - gtf \PATH\TO\GTF fasta - \PATH\TO\FASTA-\PATH\TO\IN で-ベッドをフォーマット-種 MYSPECIES mm 1
- "Enter"キーを押すと、コマンドの実行を確認します。さらに、進行する前に実行が完了するまで待ちます。
注: これは数分をかかる場合があります。結果のファイルはペプチドの入力ファイルと同じフォルダーに保存され、次のように \PATH\TO\OUT.pogo_1MM.bed とみなされます。
- マップ手順 2.2 IGV の不一致とペプチドを視覚化します。
4. 複数のファイルを使用して、大規模なデータセットのトラックのハブを生成するマッピング
-
PoGoGUI を使用して複数ファイルからマッピング ペプチド
- 実行可能ファイルのフォルダーに移動し、 PoGoGUI vX.X.X.jarを実行して、GUI プログラムを開始します。
- プロトコル手順 2.1.2 - 2.1.4 で、参照入力蛋白質シーケンス FASTA ファイルおよび注釈 GTF ファイル (ここで Linux) を使用してオペレーティング システムにポゴの実行可能ファイルを選択します。
- 「ペプチド ファイル」の横にある[追加] ボタンを使用してペプチッド識別ファイルを追加します。「ペプチド ファイル」の下にある空白フィールドにドラッグ アンド ドロップ ファイルを複数選択を有効になります。
- 出力フォーマット] セクションで GCT、GTF、PTM のベッドの横にあるチェック ボックスのチェックを外すし、ベッド チェックを残すのみ。
- 1 つの出力を複数の入力ファイルをマージするオプションを選択します。
注: これは入力ファイルのすべてのペプチドを組み合わせて単一の出力ファイルになります。このオプションが選択されていない状態になります各入力ファイルのためのプログラムの連続実行個別に。 - FASTA と GTF のファイルと一致してドロップダウンの選択から、データの適切な種を選択します。
- [スタート] ボタンをクリックしてマッピングを開始します。必要に応じて、プログラムは pogo 形式に入力ファイルが変換されます。これを実行する時間がかかる可能性があります。一方で、トラックのハブ世代に必要なツールとスクリプトをダウンロードします。
-
ハブの生成のための準備
- Web ブラウザーを開き、https://github.com/cschlaffner/TrackHubGenerator に移動し、"TrackHubGenerator.pl"ファイルをダウンロードします。実行可能ファイルのフォルダーにファイルを保存します。
- Web ブラウザーで www.hgdownload.soe.ucsc.edu/admin/exe/ に移動し、使用 (ここで Linux) のオペレーティング システムのフォルダーを選択します。実行可能ファイルのフォルダー27にbedToBigBedツールとスクリプトfetchChromSizesをダウンロードします。
-
マップされたペプチドからトラックのハブを生成します。
注: PoGoGUI のペプチド マッピング終了後トラック ハブ自動的に生成できます同じフォルダーに格納されているベッド形式ですべての結果として得られるファイル。- ターミナル ウィンドウを開き、次のコマンドを入力します。
Perl TrackHubGenerator.pl 名/パス/アセンブリ FBED UCSC メール- ファイル パスでパス/を/名を置き換えるし、(例えば~/PoGo/Data/Mytrackhub)、トラックのハブに注釈がベース (例えば人間の hg38)、ゲノムのアセンブリを使用してアセンブリの名前 FBED を含むフォルダーへのパスをベッドのトラックのハブの基になるファイル (例えば~/PoGo/Data/)、UCSC UCSC からダウンロードしたツールが格納されているフォルダーを (例えば~/PoGo/Executables/)、およびトラックの責任者のメール アドレスを記載したメールハブ。
- "Enter"キーを押すことによって実行するか確認します。実行完了する短時間だけかかります。
- そのすべての内容と生成されたトラックのハブ (すなわち、作成したフォルダーの ~/PoGo/Data/Mytrackhub/) を web アクセス可能な FTP サーバーに転送します。
注: プロトコル ftp と http を介してトラックのハブへのアクセスを有効にする関連付けられた web サーバーと FTP サーバーお勧めします。Github のリポジトリ (github.com) と figshare (figshare.com) のこの種類のアクセスをサポートして FTP サーバーの代わりに使用することができます。
- ターミナル ウィンドウを開き、次のコマンドを入力します。
-
UCSC のゲノムのブラウザーでトラックのハブを可視化
- Web ブラウザーで https://genome.ucsc.edu/ に移動してMyData を選択 |ハブを追跡。[ハブ] タブをクリックします。
- トラックのハブにテキスト フィールドに URL をコピーします。
注: URL は、サーバーのアドレス、トラックのハブの場所、名前、および hub.txt ファイル (例えばhttp://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt) で構成されます。 - ハブの追加をクリックしてトラックのハブをロードします。
注意: ハブが読み込まれる、トラックハブ名、トラックのハブの責任者の連絡先情報などの詳細を示す、短いメッセージが表示され、ゲノムのアセンブリを使用します。Web サイトは、メイン ページに戻ります。 - GenomeBrowserブラウザー ビューを入力するを選択します。
注: リストの上部に、カスタム トラックのハブになります。複数のベッド ファイルには、トラックのハブのための基礎が構築されている場合各ファイルのハブ内の別のトラックとして表されます。
Representative Results
図 5に示す正規プロテオーム ワークフロー ポゴ18のステージを可視化の下流のオプションと同様、適用する強調表示をグラフィカルに表示。ショットガンプロテオミクス (すなわち、続いてタンデム質量分析法と高速液体クロマトグラフィーによるタンパク質のプロテアーゼ消化) は、proteogenomic マッピングの前兆一歩です。結果として得られるタンデム質量スペクトル一般的蛋白質シーケンス データベースから派生した理論のスペクトルと比較されます。Proteogenomics 研究は、簡単にこれらのバックを参照ゲノム8に関連することが難しく、データベースに潜在的な非同義一塩亜種 (SNVs) を符号化による新規転写物の変換シーケンスをご紹介します。ポゴ (PoGoGUI) のグラフィカル ユーザー インターフェイスでは、質量分析実験からペプチド id の標準化された報告書のファイル形式をサポートしています、簡易 4 段ポゴ形式に変換します。PoGoGUI ポゴ コマンド ライン ツールをラップし、GTF と FASTA 形式で翻訳された写しシーケンスで一般提供されている蛋白質のコーディングの遺伝子の参照アノテーションを活用したゲノム座標上にペプチド マッピング可能します。別の出力形式は、翻訳後修飾ペプチド レベルの定量化などの質量分析法によってペプチドのさまざまな側面の可視化を有効にする PoGo によって生成されます。ベッドで出力ファイルの変換し、トラックのハブと呼ばれるオンラインのアクセス可能なディレクトリに結合さらにすることができます。トラックのハブと同様、単一の出力ファイル、UCSC のゲノムのブラウザー25、Ensembl ゲノム ブラウザー20、IGV24、Biodalliance28 (下の図 5を参照) などのブラウザーで視覚化することができます。
ライトらで説明されているように高い意義でフィルター選択人間の proteome マップ案の再検討にポゴを適用7 2 つのツール proteogenomic のマッピング、すなわちとして、iPiG14と PGx10と比較します。データセット以上 300 万系列の合計で 59 成人および胎児組織の間で 233,055 のユニークなペプチドで構成されています。ポゴは、これらのツールのどちらのランタイムをアウトパ フォーム (6.9 x と 96.4 x より速く、それぞれ) とメモリ使用量 (20% と 60% のメモリ、それぞれ)図 618に示すように。正常にマップされたペプチドの例を図 7に示します。
一方、ポゴが大幅に上回る速度とメモリ内の他のツール、それはまたマッピング ポスト翻訳の修正、ゲノム上にペプチドに関連する定量情報が可能です。図 8 aは、ペプチド マッピングの 1 つのエクソンのスプライス接合の模式的ゲノム ブラウザーでベッド形式の可視化を示しています。ポゴは、ゲノム内でペプチド マッピングの一意性に関して簡単な視覚的な援助を提供するために着色オプションを利用してください。赤でマッピングは、黒いハイライト単一の遺伝子にマッピングしながら、単一トラン スクリプトに独自性を示しています。しかし、ペプチドは、異なる成績で共有されます。灰色のマッピングは、複数の遺伝子間で共有ペプチドを表示します。これらは、例えば、以下の遺伝子の定量化の信頼性の高いまたは遺伝子の発現を呼び出す信頼できません。ポゴの PTM ベッド オプションは、図 8 bに示すように、翻訳後修飾の種類に合わせて色コードを再定義します。さらに、Ptm は厚いブロック (図 8 bを参照) で示されます。一方、同じ型の複数の Ptm が最初の変更されたアミノ酸から厚いブロック最後にまたがる、変更されたアミノ酸残基の位置に厚いブロック型の単一 PTM がハイライトされます。
ポゴとその後 TrackHubGenerator リン酸化プロテオーム29全体プロテオーム研究など 50 の大腸癌細胞株のデータセットに適用した.UCSC のゲノムのブラウザーに読み込まれたトラックのハブはゲノムにマップされたペプチドを示し、マッピングと (図 9参照) リン酸化サイトの一意性を強調表示、追加のデータが補足的なフォルダーで提供されます。GCT ファイルは、ゲノムにおけるペプチドおよびリン酸化ペプチドの定量の可視化を有効にします。ただし、GCT ファイルは、継手接合 (上の図 10を参照) にまたがるペプチドの簡単な可視化を提供しません。スプライス接合間でペプチドは、エクソンへのマッピング、それぞれの部品に分割されます。継手エキソン マッピングの同じ定量値をペプチドを識別することが可能ですが、解釈など接続ラインのサポートにまたがる薄いイントロン ・ エクソン ベッドまたは GTF ファイル読み込みシーケンス ベースのマッピング (図 10を参照してください。下)。
マッピングの有効なバリアントの有用性を強調するには、多酵素戦略22を使用して不足している蛋白質のために狩り neXtProt に対して検索ひと精巣プロテオームのデータセットに 2 つの構成でポゴを適用しました。以上 500 万単一のアミノ酸の亜種30参照タンパク質以外にも装備されている、neXtProt。他のマッピング ツールでは、単一のアミノ酸のバリアントにペプチドのマッピングはサポートされていません。合計 177,012 のユニークなペプチドが同定されました。これらの 99.8% (176,694) ペプチド最初正常にマップされました不一致を許可せず。マップの 1 アミノ酸置換が可能その後が 0.2% (318) ペプチドで起因した識別されたペプチドのリストからそれらを削除します。これは、他の利用可能なツールと参照ゲノムにマッピングされていない 162 ペプチドの 3,446 マッピングで起因しました。不一致を含むマッピングの数の平均値は高いが、62 ペプチドはのみ 1 つの軌跡、真のバリアント配列を示すにマップされました。ペプチドのアミノ酸置換を使用してマップの例は、そのシーケンスと図 11に翻訳されたゲノム シーケンスで強調表示されます。
図 1。別のペプチドのゲノム マッピング ツールのビジュアル比較します。さまざまな側面に関して比較が表示されます。これらの側面には、マッピングの参照、フレームワークへの統合のレベルおよびオンラインとオフラインのブラウザーのサポートが含まれます。さらに、proteogenomics と機能サポートの新側面が個別にハイライトされます。ポゴだけ他のツールと比較してゲノム シーケンスに直接マップする機能に欠けています。ただし、他のツールのほとんどをサポートしないすべての新しい機能をサポートしています。この図の拡大版を表示するのにはここをクリックしてください。
図 2。ペプチド マッピングの入力ファイルの例です。ポゴは、4 列のタブ区切り形式の入力データを受け付けます。最初の行に列ヘッダーが '実験'、'ペプチド', 'Psm' と 'クオンツ'、実験サンプル識別子、ペプチッド シーケンス、ペプチド スペクトルの一致の数や、ペプチドの定量値を次の行に示すそれぞれ。サポートするファイル名拡張子が *.txt、*.tsv、および *.pogo です。この図の拡大版を表示するのにはここをクリックしてください。
図 3。ファイル選択およびパラメーター オプションが強調表示されている手順と PoGoGUI インターフェイス。図は、選択し、すべての必要なファイルと人間の参照ゲノムに翻訳後修飾ペプチドをマッピングするためのオプションの選択をアップロードするための手順を示します。この図の拡大版を表示するのにはここをクリックしてください。
図 4。統合ゲノミクス ビューアー (IGV) データのスクリーン ショットをアップロード手順です。図は、IGV ブラウザーでポゴ出力ファイルをアップロードする手順を強調表示します。さらに、シーケンスとマッピングを強調するマップされたペプチドのトラックを拡大するオプションを示しています。この図の拡大版を表示するのにはここをクリックしてください。
図 5。クロマトグラフィー-タンデム質量からゲノムのブラウザーで可視化へのステップのワークフローを簡素化します。ポゴ マッピング タンデム質量スペクトルからペプチドの同定に従います。ゲノムへのマッピングを達成するためには、PoGo は参照アノテーションのアノテーション (GTF) および成績証明書の翻訳のシーケンス (FASTA) として提供を利用しています。ゲノムのブラウザーで個別に読み込むことができる別の出力形式が生成されます。さらに、大規模データの可視化を支えるトラックのハブにベッド形式のファイルを結合できます。この図の拡大版を表示するのにはここをクリックしてください。
図 6。PGx ととして、iPiG PoGo のベンチマーク。PoGo はベンチマーク上の他のツールよりも優れている。以上 300 万シーケンスの結果 59 成人および胎児組織の間で 233,055 のユニークなペプチドのマッピング、ポゴあった 6.9 x 96.4 x PGx ととして、iPiG より速く。さらに、ポゴは 20% と 60% の PGx ととして、iPiG、それぞれに比べてメモリを必要です。ポゴと PGx の完了、16 GB でメモリ エラーの結果として、iPiG。この図の拡大版を表示するのにはここをクリックしてください。
図 7。マップされたペプチドの UCSC のゲノムのブラウザーの例のビュー 。図は、ペプチド遺伝子 mTOR にマップを示しています。複合トラックは、継手接合にまたがると関連付けられたシーケンスで 1 つのエクソンにのみマッピング ペプチドを示しています、組織固有のトラックは縮小形式でマッピングだけを強調します。この図の拡大版を表示するのにはここをクリックしてください。
図 8。可視化とカラー コーディングをマッピングのスケマティック。(A) (左)、ペプチド ブロック (右) としてカバー部分エクソン複数エクソンのハイライト間でマッピングしながら単一のブロックとして標準ベッド出力ファイル、ペプチド エクソンへのマッピングが示されています。イントロンは、細い線を連結することで表示されます。PoGo は色分けマップや遺伝子と転写産物の 3 層システムを使用するペプチドの一意性。(B) ベッド形式のブロック構造に加え PTM ベッド出力厚いブロックとして翻訳後修飾の位置をハイライトします。同じ PTM の複数のサイトは、最初から最後まで変更サイトにまたがる長いブロックに結合され、型の単一 PTM の存在は厚いブロックと変更されたアミノ酸残基を強調表示します。ペプチド マッピングが変更に基づく PTM の種類と色コーデックによってさらに分かれています。この図の拡大版を表示するのにはここをクリックしてください。
図 9。大腸がんのプロテオーム ・ リン酸化プロテオーム データの UCSC のゲノムのブラウザーでハブ ビューを追跡します。トラックのハブでは、全体のプロテオーム データとしてリン酸化プロテオームを装備されています。プロテオーム ・ リン酸化プロテオーム トラックの赤い色は、SFN の単一のトラン スクリプト マッピングの一意性を示すペプチドのリン酸化サイトを示すトラック _ptm で終わる。ここでは、赤い色は、リン酸化と変更の種類を示します。のみ 2 つのペプチドは、各単一のリン酸化 (厚いブロック) を示すと確認されています。この図の拡大版を表示するのにはここをクリックしてください。
図 10。大腸癌のリン酸と IGV で関連付けられている定量のビュー 。図は、50 の癌細胞のサブセットを示しています。さらに 4 つの列が表示ブロックの光の異なる色合いの赤。色は、相対的な豊富を低 (ホワイト) から高 (赤) ことを示します。4 つの列は、4 のペプチドがあると信じているにつながる可能性があります最初、それは関連付けられたシーケンス ベース GTF 出力ファイルこれらが実際に 2 つのペプチドであること継手接合部にまたがる各と明確になります。この図の拡大版を表示するのにはここをクリックしてください。
図 11。IGV のバリアントでアミノ酸ペプチドのビュー 。図は、 GPSM1遺伝子の翻訳開始時の参照ゲノムにマップされている単一のアミノ酸のバリアントにペプチドを示します。バリアントは、アミノ酸残基 8 とアラニン バリン (A→V) への置換の結果に配置されます。注釈付きの成績証明書 (青) の変換シーケンスは、ペプチッド シーケンスと比較して変形を強調表示します。この図の拡大版を表示するのにはここをクリックしてください。
Discussion
このプロトコルは、ソフトウェア ツール ポゴとそのグラフィカル ユーザー インターフェイス PoGoGUI のゲノム座標上にペプチドの高速マッピングを有効に方法について説明します。ツールでは、定量的、翻訳後修飾など参照アノテーションを使用してゲノムへのマッピングのバリアントが有効なユニークな機能を提供しています。この記事は、大規模な proteogenomic 研究のメソッドを示し、18その他の利用可能なツールと比較して、速度やメモリ使用効率を強調します。ゲノムのオンライン アクセス可能なハブを作成するツール TrackHubGenerator と組み合わせてとゲノム データ リンク、ポゴ、そのグラフィカル ユーザー インターフェイスにより大規模な proteogenomics 研究ゲノムのコンテキストでそのデータを表示します。さらに、データセットに対してバリアント データベースおよび定量的プロテオミクス22,29検索ポゴのユニークな特徴を示します。
GCT ファイルなど、1 つのファイルは、貴重な可視化とペプチド機能とゲノムの遺伝子間のリンクを提供します。ただし、単独でこれらに基づく解釈は困難または一意性、ポスト翻訳の修正、定量的な値など proteogenomics の単一の面に彼らの制限のため誤解を招くかもしれないことに注意する重要です。したがって、出力ファイル、オプションとの組み合わせは、手で proteogenomic の質問対応、組み合わせを変更を慎重に選択することが重要です。たとえば、異なるサンプル間で定量化に関する研究に適してかもしれない間、ゲノム機能7の注釈の偉大な値の特定の genomic 位置へのマッピングの一意性についての情報があります。タンパク質豊富な29の変化するゲノム機能。各設定の PoGo で出力を生成する必要があります。出力は生成されず、または空のファイルは出力フォルダーに示すように、場合に、目的のコンテンツと必要なファイル形式の入力ファイルをチェックすることをお勧めします。ファイルの形式や内容が PoGo の期待が従わない場合 (例えば、おそらくトラン スクリプト変換シーケンスを含んでいる FASTA ファイル、転写産物の塩基配列を含む) のエラー メッセージはユーザーを要求します。入力ファイルを確認します。
プロトコルおよびツールの制限はほとんどゲノム解析で一般的に使用されるファイル形式の再利用に基づいています。Proteogenomic 用ゲノム解析で使用されるファイル形式を転用、特定の制限を伴います。これは、ゲノムの中心のゲノムの可視化のための要件の異なるセット、翻訳後修飾プロテオミクス データを可視化する必要があるなどの proteogenomic データ。これはゲノミクスのファイル形式で単一機能の使用状況によって制限されます。多くの手法とツールは、自信を持って翻訳後修飾ペプチド シーケンス31,32,33,34内をローカライズするプロテオミクスの開発されています。しかし、ゲノム上のユニーク識別可能な方法で複数の変更の可視化は、ゲノムのファイルフォーマットの構造によって妨げられています。したがって、同じ型の複数の Ptm の単一のブロック可視化修飾部位のあいまいさはありませんが一度にのみ単一機能を視覚化するゲノミクス コミュニティから異なる要件の結果。それにもかかわらず、ポゴ翻訳後修飾に及ぼす単一のヌクレオチドの亜種などのゲノムの機能に焦点を当てた研究を可能にするゲノム座標にマッピング ポスト翻訳の修正の利点があります。ポゴを使用して、バリアント マップ全マッピングの数が増えます。ただし、マップされたペプチドのユニークな色と、信頼性の低いものから信頼性の高いマッピングが強調表示されます。知られている単一のヌクレオチドの亜種からバリアント型ペプチドのマッピングは、VCF 形式で亜種と一緒にマップされたペプチドを可視化を伴うことが。この方法でバリアント ペプチドの信頼性の低いマッピングを示すカラーコードは知られている塩基配列のバリアントの存在によって却下します。
ポゴを使用するための重要なステップは、正しいファイルとフォーマットの使用です。GTF 形式でアノテーションを同行するタンパク質として翻訳された写しシーケンスの使用は、主な条件です。ポゴを使用してアミノ酸の不一致のペプチドをマップするを検討する際のもう一つの重要な要素は、メモリです。一方メモリ効率の標準的なアプリケーション、1 つまたは 2 つの不一致で可能なマッピングの大幅と指数関数的に増加数はメモリ使用量18の同様に急激な増加に します。段階的なマッピングを提案する最初の不一致なしペプチドをマップし、それらをセットから削除するには、このプロトコルで説明されているようです。以降以前割り当てられていないペプチドすることができますを使用してマップ 1 つの不一致とペプチド マップされていない残りの 2 つの不一致と、手順を繰り返すことができます。
質量分析のスループットが大幅に改善インターフェイス ゲノム研究とプロテオーム データ近年より頻繁になっているので、容易にこれらの種類の同じ座標系でデータのやり取りを可能にするツールがますます欠かせない。ここで紹介するツールは、ゲノムを結合する必要性と理解を促進するより良い統合研究の小規模および大規模なデータセットにまたがる参照アノテーションにペプチド マッピングによるプロテオーム データに役立ちます。幸いに、ポゴはひと精巣35に発現する新規遺伝子のアノテーション作業をサポートする参照アノテーションと同じ形式で提供される遺伝子候補者にペプチドをマップに適用されています。ここで紹介した方法はペプチッド識別に使用するデータベースに依存しません。プロトコルが識別するために役立つことがあると RNA シーケンス実験から GTF ファイルを関連付けられている小説の翻訳を使用して、製品の可視化翻訳シーケンスからの入力ファイルを適応しました。
いくつかのアプローチとペプチドをガイド RNA シーケンス マッピングするゲノム シーケンスに直接ペプチドをマップに至るゲノム座標にマップする特殊なアプリケーション シナリオの広い範囲でツールは導入された10、をされています。11,12,13,14,15,16,17します。 ただし、これらのポスト翻訳の修正があるとペプチド レベルに RNA 配列読み取りの基になるマッピングでエラーを反映可能性がありますときにペプチドを正しくマップする失敗の結果することができます。ポゴを具体的にはこれらの障害を克服するために、直交ゲノミクスのプラットフォームと統合するプロテオーム高解像度データセットの急速な増加に対処する開発しました。ここで説明したツールは、高スループットのワークフローに統合できます。PoGoGUI グラフィカル インターフェイスを介してツールは使いやすく、スペシャ リストのバイオインフォマティクス トレーニングは必要ありません。
Disclosures
著者が明らかに何もありません。
Acknowledgments
この作品は、Wellcome の信頼 (WT098051) と GENCODE プロジェクトに NIH グラント (U41HG007234) によって賄われていた。
Materials
Name | Company | Catalog Number | Comments |
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
References
- Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
- Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
- Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
- Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
- Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
- Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
- Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778 (2016).
- Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
- Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
- Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
- Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
- Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
- Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293 (2016).
- Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246 (2012).
- Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
- Sanders, W. S., et al.
The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011). - Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
- Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
- Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
- Aken, B. L., et al.
Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017). - Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
- Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
- Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
- Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
- Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
- The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
- Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
- Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
- Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
- Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
- Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
- Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
- Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
- Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
- Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).