Summary

Nonexpertsための系統学の実用ガイド

Published: February 05, 2014
doi:

Summary

ここでは、ヌクレオチドまたはアミノ酸配列データセットから信頼性の高い系統発生を生成するためのステップバイステップのパイプラインを説明します。このガイドでは、研究者や系統解析に新たな学生にサービスを提供することを目指しています。

Abstract

多くの研究者は、信じられないほど多様な病巣を越え、自分の研究の質問(複数可)に系統学を適用している。しかし、多くの研究者は、このトピックに新しく追加されたので、それは固有の問題を提示します。ここでは、nonexpertsための系統学への実践的な導入をコンパイルします。我々は、段階的に遺伝子配列データセットから信頼性の高い系統発生を生成するためのパイプラインの概要を説明します。我々は、オンラインのインターフェースだけでなく、ローカルの実行を経由して、類似検索ツールのユーザガイドで開始する。次に、我々は進化のベストフィットのモデルを決定するためにソフトウェアを使用するためのプロトコルに続いて複数の配列アラインメントを生成するためのプログラムを探る。次に、最尤ベイズ基準を経由して系統関係を再構築するためのプロトコルの概要を説明し、最終的に系統樹を可視化するためのツールについて説明します。これはいかなる手段系統学的手法を徹底的に記述によるものですが、実用的な開始のinformatを読者に提供していますか一般phylogeneticistsによって利用主要ソフトウェア·アプリケーションへのイオン。この記事のビジョンは、系統学的研究に着手する研究者のための実践的なトレーニング·ツールとして機能し、また、教室や教育·研究室に組み込むことができる教育資源として役立つことができるということでしょう。

Introduction

、2つ(またはそれ以上)の種が進化したかを理解するためには、各試料から配列または形態学的データを取得することが必要であり、これらのデータは、我々は進化の空間を介してそれらの関係を測定するために使用できる量を表す。直線距離を測定するときと同じように、( 例えばマイル、インチ、ミクロン)より多くのデータが利用可能なものがより正確な測定を同一視します。エルゴは、研究者が進化距離を推定することができる精度は、高濃度の関係を測定するために利用可能な情報データの量によって影響される。異なるサンプルは異なるレートで、異なるメカニズムによって進化するため、また、我々二つの分類群との間の関係を測定するために使用する方法は、直接進化的測定の精度に影響を与える。そのため、進化的関係は直接観測されていませんが、代わりにシーケンスまたは形態学的データ、進化の推論の問題から推定されているので関係は統計の1になります。系統学は、最適の分類群間の進化の歴史を再構成するために進化のパターンに統計モデルを適用することに関する生物学の一分野である。分類群間のこの再構成は、分類群の系統と呼ばれている。

分子生物学と進化生物学者の間で専門知識のギャップを埋めるために、ここではシーケンスのセットから系統発生を推測する段階パイプラインを追って説明します。第一に、我々は詳細なWebベースのインターフェイスを介して、また、地元の実行可能ファイルを使用して基本的なローカル配列検索ツール(BLAST 1)アルゴリズムを使用して、データベースの尋問に必要な手順、これは多くの場合、未確認のに類似した配列のリストを取得するための最初のステップですクエリ、一部の研究者はまた、Phylota(http://www.phylota.net/)などのWebインタフェースを介して単一のグループのためのデータ収集に興味があるかもしれない。 BLASTは、Cのためのアルゴリズムであるクエリー配列に似ている "ヒット"を検索するための配列のデータベースに対して一次アミノ酸またはヌクレオチド配列データをomparing。 BLASTプログラムは、スティーブン·アルチュールによって設計されました。国立衛生研究所(NIH)で1。 BLASTサーバーは、さまざまなプログラムの数で構成されており、ここでは最も一般的なBLASTプログラムのいくつかのリストです。

i)のヌクレオチド-ヌクレオチドBLAST(blastnを):このプログラムは、DNA配列の入力を必要とし、DNAデータベースから、最も類似したDNA配列を返し、そのユーザが指定する特定の生物( 例えば )。

II) タンパク質-タンパク質BLAST(BLASTP):ここでは、ユーザは、タンパク質配列を入力し、プログラムは、ユーザが指定したタンパク質データベースから最も類似タンパク質配列を返します。

III) 位置特異的反復BLAST(PSI-BLAST)(blastpgp):ユーザー入力proteです密接に関連するタンパク質のセットを返す順序であり、このデータセットから保存されたプロファイルが生成されます。次の新たなクエリは、タンパク質データベースを問い合わせるために使用される場合にのみ、これらの保存された「モチーフ」を用いて生成され、これは、保存された「モチーフ」の新しいセットを抽出し、それまでタンパク質データベースに問い合わせをするために使用されるタンパク質の大きなグループを返すタンパク質のより大きなセットが再調整され、別のプロファイルが生成され、プロセスが繰り返される。各ステップでのクエリに関連するタンパク質を含んでいることによって、このプログラムは、ユーザーがより多くの発散である配列を同定することができます。

iv)のヌクレオチド、6フレーム翻訳タンパク質(BLASTXを):ここでは、ユーザは、タンパク質配列データベースに対して6フレームの概念的翻訳産物( すなわち、両方の鎖)に変換されるヌクレオチド配列の入力を提供する。

V)6 -フレーム翻訳ヌクレオチドをヌクレオチド6フレーム翻訳(TBLASTX):このプログラムは、DNA塩基配列入力を受け取り、それをヌクレオチド配列データベースの6フレーム翻訳に対して比較するすべての6フレームの概念的翻訳産物への入力を変換する。

VI) タンパク質-ヌクレオチドの6フレーム翻訳(TBLASTN):このプログラムは、ヌクレオチド配列データベースの6つのすべてのリーディングフレームと比較するタンパク質配列の入力を使用しています。

次に、シーケンスデータセットから複数の配列アラインメント(MSA)を生成するために一般的に使用されるプログラムを記述し、これは、配列データセットの進化のベストフィットモデルを決定プログラムへのユーザーガイドが続く。系統発生再構築は、統計的な問題であり、このため、系統発生の方法は、統計的なフレームワークを組み込む必要があります。この統計フレームワークは、データセット内の配列変化を組み込んだ進化のモデルになります。この進化のMOデルは、ヌクレオチドまたはアミノ酸置換の方法に関する仮定の集合で構成され、特定のデータセットの最良適合モデルは、統計的検定を介して選択することができる。異なるモデルのデータへの適合が可能なもののセット内のベストフィットモデルを選択する尤度比検定(LRTs)又は情報量規準を介して比較することができる。二つの共通情報基準は、赤池情報量基準(AIC)2とベイズ情報量基準(BIC)3である。最適なアラインメントが生成されると、整列されたデータから系統樹を作成するための多くの異なる方法がある。進化的関係を推測する多くの方法がありますが、広い意味では、彼らは2つのカテゴリに分けることができます:距離ベースの方法と順序ベースの方法。距離ベースの方法は、配列からのペアごとの距離を計算してから、木を得るために、これらの距離を使用しています。配列に基づく方法には、直接配列アラインメントを使用し、通常のTを検索最適性基準を使用してREEスペース。私たちは、系統関係を再構築するための2列ベースの方法の概要を示します。これらは、最尤フレームワークを実装しPhyML 4であり、ベイズマルコフ連鎖モンテカルロの推論を使用していますMrBayes 5。可能性とベイズ法は、系統学的再建のための統計的なフレームワークを提供します。一般的に使用されるツリー構築ツールのユーザ情報を提供することにより、我々は系統関係を推定するために必要な必要なデータを読者に紹介する。

Protocol

1。基本的なローカル配列検索ツール(BLAST):オンラインインターフェース国立バイオテクノロジー情報センター(NCBI)のBLAST 1のWebサーバにアクセスしてくださいするには、このリンクをクリックしてください。 – http://blast.ncbi.nlm.nih.gov/Blast.cgi ( 図1)。 検索ボックスに入力FASTA形式のテキスト列(例えば図…

Representative Results

クエリに類似点を見つけることが、研究者は新しい配列に対する潜在的なアイデンティティをせいとも配列の間の関係を推測することができます。 BLAST 1のファイル入力タイプは、FASTA形式のテキスト配列またはGenBankアクセッション番号です。 FASTAフォーマットされたシーケンスは、「>」記号( 図2)で示される記述行から始まります。説明は、 ">"記号、配?…

Discussion

この記事の私たちの願いは、系統学を初めて使用する研究者や学生を指導するための出発点となることである。ゲノム配列決定プロジェクトは、ここ数年の間に、より安価になっており、結果として、この技術に対するユーザーの需要が増加しており、現在、大規模なシーケンスデータセットの生産は、小さな研究室で一般的である。これらのデータセットは、多くの場合、それらの機能を?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

私たちは、原稿にコメントをオハロランラボのメンバーに感謝。私たちは、D·オハロランに資金調達のための生物科学のジョージ·ワシントン大学学科、芸術科学コロンビア大学に感謝します。

Riferimenti

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/it/50975?article_type=t

Play Video

Citazione di questo articolo
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video