A Practical Guide to Phylogenetics for Nonexperts

Damien O'Halloran

doi:10.3791/50975

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biologia

دليل عملي لPhylogenetics لNonexperts

Published: February 05, 2014

doi:

10.3791/50975

Damien O’Halloran

¹Department of Biological Sciences and Institute for Neuroscience,The George Washington University

Summary

نحن هنا وصف خط أنابيب خطوة بخطوة لتوليد phylogenies موثوق بها من النوكليوتيدات أو الأحماض الأمينية تسلسل قواعد البيانات. ويهدف هذا الدليل لخدمة الباحثين أو الطلاب الجدد لتحليل النشوء والتطور.

Abstract

العديد من الباحثين، عبر بؤر متنوعة بشكل لا يصدق، وتطبيق phylogenetics على سؤال أبحاثهم (ق). ومع ذلك، العديد من الباحثين جديدا على هذا الموضوع وذلك يعرض المشاكل المتأصلة. نحن هنا تجميع مقدمة عملية لphylogenetics لnonexperts. ونحن الخطوط العريضة بطريقة خطوة بخطوة، خط أنابيب لتوليد phylogenies موثوق بها من مجموعات البيانات تسلسل الجينات. نبدأ مع-دليل المستخدم لأدوات البحث التشابه عبر واجهات الانترنت وكذلك التنفيذية المحلية. المقبل، ونحن استكشاف برامج لتوليد التحالفات تسلسل متعددة تليها البروتوكولات لاستخدام البرنامج لتحديد أفضل نماذج تناسب التطور. نحن بعد ذلك الخطوط العريضة لإعادة إعمار بروتوكولات العلاقات النشوء والتطور عبر أقصى احتمال والمعايير النظرية الافتراضية ووصف أخيرا أدوات لتصور أشجار النشوء والتطور. في حين أن هذا ليس بأي وسيلة وصفا شاملا لنهج النشوء والتطور، فإنه لا يقدم للقارئ المعلومات حول عملية بدء العمليةايون على تطبيقات البرامج الرئيسية المستخدمة عادة من قبل phylogeneticists. ان الرؤية لهذه المادة أنه يمكن أن يكون بمثابة أداة تدريب عملي للباحثين الشروع في دراسات النشوء والتطور وأيضا بمثابة الموارد التعليمية التي يمكن إدراجها في أحد الفصول أو التدريس في المعمل.

Introduction

من أجل فهم كيفية تطور اثنين (أو أكثر) من الأنواع، فمن الضروري أولا للحصول على تسلسل أو البيانات المورفولوجية من كل عينة؛ تمثل هذه البيانات الكميات التي يمكننا استخدامها لقياس العلاقة بينهما عبر الفضاء التطورية. تماما مثل عند قياس المسافة الخطية، بعد أن والمزيد من البيانات المتاحة (مثل ميل، بوصة، ميكرون) تساوي قياس أكثر دقة. إرجو، والدقة التي يمكن أن نستنتج الباحث المسافة التطورية ويتأثر بشدة من حجم البيانات بالمعلومات المتوفرة لقياس العلاقات. وعلاوة على ذلك، لأن عينات مختلفة تتطور بمعدلات مختلفة وآليات مختلفة، والطريقة التي نستخدمها لقياس العلاقة بين اثنين من الأنواع أيضا يؤثر بشكل مباشر على دقة القياسات التطورية. لذلك، لأن العلاقات التطورية لا تراعى مباشرة ولكن بدلا من ذلك يتم استقراء من تسلسل أو البيانات المورفولوجية، مشكلة استنتاج التطوريالعلاقات يصبح واحدا من الإحصاءات. Phylogenetics هي فرع من فروع علم الأحياء المعنية مع تطبيق النماذج الإحصائية لأنماط التطور من أجل إعادة بناء التاريخ التطوري على النحو الأمثل بين الأصناف. ويشار إلى هذه الأصناف لإعادة الإعمار بين نسالة كما في الأنواع و.

للمساعدة على سد الفجوة في الخبرات بين علماء البيولوجيا الجزيئية والبيولوجيا التطورية وصفنا هنا خطوة خطوة عن طريق خط أنابيب لاستنتاج phylogenies من مجموعة من متواليات. أولا، نحن بالتفصيل الخطوات المتبعة في الاستجواب قاعدة البيانات باستخدام بسيطة المحلي محاذاة أداة البحث (الانفجار ¹⁾ الخوارزمية من خلال واجهة على شبكة الإنترنت، وكذلك باستخدام التنفيذية المحلية، وهذا غالبا ما يكون الخطوة الأولى في الحصول على قائمة من سلاسل مشابهة لمجهولين الاستعلام، على الرغم من أن بعض الباحثين قد تكون مهتمة ايضا في جمع البيانات لمجموعة واحدة عبر واجهات شبكة الإنترنت مثل Phylota (http://www.phylota.net/). انفجار هو خوارزمية لجomparing الأحماض الأمينية الأساسية أو بيانات تسلسل النوكليوتيدات مقابل قاعدة بيانات من تسلسل للبحث عن "يضرب" التي تشبه تسلسل الاستعلام. وقد تم تصميم البرنامج انفجار ستيفن Altschul وآخرون. في المعاهد الوطنية للصحة (NIH) ^1. يتكون خادم انفجار عدد من البرامج المختلفة، وهنا لائحة لبعض البرامج انفجار الأكثر شيوعا:

ط) انفجار النوكليوتيدات النوكليوتيدات (BLASTN): يتطلب هذا البرنامج إدخال تسلسل الحمض النووي وإرجاع تسلسل الحمض النووي الأكثر مماثلة من قاعدة بيانات الحمض النووي أن يحدد المستخدم (على سبيل المثال لكائن معين).

ب) البروتين البروتين انفجار (blastp): هنا المستخدم مدخلات تسلسل البروتين وبرنامج بإرجاع تسلسل البروتين الأكثر مماثلة من قاعدة البيانات البروتين الذي يحدد المستخدم.

ج) موقف محدد انفجار تكرارية (PSI-انفجار) (blastpgp): إن إدخال المستخدم هو المتواجدفي تسلسل التي ترجع مجموعة من البروتينات ترتبط ارتباطا وثيقا، ومن هذه البينات يتم إنشاء ملف تعريف الحفظ. المقبل يتم إنشاء استعلام جديد فقط باستخدام هذه "الزخارف" الحفظ الذي يستخدم لاستجواب قاعدة بيانات البروتين وهذا بإرجاع مجموعة أكبر من البروتينات التي مجموعة جديدة من "الزخارف" الحفظ يتم استخراج وتستخدم بعد ذلك لاستجواب قاعدة بيانات البروتين حتى وعاد مجموعة أكبر من البروتينات ويتم إنشاء ملف تعريف آخر وكرر العملية. من قبل بما في ذلك البروتينات ذات الصلة في الاستعلام في كل خطوة هذا البرنامج يتيح للمستخدم تحديد متواليات التي هي أكثر المتباينة.

د) النوكليوتيدات 6 الإطار الترجمة البروتين (blastx): وهنا يوفر للمستخدم مدخلا تسلسل النوكليوتيدات التي يتم تحويلها إلى ستة الإطار المفاهيمي المنتجات الترجمة (أي كل من فروع) مقابل قاعدة بيانات تسلسل البروتين.

ت) النوكليوتيدات 6 الإطار الترجمة النوكليوتيداتالترجمة 6 الإطار (tblastx): هذا البرنامج يأخذ مدخلات تسلسل النوكليوتيدات الحمض النووي ويترجم المدخلات إلى كل ستة الإطار المفاهيمي المنتجات الترجمة الذي يقارن ضد الترجمات ستة الإطار قاعدة بيانات تسلسل النوكليوتيدات.

سادسا) البروتين النوكليوتيدات الترجمة 6 الإطار (tblastn): يستخدم هذا البرنامج لإدخال تسلسل البروتين لمقارنة ضد جميع الأطر القراءة ستة من قاعدة بيانات تسلسل النوكليوتيدات.

المقبل، ونحن تصف البرامج استخداما لتوليد تسلسل محاذاة متعددة (MSA) من مجموعة بيانات تسلسل، وهذا تبعتها دليل المستخدم لبرامج التي تحدد نماذج أفضل تناسب التطور لمجموعة بيانات التسلسل. إعادة الإعمار النشوء والتطور مشكلة الإحصائية، وبسبب هذا، وأساليب النشوء والتطور بحاجة إلى دمج إطار إحصائي. يصبح هذا الإطار الإحصائي نموذج التطوري الذي يشتمل على تغيير تسلسل ضمن مجموعة البيانات. هذا مو التطوريوتتألف ديل مجموعة من الافتراضات حول عملية النوكليوتيدات أو الأحماض الأمينية بدائل، ويمكن اختيار أفضل نموذج لاحتواء مجموعة بيانات خاصة من خلال اختبار الإحصائية. صالح لبيانات من نماذج مختلفة يمكن مقارنتها عبر اختبارات نسبة احتمال (LRTs) أو معايير المعلومات لتحديد أنسب نموذج ضمن مجموعة من تلك ممكن. معيارين المعلومات شيوعا هي المعيار Akaike المعلومات (AIC) ² والمعيار المعلومات النظرية الافتراضية (BIC) ^3. مرة واحدة يتم إنشاء محاذاة الأمثل، وهناك العديد من الطرق المختلفة لإنشاء نسالة من البيانات الانحياز. هناك طرق عديدة لاستنتاج العلاقات التطورية؛ على نطاق واسع، ويمكن تقسيمها إلى فئتين: طرق القائم على مسافة والأساليب القائمة على التسلسل. الطرق المعتمدة على مسافة حساب المسافات البشرى من متواليات، ومن ثم استخدام هذه المسافات للحصول على الشجرة. الأساليب القائمة على استخدام تسلسل المحاذاة تسلسل مباشرة، وعادة ما بحث رالفضاء ري باستخدام معيار المثالية. ونحن الخطوط العريضة الأساليب القائمة على تسلسل اثنين لإعادة بناء العلاقات النشوء والتطور: هذه هي PhyML ⁴ الذي ينفذ الإطار احتمال الحد الأقصى، وMrBayes ⁵ والذي يستخدم النظرية الافتراضية سلسلة ماركوف مونتي كارلو الاستدلال. احتمال والأساليب النظرية الافتراضية توفير إطار إحصائي لإعادة الإعمار النشوء والتطور. من خلال توفير معلومات المستخدم التي يشيع استخدامها على أدوات بناء شجرة، ونحن نقدم للقارئ البيانات اللازمة لاستنتاج العلاقات النشوء والتطور.

Protocol

1. محاذاة الأساسية المحلية أداة البحث (الانفجار): واجهة على الانترنت انقر على هذا الرابط لزيارة خادم الويب انفجار 1 في المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI). – http://blast.ncbi.nlm.nih.gov/…

Representative Results

العثور على أوجه التشابه مع استعلام يسمح للباحثين لصقه هوية القدرة على تسلسل جديدة وأيضا نستنتج العلاقات بين متواليات. نوع ملف الإدخال للانفجار 1 هو FASTA تسلسل النص المنسق أو بنك الجينات عدد الانضمام. تسلسل FASTA تنسيق يبدأ مع خط وصف المشار إليها بواسطة ">" علا…

Discussion

أملنا لهذا المقال هو أنه سيكون بمثابة نقطة انطلاق لتوجيه الباحثين أو الطلاب الذين هم جديدة لphylogenetics. أصبحت مشاريع تسلسل الجينوم أقل تكلفة على مدى السنوات القليلة الماضية ونتيجة لذلك الطلب مستخدم لهذه التكنولوجيا في تزايد مستمر، والآن إنتاج مجموعات البيانات الكبيرة…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

نشكر أعضاء المختبر أوهالرون للتعليق على المخطوطة. نشكر وزارة جامعة جورج واشنطن للعلوم البيولوجية وكلية الكولومبي الآداب والعلوم للحصول على تمويل لD. أوهالرون.

Materials

BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

Riferimenti

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

دليل عملي لPhylogenetics لNonexperts

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

دليل عملي لPhylogenetics لNonexperts

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below