Summary

Практическое руководство по Филогенетика для неспециалистов

Published: February 05, 2014
doi:

Summary

Здесь мы опишем шаг за шагом трубопровод для генерации надежных филогении из наборов данных последовательности нуклеотидов или аминокислот. Это руководство стремится служить исследователей или студентов новых к филогенетического анализа.

Abstract

Многие исследователи, по невероятно разнообразной очагов, подаете заявление филогенетики их исследовательской вопрос (ы). Тем не менее, многие исследователи новичок в этой теме, и поэтому он представляет внутренние проблемы. Здесь мы собираем практическое введение в филогенетики для неспециалистов. Мы выделяем в шаг за шагом образом, трубопровод для генерации надежных филогении из наборов данных последовательностей гена. Начнем с пользовательским руководством для подобия инструменты поиска через интернет-интерфейсов, а также местные исполняемых файлов. Затем мы исследуем программы для создания нескольких выравнивания последовательностей с последующим протоколов на использование программного обеспечения, чтобы определить наиболее подходящее моделей эволюции. Мы тогда наметить протоколы для восстановления филогенетические связи через максимального правдоподобия и байесовских критериев и, наконец, описать инструменты для визуализации филогенетических деревьев. Хотя это ни в коем случае исчерпывающее описание филогенетических подходов, она дает читателю практической начиная информаион по ключевым программных приложений обычно используемых филогенетиков. Видение этой статье будет то, что она может служить в качестве практического учебного пособия для исследователей, приступающих к филогенетических исследований, а также служить в качестве образовательного ресурса, которые могли бы быть включены в классе или учебно-лаборатории.

Introduction

Для того, чтобы понять, как два (или более) вид эволюционировал, в первую очередь необходимо для получения последовательности или морфологические данные из каждого образца; эти данные представляют величины, которые мы можем использовать, чтобы измерить их отношения через эволюционного пространства. Так же, как при измерении линейное расстояние, имея больше данных доступны (например, мили, дюймы, мкм) будет приравнять к более точного измерения. Ergo, точность, с которой исследователь может вывести эволюционный расстояние во многом зависит от объема информационных данных, доступных для измерения отношения. Кроме того, поскольку различные образцы развиваться с разной скоростью и по различным механизмам, метод, который мы используем для измерения отношения между двумя таксонов также напрямую влияет на точность эволюционных измерений. Таким образом, поскольку эволюционные отношения непосредственно не наблюдается, но вместо этого были экстраполированы из последовательности или морфологических данных, проблема выведения эволюционнымотношения становится одним из статистики. Филогенетика является отраслью биологии заинтересованной с применением статистических моделей с особенностями эволюции для того, чтобы оптимально восстановить эволюционную историю между таксонов. Эта реконструкция между таксонов называют филогении таксонов в.

Чтобы помочь преодолеть разрыв в компетенции между молекулярными биологами и эволюционных биологов описанных здесь шаг за шагом трубопровода для выведения филогении из набора последовательностей. Во-первых, мы подробно шаги, участвующие в опросе базы данных, используя Basic Local Alignment Search Tool (BLAST 1) алгоритм через веб-интерфейс, а также за счет использования местных исполняемые, это часто является первым шагом в получении список похожих последовательностей неопознанный запрос, хотя некоторые исследователи также можете быть заинтересованы в сборе данных для одной группы с помощью веб-интерфейсов, таких как Phylota (http://www.phylota.net/). BLAST является алгоритмом сomparing первичной аминокислотной или нуклеотидной последовательности данных к базе данных последовательностей искать "хитов", которые напоминают последовательность запросов. Программа BLAST был разработан Стивеном Altschul соавт. в Национальных Институтов Здоровья (NIH) 1. Сервер BLAST состоит из целого ряда различных программ, и вот список некоторых из наиболее распространенных программ BLAST:

я) нуклеотидов нуклеотидов BLAST (BLASTN): Эта программа требует ввода последовательности ДНК и возвращает наиболее похожие последовательности ДНК из базы данных ДНК, который пользователь указывает (например, для конкретного организма).

II) белок-белковых BLAST (BLASTP): Здесь пользователь вводит последовательность белка и программа возвращается наиболее сходные последовательности белка из базы данных белков, которые пользователь задает.

III) Статус-Удельная Итерационное BLAST (PSI-BLAST) (blastpgp): пользовательский ввод PROTEв последовательности, которая возвращает набор тесно взаимосвязанных белков, и с этого набора данных сохраняется профиль генерируется. Следующая новый запрос генерируется с использованием только эти консервативные "мотивы", который используется для опроса базы данных белка, и это возвращает большую группу белков, из которых новый набор консервативных "мотивов" извлекаются и затем используется для допросить базу данных белка до даже больший набор белков настраивали и другого профиля генерируется и процесс повторяется. В том числе связанные белки в запросе на каждой стадии эта программа позволяет пользователю идентифицировать последовательности, которые являются более расходящимся.

IV) нуклеотидов 6-рамка перевод-белок (BLASTX): Здесь пользователь предоставляет вход нуклеотидной последовательности, которая преобразуется в шесть-каркасных концептуальных продуктов перевода (т.е. обе нити) в базе данных белковых последовательностей..

у) нуклеотидных 6-кадра перевода-нуклеотидПеревод 6-кадр (tblastx): При этом программа занимает вход нуклеотидной последовательности ДНК и переводит вход во все шесть кадров концептуальных продуктов трансляции, которые он сравнивает с переводами шесть рамочных базе данных нуклеотидной последовательности.

VI) Белки-нуклеотид 6-рамка перевод (TBLASTN): Эта программа использует входной последовательности белка для сравнения всех шести рамок считывания базы данных нуклеотидной последовательности.

Затем мы опишем часто используемые программы для создания Multiple Sequence Выравнивание (MSA) от последовательности набора данных, и это сопровождается руководстве пользователя к программам, которые определяют наиболее подходящую моделей эволюции для последовательности данных. Филогенетический реконструкция представляет собой статистический проблема, и из-за этого, филогенетические методы должны включать статистической основы. Это статистические рамки становится эволюционная модель, которая включает изменение последовательности в наборе данных. Этот эволюционный месдель состоит из набора предположений о процессе нуклеотидных или аминокислотных замен, и наиболее подходящую модель для конкретного набора данных могут быть выбраны посредством статистических испытаний. Подгонка данным различных моделей можно сравнить с помощью отношения правдоподобия тестов (LRTs) или информационных критериев для выбора наиболее подходящую модель в наборе возможных. Две общие критерии информации являются информационный критерий Акаике (АИК) 2 и байесовский информационный критерий (BIC) 3. После того, как оптимальное выравнивание генерируется, существует много различных методов для создания филогению из выровненных данных. Есть многочисленные методы выведения эволюционные отношения; широко, их можно разделить на две категории: расстояние на основе методов и методов на основе последовательности. Расстояние Методы, основанные на вычисления попарные расстояния из последовательностей, а затем использовать эти расстояния, чтобы получить дерево. Последовательность методов, основанных на использовании выравнивание последовательности непосредственно, и, как правило поиск по тРЗЭ пространство с помощью критерия оптимальности. Мы выделяем два метода последовательности на основе для реконструкции филогенетических взаимоотношений: это PhyML 4, который реализует максимальную рамки правдоподобия, и MrBayes 5, который использует байесовский цепь Маркова Монте-Карло вывод. Вероятность и байесовских методов обеспечения статистической базы для филогенетического реконструкции. Предоставляя информацию о пользователе на часто используемых инструментов дерево-строительных, введем читателя необходимых данных, необходимых для вывода филогенетические связи.

Protocol

1. Основные Часовой Выравнивание Инструмент поиска (BLAST): интерфейс онлайн Нажмите на эту ссылку, чтобы посетить BLAST 1 веб-сервер в Национальном центре биотехнологической информации (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (рис. 1). Введите FASTA фор?…

Representative Results

Поиск сходство с запросом позволяет исследователям приписывать потенциальную личность к новым последовательностей, а также вывести отношения между последовательностями. Тип входного файла для BLAST 1 является FASTA отформатирован последовательность текст или GenBank инвентарный номе…

Discussion

Наша надежда для этой статьи является то, что он будет служить в качестве отправной точки для руководства исследователей или студентов, которые являются новыми для филогенетики. Секвенирования генома проекты стали дешевле, в течение последних нескольких лет, и, как следствие, спроса п?…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Мы благодарим членов лаборатории О'Халлоран замечания по рукописи. Мы благодарим Отделе Университета Джорджа Вашингтона биологических наук и Колумбийский колледж искусств и наук для финансирования Д. O'Halloran.

Referenzen

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/de/50975?article_type=t

Play Video

Diesen Artikel zitieren
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video