Summary

Nonexperts için Phylogenetics İçin Pratik Kılavuz

Published: February 05, 2014
doi:

Summary

Burada nükleotid ya da amino asit dizisi veri setleri güvenilir filogenezlerini üretilmesi için adım adım boru hattını açıklar. Bu kılavuz, araştırmacılar veya filogenetik analize yeni öğrencilere hizmet etmeyi amaçlamaktadır.

Abstract

Birçok araştırmacı, inanılmaz farklı odaklar karşısında, araştırma soru (lar) için Phylogenetics uygulamaktayız. Ancak, birçok araştırmacı bu konuya yeni ve bu yüzden doğal sorunları sunuyor. Burada nonexperts için Filogenetikte için pratik giriş derlemek. Biz bir adım-adım şekilde, gen sekansı veri setlerinden güvenilir filogenezlerini üretmek için bir boru hattı anahat. Biz çevrimiçi arayüzleri yanı sıra yerel yürütülebilir yoluyla benzerlik arama araçları için kullanıcı kılavuzu ile başlar. Sonra, evrim iyi uygun modelleri belirlemek için yazılım kullanarak protokolleri takip çoklu dizi hizalamalarını üretmek için programlar keşfedebilirsiniz. Biz sonra maksimum olabilirlik ve Bayes kriterleri aracılığıyla akrabalık ilişkileri yeniden protokolleri anahat ve nihayet filogenetik ağaçlar görselleştirmek için araçları tanımlamak. Herhangi bir filogenetik yaklaşımlar ayrıntılı bir açıklaması yoluyla bu olmasa da, ki bu durum pratik başlangıç ​​informat ile okuyucu sağlamak yaparyaygın phylogeneticists tarafından kullanılan anahtar yazılım uygulamaları iyon. Bu yazı için vizyonu filogenetik çalışmalar başlamadan araştırmacılar için pratik bir eğitim aracı olarak hizmet etmek ve aynı zamanda bir sınıf veya eğitim-laboratuvar içine dahil edilebilir bir eğitim kaynağı olarak hizmet verebilir olacaktır.

Introduction

İki (veya daha fazla) türler gelişmiş anlamak amacıyla, her bir örnekten dizisi ya da morfolojik veriler elde etmek için gerekli olan ilk olarak, bu veriler, evrimsel uzayda ilişkisini ölçmek için kullanabilir miktarlarını temsil eder. (Örneğin mil, inç, mikron) mevcuttur daha fazla veri daha doğru bir ölçüm eşit olacak olan, doğrusal mesafe ölçme zaman olduğu gibi. Ergo, bir araştırmacı evrimsel mesafe anlamak için hassaslığı ile ağır ilişkileri ölçmek için kullanılabilir bilgi veri hacmine etkilenir. Farklı örnekler, farklı oranlarda ve farklı mekanizmalarla gelişmeye çünkü Ayrıca, biz iki takson arasındaki ilişkiyi ölçmek için kullanılan yöntem de doğrudan evrimsel ölçümlerin doğruluğunu etkiler. Bu nedenle, evrimsel ilişkiler doğrudan gözlenemeyen ancak bunun yerine sırası veya morfolojik verilerin, evrimsel çıkarım sorunu yola çıkılarak çünküilişkiler istatistik biri haline gelir. Phylogenetics optimal takson arasındaki evrimsel geçmişini yeniden amacıyla evrim kalıpları istatistiksel modellerini uygulama ile ilgili biyoloji dalıdır. Takson arasındaki bu imar takson ait phylogeny olarak adlandırılır.

Burada dizileri bir dizi filogenezlerini çıkarım için adım boru hattının bir adım tarif moleküler biyologlar ve evrimsel biyologlar arasında uzmanlık köprü yardımcı olmak için. Öncelikle, biz detay web tabanlı arayüz üzerinden ve yerel yürütülebilir kullanarak Basic Local Alignment Search Tool (BLAST 1) algoritması kullanılarak veritabanı sorgulama dahil adımlar, bu genellikle tanımlanamayan bir benzer dizilerin bir listesini elde ilk adımdır Sorgu, bazı araştırmacılar da bu tür Phylota (http://www.phylota.net/) gibi web arayüzleri yoluyla tek bir grup için veri toplama ilginizi çekebilir rağmen. C BLAST algoritmasıdırSorgu sırası benzeyen "hit" aramak için sıralarının bir veritabanına karşı primer amino asit veya nükleotid dizisi verileri omparing. BLAST programı, Stephen Altschul ve arkadaşları tarafından tasarlanmıştır. Ulusal Sağlık Enstitüleri (NIH) 1. BLAST sunucu farklı programlar bir dizi oluşur ve burada en yaygın ŞOK programların bazılarının bir listesi:

i) Nükleotid-BLAST nükleotid (blastn): Bu program, bir DNA dizisi giriş gerektirir ve DNA veritabanından en benzer DNA dizileri döndüren bir kullanıcının belirlediği Spesifik bir organizma için (örneğin,.)

ii) Protein-protein BLAST (blastp): Burada, kullanıcı, bir protein sekansı girer ve program, kullanıcının belirttiği protein veritabanından en benzer protein dizilerini verir.

iii) Pozisyonu Özgü Iterative BLAST (PSI-BLAST) (blastpgp): Kullanıcı girişi bir prote olduğunuyanında yakın ilişkili proteinler, bir dizi döner sırayla ve bu veri kümesi bir muhafaza profili oluşturulur. Sonraki yeni bir sorgu bir protein veritabanını sorgulamak için kullanılır sadece bu korunmuş "motifler" kullanılarak üretilen ve bu korunmuş "motifleri" yeni bir dizi ayıklanır ve sonra bir protein veritabanı kadar sorgulamak için kullanılan hangi proteinlerin daha büyük bir grup döndürür proteinlerin daha büyük bir küme retuned ve başka bir profil oluşturulur ve işlem tekrarlanır. Her adımda sorguya ilgili proteinlerin dahil ederek bu program kullanıcının daha farklı olan dizileri belirlemek için izin verir.

iv) Nükleotid 6-frame çeviri-protein (BLASTX): Burada, kullanıcı, altı çerçeveli kavramsal çeviri ürünleri (yani dönüştürülür bir nükleotid sekansı, girdi sağlamaktadır her iki kol), bir protein sekans veri tabanına karşı..

v) 6-çerçeve çeviri-nükleotidi Nükleotit6-kare için (TBLASTX): Bu program, bir DNA nükleotid sekansı, girdi alır ve onu bir nükleotit sekans veri tabanının altı çerçeveli çevirileri karşı karşılaştırır altı-çerçeveli kavramsal öteleme ürünleri içine girişi anlamına gelmektedir.

vi) Protein-nükleotid 6-kare için (TBLASTN): Bu program, bir nükleotit sekans veri tabanının altı okuma çerçevesi karşılaştırmak için bir protein sekansıdır girişini kullanır.

Sonra, bir dizi veri kümesi bir Çoklu Dizi Hizalama (MSA) üretmek için yaygın olarak kullanılan programları tanımlamak, ve bu bir dizi veri kümesi için evrimin en uygun modelleri belirlemek programlarına bir kullanım kılavuzu ile takip edilmektedir. Filogenetik rekonstrüksiyon istatistiksel bir sorundur, ve bu nedenle, filogenetik yöntemler istatistiksel bir çerçeve dahil etmek gerekir. Bu istatistiki çerçeve kümesi içinde sekans değişikliğini içermektedir evrimsel bir model haline gelir. Bu evrimsel model nükleotid ya da amino asit ikamelerinin süreci hakkında varsayımlar bir dizi oluşur ve belirli bir veri kümesi için en uygun bir model istatistiksel testler yoluyla seçilebilir. Farklı modellerin verilerine uygun mümkün olanlar bir dizi içinde en uygun modeli seçmek için olabilirlik oranı testleri (Likelihood oran) veya bilgi kriterler ile mukayese edilebilir. İki ortak bilgi kriterleri Akaike bilgi kriteri (AIC) 2 ve Bayesian bilgi ölçütü (BIC) 3 vardır. Optimal hizalama üretildiğinde, hizalanmış verilerden soyoluşu oluşturmak için pek çok farklı yöntem vardır. Evrimsel ilişki çıkarım çok sayıda yöntem vardır, genel olarak, iki kategoriye ayrılabilir: mesafeye göre yöntem ve dizi-bazlı yöntem. Uzaklık dayalı yöntemler dizilerden ikili mesafeleri hesaplamak ve sonra ağaç elde etmek için bu mesafeleri. Dizi-bazlı yöntemler, doğrudan sekans hizalama kullanın ve genellikle t aramaBir eniyilik kriter kullanarak ree alanı. Biz akrabalık ilişkileri yeniden inşa için iki dizi-tabanlı yöntemler anahat: Bu maksimum olabilirlik çerçeveyi uygular PhyML 4, ve Bayes Markov Zinciri Monte Carlo çıkarsama kullanır MrBayes 5. Olabilirlik ve Bayes yöntemleri filogenetik rekonstrüksiyonu için istatistiksel bir çerçeve sağlar. Yaygın olarak kullanılan ağaç-yapı araçları üzerinde kullanıcı bilgilerini sunarak, filogenetik ilişkileri anlaması için gerekli gerekli verilere okuyucuya tanıtmak.

Protocol

1.. Temel Yerel Hizalama Arama Aracı (ŞOK): Çevrimiçi Arayüz Biyoteknoloji Bilgi Ulusal Merkezi (NCBI) de ŞOK 1 web sunucusunu ziyaret etmek için bu linke tıklayınız. – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Şekil 1). Sorgu kutusuna girdi bir FASTA'dır biçimlendirilmiş metin dizisi (örneğin bkz. Şekil 2). Arama kullanmak ve daha sonra "patlama" tıklayın uygu…

Representative Results

Bir sorguya benzerlikler bulma araştırmacılar yeni dizilere potansiyel bir kimlik atfetmek ve aynı zamanda dizilerinin arasındaki ilişkileri anlaması için izin verir. ŞOK 1 için dosya giriş türü FASTA'dır biçimlendirilmiş bir metin dizisi veya GenBank sayıdır. FASTA biçimlendirilmiş dizisi, bir ">" işareti (Şekil 2) ile gösterilen bir açıklama satırı ile başlar. Description ">" işareti, dizisi (yani. Nükleotid veya amino asi…

Discussion

Bu yazı için bizim umudumuz o Filogenetikte için yeni araştırmacıları veya öğrencilere rehberlik etmek için bir başlangıç ​​noktası olarak hizmet verecek olmasıdır. Genom dizileme projeleri son birkaç yıldır daha pahalı hale gelmiştir ve bunun sonucu olarak bu teknoloji için kullanıcı talebi artıyor ve şimdi büyük dizi veri setlerinin üretimi küçük laboratuarlara olağandır. Bu veri kümeleri genellikle işlevini anlamaya başlamak için bir filogenetik çerçeve gerektirir genlerin …

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Biz yazının yorumları için O'Halloran laboratuar üyelerine teşekkür. Biz D. O'Halloran fonlanmas için Biyolojik Bilimler George Washington Üniversitesi Bölümü ve Fen Kolomb Koleji teşekkür ederim.

Riferimenti

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/it/50975?article_type=t

Play Video

Citazione di questo articolo
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video