Summary

Nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक गाइड

Published: February 05, 2014
doi:

Summary

यहाँ हम न्यूक्लियोटाइड या अमीनो एसिड अनुक्रम डेटासेट से विश्वसनीय phylogenies पैदा करने के लिए एक कदम दर कदम पाइपलाइन का वर्णन. इस गाइड शोधकर्ताओं या वंशावली विश्लेषण करने के लिए नए छात्रों की सेवा करना है.

Abstract

कई शोधकर्ताओं, अविश्वसनीय रूप से विविध foci भर में, उनके अनुसंधान प्रश्न (ओं) को Phylogenetics आवेदन कर रहे हैं. हालांकि, कई शोधकर्ताओं ने इस विषय के लिए नए हैं और इसलिए यह अंतर्निहित समस्याओं को प्रस्तुत. यहाँ हम nonexperts के लिए Phylogenetics के लिए एक व्यावहारिक परिचय संकलन. हम एक कदम दर कदम तरीके, जीन अनुक्रम डेटासेट से विश्वसनीय phylogenies पैदा करने के लिए एक पाइप लाइन में रूपरेखा. हम ऑनलाइन इंटरफेस के साथ ही स्थानीय निष्पादनयोग्य के माध्यम से समानता खोजी उपकरण के लिए एक उपयोगकर्ता के गाइड के साथ शुरू करते हैं. अगला, हम विकास की सबसे फिट मॉडल निर्धारित करने के लिए सॉफ्टवेयर का उपयोग करने के लिए प्रोटोकॉल द्वारा पीछा एकाधिक अनुक्रम संरेखण पैदा करने के लिए कार्यक्रमों का पता लगाने. हम तो अधिकतम संभावना और Bayesian मापदंड के द्वारा वंशावली रिश्तों के पुनर्निर्माण के लिए प्रोटोकॉल रूपरेखा और अंत में वंशावली पेड़ दृश्यमान करने के लिए उपकरणों का वर्णन. किसी भी वंशावली दृष्टिकोण की एक विस्तृत विवरण का मतलब द्वारा यह नहीं है, यह व्यावहारिक शुरू कर informat के साथ पाठक प्रदान करता हैसामान्यतः phylogeneticists द्वारा उपयोग प्रमुख सॉफ्टवेयर अनुप्रयोगों पर आयन. इस लेख के लिए दृष्टि यह वंशावली पढ़ाई पर तैयार कर रहे शोधकर्ताओं के लिए एक व्यावहारिक प्रशिक्षण उपकरण के रूप में सेवा करते हैं और यह भी एक कक्षा या शिक्षण प्रयोगशाला में शामिल किया जा सकता है कि एक शैक्षिक संसाधन के रूप में सेवा कर सकता है कि होगा.

Introduction

दो (या अधिक) प्रजाति विकसित कैसे को समझने के लिए, यह प्रत्येक नमूने से अनुक्रम या रूपात्मक डेटा प्राप्त करने के लिए पहली आवश्यक है, इन आंकड़ों हम विकासवादी अंतरिक्ष के माध्यम से अपने रिश्ते को मापने के लिए उपयोग कर सकते हैं कि मात्रा का प्रतिनिधित्व करते हैं. (उदाहरण के लिए मील, इंच, माइक्रोन) उपलब्ध अधिक डेटा एक अधिक सटीक माप के लिए समानता मिलेगी, रेखीय दूरी मापने जब ​​बस की तरह. फलस्वरूप, एक शोधकर्ता विकासवादी दूरी अनुमान कर सकते हैं सटीकता के साथ जो भारी रिश्तों को मापने के लिए उपलब्ध जानकारीपूर्ण डेटा की मात्रा से प्रभावित है. विभिन्न नमूनों अलग दरों पर और अलग तंत्र द्वारा विकसित क्योंकि इसके अलावा, हम दो taxa के बीच संबंधों को मापने के लिए उपयोग किए जाने वाले विधि भी सीधे विकासवादी माप की शुद्धता को प्रभावित करती है. इसलिए, विकास के संबंधों पर सीधे नहीं मनाया जाता है लेकिन बजाय अनुक्रम या रूपात्मक डेटा, विकासवादी inferring की समस्या से extrapolated रहे हैं क्योंकिरिश्तों आंकड़ों में से एक हो जाता है. Phylogenetics बेहतर taxa के बीच विकास के इतिहास को फिर से संगठित करने के क्रम में विकास के पैटर्न के लिए सांख्यिकीय मॉडल को लागू करने के साथ संबंध जीव विज्ञान की शाखा है. Taxa के बीच यह पुनर्निर्माण taxa की फाइलोजेनी के रूप में जाना जाता है.

हम यहाँ दृश्यों का एक सेट से phylogenies inferring के लिए कदम पाइप लाइन के द्वारा एक कदम का वर्णन आणविक जीव और विकासवादी जीव के बीच विशेषज्ञता में खाई पाटने में मदद करने के लिए. सबसे पहले, हम विस्तार से वेब आधारित इंटरफेस के माध्यम से और भी स्थानीय निष्पादनयोग्य का उपयोग करके बेसिक स्थानीय संरेखण खोज उपकरण (ब्लास्ट 1) कलन विधि का उपयोग डेटाबेस पूछताछ में शामिल कदम है, यह अक्सर एक अज्ञात के लिए इसी तरह के दृश्यों की एक सूची प्राप्त करने में पहला कदम है क्वेरी, कुछ शोधकर्ताओं ने यह भी Phylota (http://www.phylota.net/) के रूप में वेब इंटरफेस के माध्यम से एक ही समूह के लिए डेटा इकट्ठा करने में रुचि हो सकती है. ब्लास्ट ग के लिए एक एल्गोरिथ्म हैक्वेरी अनुक्रम सदृश कि 'हिट' के लिए खोज करने के लिए दृश्यों का एक डाटाबेस के खिलाफ प्राथमिक अमीनो एसिड या nucleotide अनुक्रम डेटा omparing. ब्लास्ट कार्यक्रम स्टीफन Altschul एट अल द्वारा डिजाइन किया गया था. राष्ट्रीय स्वास्थ्य संस्थान (एनआईएच) में 1. ब्लास्ट सर्वर विभिन्न कार्यक्रमों के एक नंबर के होते हैं, और यहाँ सबसे आम ब्लास्ट कार्यक्रमों में से कुछ की एक सूची है:

मैं) nucleotide-न्यूक्लियोटाइड ब्लास्ट (blastn): इस कार्यक्रम के एक डीएनए अनुक्रम इनपुट की आवश्यकता है और डीएनए डेटाबेस से ज्यादा समान डीएनए दृश्यों देता है कि उपयोगकर्ता निर्दिष्ट करता है कि एक विशिष्ट जीव के लिए (उदाहरण के लिए).

द्वितीय) प्रोटीन प्रोटीन ब्लास्ट (blastp): यहाँ उपयोगकर्ता एक प्रोटीन अनुक्रम जानकारी और प्रोग्राम उपयोगकर्ता निर्दिष्ट करता है कि प्रोटीन डेटाबेस से ज्यादा समान प्रोटीन दृश्यों देता है.

III) स्थिति विशिष्ट चलने का विस्फोट (साई ब्लास्ट) (blastpgp): उपयोगकर्ता इनपुट एक prote हैनिकट से संबंधित प्रोटीन का एक सेट देता है जो अनुक्रम में, और इस डाटासेट से एक संरक्षित प्रोफाइल उत्पन्न होता है. अगला एक नई क्वेरी एक प्रोटीन डेटाबेस से पूछताछ करने के लिए प्रयोग किया जाता है जो केवल इन संरक्षित "रूपांकनों" का उपयोग कर उत्पन्न होता है और इस संरक्षित "रूपांकनों" का एक नया सेट निकाला और फिर एक प्रोटीन डेटाबेस तक पूछताछ करने के लिए उपयोग किया जाता है, जिसमें से प्रोटीन का एक बड़ा समूह रिटर्न प्रोटीन का एक भी बड़ा सेट लौटा रहे हैं और एक अन्य प्रोफाइल उत्पन्न होता है और इस प्रक्रिया को दोहराया. प्रत्येक चरण में क्वेरी में संबंधित प्रोटीन शामिल करके इस कार्यक्रम उपयोगकर्ता अधिक मुक़्तलिफ़ हैं कि दृश्यों की पहचान करने के लिए अनुमति देता है.

चतुर्थ) Nucleotide 6 फ्रेम अनुवाद प्रोटीन (blastx): यहाँ उपयोगकर्ता छह फ्रेम वैचारिक अनुवाद उत्पादों (यानी में बदल जाता है, जो एक nucleotide अनुक्रम इनपुट प्रदान करता है दोनों किस्में) एक प्रोटीन अनुक्रम डेटाबेस के खिलाफ..

V) 6 फ्रेम अनुवाद-न्यूक्लियोटाइड न्यूक्लियोटाइड6 फ्रेम अनुवाद (tblastx): इस कार्यक्रम के एक डीएनए nucleotide अनुक्रम इनपुट लेता है और यह एक nucleotide अनुक्रम डेटाबेस के छह फ्रेम में अनुवाद के खिलाफ तुलना जो सभी छह फ्रेम वैचारिक अनुवाद उत्पादों में निवेश के लिए अनुवाद.

vi) प्रोटीन न्यूक्लियोटाइड 6 फ्रेम अनुवाद (tblastn): इस कार्यक्रम के एक nucleotide अनुक्रम डेटाबेस के सभी छह पढ़ने फ्रेम के खिलाफ तुलना करने के लिए एक प्रोटीन अनुक्रम इनपुट का उपयोग करता है.

अगला, हम एक दृश्य डाटासेट से एक एकाधिक अनुक्रम संरेखण (एमएसए) पैदा करने के लिए आमतौर पर इस्तेमाल किया कार्यक्रमों का वर्णन है, और यह एक दृश्य डाटासेट के लिए विकास की सबसे फिट मॉडल है कि निर्धारित कार्यक्रमों के लिए एक उपयोगकर्ता के गाइड द्वारा पीछा किया जाता है. जातिवृत्तिक पुनर्निर्माण एक सांख्यिकीय समस्या है, और इस वजह से, वंशावली तरीकों एक सांख्यिकीय ढांचे को शामिल करने की जरूरत है. इस सांख्यिकीय ढांचे डाटासेट भीतर अनुक्रम परिवर्तन को शामिल किया गया है कि एक विकासवादी मॉडल बन जाता है. इस विकासवादी मोडेल न्यूक्लियोटाइड या एमिनो एसिड प्रतिस्थापन की प्रक्रिया के बारे में मान्यताओं का एक सेट शामिल है, और एक विशेष डाटासेट के लिए सबसे फिट मॉडल सांख्यिकीय परीक्षण के माध्यम से चुना जा सकता है. विभिन्न मॉडलों के डेटा के लिए फिट संभव वालों में से एक सेट के भीतर सबसे फिट मॉडल का चयन करने के लिए संभावना अनुपात परीक्षण (LRTs) या जानकारी मापदंड के माध्यम से तुलना की जा सकती. दो आम जानकारी मापदंड Akaike जानकारी कसौटी (एआईसी) 2 और Bayesian जानकारी कसौटी (बीआईसी) 3 रहे हैं. एक इष्टतम संरेखण उत्पन्न हो जाने के बाद गठबंधन डेटा से एक फाइलोजेनी बनाने के लिए कई अलग अलग तरीके हैं. विकासवादी रिश्तों inferring के कई तरीके हैं, मोटे तौर पर, वे दो श्रेणियों में बांटा जा सकता है: दूरी आधारित विधियों और अनुक्रम आधारित विधियों. दूरी आधारित विधियों दृश्यों से जोड़ो दूरी की गणना, और फिर पेड़ प्राप्त करने के लिए इन दूरियों का उपयोग करें. अनुक्रम आधारित विधियों सीधे अनुक्रम संरेखण का उपयोग, और आमतौर पर टी खोजएक optimality कसौटी का उपयोग REE अंतरिक्ष. हम वंशावली रिश्तों के पुनर्निर्माण के लिए दो अनुक्रम आधारित विधियों की रूपरेखा तैयार: इन अधिकतम संभावना ढांचे को लागू करता है जो PhyML 4 हैं, और Bayesian मार्कोव चेन मोंटे कार्लो निष्कर्ष का उपयोग करता है जो MrBayes 5. संभावना और Bayesian तरीकों वंशावली पुनर्निर्माण के लिए एक सांख्यिकीय ढांचा प्रदान करते हैं. आमतौर पर इस्तेमाल किया पेड़ निर्माण उपकरणों पर उपयोगकर्ता जानकारी प्रदान करके, हम वंशावली रिश्तों अनुमान करने के लिए आवश्यक आवश्यक डेटा के लिए पाठक परिचय.

Protocol

1. बेसिक स्थानीय संरेखण खोज उपकरण (ब्लास्ट): ऑनलाइन इंटरफ़ेस जैव प्रौद्योगिकी सूचना के लिए राष्ट्रीय केन्द्र (एन सी बी आई) में हुए विस्फोट 1 वेब सर्वर यात्रा करने के लिए इस लिंक पर क्लिक करें. – <a href="h…

Representative Results

एक प्रश्न के समानता ढूँढना शोधकर्ताओं नए दृश्यों के लिए एक संभावित पहचान मानो और भी दृश्यों के बीच संबंधों का अनुमान लगाने के लिए अनुमति देता है. ब्लास्ट 1 के लिए फ़ाइल इनपुट प्रकार FASTA स्वरूपित पाठ ?…

Discussion

इस लेख के लिए हमारी आशा है कि यह Phylogenetics के लिए नए हैं कि शोधकर्ताओं या छात्रों के मार्गदर्शन के लिए एक प्रारंभिक बिंदु के रूप में सेवा करेंगे. जीनोम अनुक्रमण परियोजनाओं पिछले कुछ वर्षों में कम महंगे हो गए…

Declarações

The authors have nothing to disclose.

Acknowledgements

हम पांडुलिपि पर टिप्पणियों के लिए O'Halloran प्रयोगशाला के सदस्यों को धन्यवाद. हम डी. O'Halloran के लिए वित्त पोषण के लिए जीव विज्ञान के जॉर्ज वाशिंगटन विश्वविद्यालय के विभाग और कला और विज्ञान के कोलंबियन कॉलेज धन्यवाद.

Referências

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/pt/50975?article_type=t

Play Video

Citar este artigo
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video