Summary

Använda fylogenetisk analys för att undersöka eukaryota gen ursprung

Published: August 14, 2018
doi:

Summary

En metod för att konstruera ett fylogenetiskt träd baserat på sekvenshomologi sötsaker från Eukaryoter och SemiSWEETs från prokaryoter beskrivs. Fylogenetisk analys är ett användbart verktyg för att förklara den evolutionära släktskap mellan homologa proteiner eller gener från olika organismgrupper.

Abstract

Fylogenetisk analys använder nukleotid eller amino syra ordnar eller andra parametrar, såsom domän sekvenser och tredimensionella struktur, för att konstruera ett träd för att visa evolutionära förhållandet mellan olika taxa (klassificering enheter) på molekylära nivå. Fylogenetisk analys kan också användas att undersöka domän relationer inom en enskild taxon, bestämt för organismer som har genomgått betydande ändra i morfologi och fysiologi, men för vilka forskare saknar fossila bevis på grund av organismers långa evolutionära historia eller brist på fossiliseras.

I denna text beskrivs ett detaljerat protokoll för fylogenetiska metoden, inklusive aminosyra sekvens justering med hjälp av Clustal Omega och efterföljande fylogenetiska träd konstruktion använder båda högsta sannolikheten (ML) av molekylär Evolutionär genetik Analys (MEGA) och Bayesiansk inferens via MrBayes. För att undersöka ursprunget för eukaryota Sockerarter kommer så småningom vara exporteras transportörer (SWEET) gener, analyserades 228 godis inklusive 35 söta proteiner från encelliga eukaryoter och 57 SemiSWEET proteiner från prokaryoter. Intressant SemiSWEETs hittades i prokaryoter, men godis hittades i Eukaryoter. Två fylogenetiska träd byggda med teoretiskt skilda metoder har genomgående föreslagit att den första eukaryota söta genen kan stamceller från fusionen av en bakteriell SemiSWEET och genen en archaeal SemiSWEET. Det är värt att notera att man bör vara försiktig att dra en slutsats baserat endast på fylogenetisk analys, även om det är användbart att förklara det underliggande förhållandet mellan olika taxa, som är svårt eller omöjligt att urskilja genom experimentella metoder .

Introduction

DNA eller RNA sekvenser bär genetisk information för underliggande fenotyper som kan analyseras genom fysiologiska och biokemiska metoder eller observerat genom morfologiska och fossila bevis. I en mening är genetiska information mer tillförlitliga än utvärdera externa fenotyper eftersom den förstnämnda är grunden för den senare. I evolutionär studie är fossila bevis mycket direkt och övertygande. Många organismer, såsom mikroorganismer, har dock små möjligheter att bilda en fossil under långa geologiska åldrar. Molekylär information såsom nukleotidsekvenser och amino syra ordnar från relaterade bevarade organismer är därför av värde för att utforska evolutionära relationer1. I den aktuella studien, var en enkel introduktion av fylogenetiska baskunskaper och ett lätt att lära-protokollet föreskrivs nykomlingar som behöver konstruera ett fylogenetiskt träd på egen hand.

Både DNA (nukleotid) och (aminosyror) proteinsekvenser kan användas för att härleda släktskapsförhållanden mellan homologa gener, organeller, eller ens organismer2. DNA-sekvenser är mer benägna att påverkas av förändringar under evolutionen. Amino syra ordnar är däremot mycket mer stabil med tanke på att synonymt mutationer i nukleotidsekvenser inte orsakar mutationer i amino syra ordnar. Som ett resultat, är DNA-sekvenser användbara för jämförelse av homologa gener från närbesläktade organismer, medan amino syra ordnar är lämpliga för homologa gener från avlägset besläktade organismer3.

En fylogenetisk analys börjar med anpassningen av aminosyra eller nukleotid sekvenser4 Hämtad från en kommenterad genome sequencing databasen5 som anges i FASTA format, dvs, förmodad eller uttryckta protein sekvenser, RNA-sekvenser , eller DNA-sekvenser. Det är värt att notera att det är viktigt att samla högkvalitativa sekvenser för analys, och endast homologa sekvenser kan användas för att analysera släktskapsförhållanden. Många olika plattformar såsom Clustal W, Clustal X, muskel, T-coffee, MAFFT, kan användas för sekvens justering. De mest använda är Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), som kan användas online eller kan laddas ner gratis kostnadsfritt. Linjeringsverktyget har många parametrar som användaren kan justera innan justeringen, men standardparametrarna fungerar bra i de flesta fall. När processen är klar, ska de arrangera i rak linje sekvenserna sparas i rätt format för nästa steg. De ska sedan redigeras eller trimmas med hjälp av ett redigeringsprogram, till exempel BioEdit, eftersom fylogenetiska träd konstruktion av MEGA kräver sekvenserna vara lika långa (inklusive både aminosyra förkortningar och bindestreck. I den justerade sekvensen, någon position utan en aminosyra eller nukleotid representeras av ett bindestreck ”-”). Generellt bör alla utskjutande aminosyror och nukleotider i vardera änden av justeringen tas bort. Kolumner som innehåller dåligt justerad sekvenser i justeringen kan dessutom tas bort eftersom de förmedla lite värdefull information, och kan ibland ge förvirrande eller felaktig information3. De kolumner som innehåller en eller flera bindestreck kan tas bort vid denna tid eller i senare träd konstruktion scenen. Alternativt kan de användas för fylogenetiska uträkning. När sekvensen justering och trimning är klar ska de arrangera i rak linje sekvenserna sparas i FASTA format eller önskat format, för senare användning.

Många mjukvaruplattformar ge träd konstruktion funktioner med hjälp av olika metoder eller algoritmer. Metoderna kan i allmänhet klassificeras som antingen avstånd matrismetoder eller diskreta datametoder. Avstånd matrismetoder är enkel och snabb att beräkna, medan diskreta datametoder är komplicerade och tidskrävande. För mycket närbesläktade taxa med en hög grad av utbyte av aminosyra eller nucleotide sequence identitet, en avstånd matrix metod (granne att gå: NJ; Ovägda par grupp metod med aritmetiska medelvärdet: UPGMA) är lämpligt. för avlägset besläktade taxa, en diskret datametod (Maximum Likelihood: ML; Maximala snålhet: MP; Bayesiansk inferens) är optimal3,8. I denna studie användes ML metoderna i MEGA (6.0.6) och Bayesiansk inferens (MrBayes 3.2) för att konstruera fylogenetiska träd9. Helst när korrekt modell och parametrar används, resultaten härrör från olika metoder kan vara konsekvent och de är således mer tillförlitliga och övertygande.

För en ML fylogenetiska träd konstruerade med MEGA10, måste justerad sekvens filen i FASTA format laddas in i programmet. Det första steget är då att välja den optimala substitution modellen för överförda data. Alla tillgängliga substitution modeller jämförs utifrån de uppladdade sekvenserna och deras slutliga poäng kommer att visas i en resultat-tabell. Välj modellen med minsta Bayesian Information kriterium (BIC) poäng (anges först i tabellen), ange ML parametrar enligt rekommenderade modellen och starta uträkningen. Beräkningstiden varierar från några minuter till flera dagar, beroende på komplexiteten i den inlästa data (längd av sekvenser och antal taxa) och prestanda för datorn som programmen körs. När beräkningen är klar, visas ett fylogenetiskt träd i ett nytt fönster. Spara filen som ”FileName.mat”. Efter inställning parametrar för att ange utseendet på trädet, spara en gång till. Med den här metoden kan MEGA generera publikation grade fylogenetiskt träd siffror.

För träd konstruktion med MrBayes11är det första steget att omvandla sekvensen arrangera i rak linje, som vanligtvis anges i FASTA format, till nexus format (.nex som filtyp). Omvandla FASTA filer till nexus format kan bearbetas i MEGA. Nästa, justerad sekvensen i nexus-format kan laddas in MrBayes. När filen har överförts, ange detaljerade parametrar för träd uträkningen. Dessa parametrar innehålla till exempel aminosyra substitution modell, variant priser, kedja nummer för Markov chain Monte Carlo (MCMC) koppling, ngen nummer, genomsnittlig standardavvikelse av split frekvenser och så vidare. När dessa parametrar har angetts, starta uträkningen. Till slut visas två träd figurer i ASC II kod, en visar klad trovärdighet och de andra visar gren längderna, på skärmen.

Träd resultatet sparas automatiskt som ”FileName.nex.con”. Denna tree fil kan öppnas och redigeras av FigTree, och siffran visas i Nacka kan ändras ytterligare för att göra den mer lämplig för publicering.

I denna studie analyserades 228 söta proteiner, inklusive 35 godis från encelliga eukaryoter och 57 SemiSWEETs från prokaryoter, som ett exempel. Både godis och SemiSWEETs karakteriserades som glukos, fruktos och sackaros transportörer över membran12,13. Fylogenetisk analys tyder på att de två MtN3/saliv domäner som innehåller godis kan härledas från en evolutionär fusion av en bakteriell SemiSWEET och ett archaeon14.

Protocol

1. sequence Alignment Samla aminosyresekvenser eukaryota söta och prokaryota SemiSWEET i separata dokument och lista dem i FASTA format. Hämta sekvenser från National Center för Biotechnology Information (NCBI), Europeiska Molecular Biology Laboratory (EMBL) och DNA Data Bank of Japan (DDBJ) databaser genom likheten Sök med verktyget grundläggande lokala Alignment Search Tool (BLAST). I exempelfiler, samla 228 förmodad söta proteinsekvenser som har två MtN3/saliv domäner (7…

Representative Results

Fylogenetiska träd visar att alla första MtN3/saliv domäner av de 35 söta sekvenserna klustrade som en klad och andra MtN3/saliv domäner av de söta sekvenser klustrade som en annan klad. Dessutom visar justering resultaten av sötsaker och SemiSWEETs att vissa SemiSWEETs från α-Proteobacteria i linje med den första MtN3/saliv domänen av söta sekvenser, medan SemiSWEETs från Methanobacteria (arkéer) i linje med andra MtN3/saliv domänen för söta sekvenser. Tillsammans tyder …

Discussion

Det blir allt populärare i biologisk forskning att göra ett fylogenetiskt träd baserat på nucleotide eller amino syra ordnar8. Generellt finns det tre kritiska stadier av praxis inklusive sekvens justering, utvärdering av justerad sekvenser med lämplig metod eller algoritm och visualisering av computational resultatet som ett fylogenetiskt träd. I den presenterade studien genomfördes tre rundor av sekvens justering: först, de söta proteinsekvenser, inklusive domänen första och andra Mt…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöds av den nationella naturvetenskap Foundation i Kina (31371596), Bio-technology Research Center, Kina tre raviner universitet (2016KBC04) och stiftelsen naturvetenskap i Jiangsu-provinsen, Kina (BK20151424).

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).
check_url/fr/56684?article_type=t

Play Video

Citer Cet Article
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video