Summary

Utilizzando l'analisi filogenetica di indagare l'origine genica negli eucarioti

Published: August 14, 2018
doi:

Summary

È descritto un metodo per costruire un albero filogenetico basato su omologia di sequenza di dolci da eucarioti e SemiSWEETs da procarioti. L’analisi filogenetica è uno strumento utile per spiegare la parentela evolutiva tra proteine omologhe o geni da gruppi di organismi diversi.

Abstract

L’analisi filogenetica utilizza del nucleotide o sequenze aminoacidiche o altri parametri, quali sequenze di dominio e struttura tridimensionale, per costruire un albero per mostrare le relazioni evolutive tra diversi taxa (unità di classificazione) presso il molecolare livello. L’analisi filogenetica può essere utilizzata anche per indagare le relazioni di dominio nell’ambito di un singolo taxon, particolarmente per organismi che hanno subito un sostanziale cambiamento nella morfologia e fisiologia, ma per cui i ricercatori mancano prove fossili a causa della degli organismi lunga storia evolutiva o scarsità di fossilizzazione.

In questo testo, un protocollo dettagliato è descritto con il metodo filogenetico, compreso l’allineamento di sequenza dell’amminoacido usando la costruzione albero filogenetico successive utilizzando entrambi probabilità massima (ML) di genetica molecolare evolutiva e Clustal Omega Analisi (MEGA) e inferenza bayesiana tramite MrBayes. Per indagare l’origine di geni eucariotici Zuccheri sarà alla fine essere esportati i trasportatori (dolce), 228 dolci tra cui 35 dolce da eucarioti unicellulari e semidolce 57 proteine da procarioti sono stati analizzati. Interessante, SemiSWEETs sono stati trovati nei procarioti, ma dolci sono stati trovati negli eucarioti. Due alberi filogenetici costruiti utilizzando metodi teoricamente distinti costantemente hanno suggerito che il primo gene eucariotico dolce potrebbe derivano dalla fusione di un gene batterico semidolce e un gene semidolce degli Archaea. Vale la pena notare che uno dovrebbe essere prudente per trarre una conclusione basata esclusivamente sull’analisi filogenetica, anche se è utile spiegare il rapporto sottostante tra taxa diversi, che è difficile o addirittura impossibile discernere attraverso mezzi sperimentali .

Introduction

Sequenze di DNA o RNA trasportano informazioni genetiche per i fenotipi sottostanti che può essere analizzato attraverso metodi fisiologici e biochimici o osservato attraverso prove morfologiche e fossili. In un certo senso, è più affidabile di valutazione esterni fenotipi perché il primo è la base per quest’ultima informazione genetica. In studio evolutivo, prova fossile è molto diretta e convincente. Tuttavia, molti organismi, quali microrganismi, hanno poche possibilità di formare un fossile durante Età geologiche lungo. Pertanto, informazioni molecolari quali sequenze nucleotidiche e sequenze dell’amminoacido da organismi esistenti correlati sono di valore per esplorare relazioni evolutive1. Nello studio presente, è stata fornita una semplice introduzione di conoscenza di base filogenetica protocollo facile da imparare per i nuovi arrivati che hanno bisogno di costruire un albero filogenetico in proprio.

Sia DNA (nucleotidi) e sequenze di proteine (aminoacidi) possono essere utilizzati per dedurre le relazioni filogenetiche tra geni omologhi, organelli o anche organismi2. Sequenze di DNA sono maggiori probabile di essere colpiti dai cambiamenti nel corso dell’evoluzione. Al contrario, sequenze dell’amminoacido sono molto più stabili, dato che sinonima mutazioni nelle sequenze nucleotidiche non causano mutazioni nelle sequenze dell’amminoacido. Di conseguenza, sequenze di DNA sono utili per il confronto di geni omologhi da organismi strettamente correlati, mentre sequenze dell’amminoacido sono appropriati per geni omologhi da organismi lontanamente correlati3.

Un’analisi filogenetica inizia con l’allineamento dell’amminoacido o nucleotide sequenze4 Estratto da un genoma con annotazioni sequenziamento database5 elencati in formato FASTA, vale a dire, proteina espressa o presunta sequenze, sequenze di RNA , o sequenze di DNA. Vale la pena notare che è fondamentale per raccogliere sequenze di alta qualità per l’analisi, e sequenze omologhe solo possono essere utilizzati per analizzare le relazioni filogenetiche. Molte piattaforme diverse come Clustal W, Clustal X, muscolo, T-caffè, MAFFT, può essere utilizzato per l’allineamento di sequenza. Il più ampiamente usato è Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), che può essere utilizzato online o può essere scaricato gratuitamente gratuitamente. Lo strumento di allineamento ha molti parametri che l’utente può regolare prima di iniziare l’allineamento, ma i parametri di default funzionano bene nella maggior parte dei casi. Dopo il processo è completo, le sequenze allineate devono essere salvate nel formato corretto per il passaggio successivo. Essi devono quindi essere modificati o tagliati utilizzando un software di editing, come ad esempio BioEdit, perché la costruzione di alberi filogenetici da MEGA richiede le sequenze per essere di uguale lunghezza (inclusi sia dell’amminoacido abbreviazioni e trattini. Nella sequenza allineata, qualsiasi posizione senza un amminoacido o nucleotide è rappresentato da un trattino “-“). In generale, tutte le sporgenti aminoacidi o nucleotidi alle due estremità dell’allineamento dovrebbe essere rimosso. Inoltre, le colonne che contengono le sequenze scarsamente allineate nell’allineamento possono essere eliminate perché trasmettere poche preziose informazioni e a volte può dare confusione o false informazioni3. Le colonne contenenti uno o più trattini possono essere eliminate in questo momento o nella successiva fase di costruzione di albero. In alternativa, sono utilizzabili per il calcolo filogenetica. Al termine della sequenza di allineamento e di rifilatura, le sequenze allineate devono essere salvate in formato FASTA, o il formato desiderato, per un uso successivo.

Molte piattaforme di software forniscono funzioni di costruzione albero utilizzando diversi metodi o algoritmi. In generale, i metodi possono essere classificati come metodi di matrice di distanza o metodi di dati discreti. Metodi di matrice di distanza sono semplici e veloci per calcolare, mentre i metodi di dati discreti sono complicati e che richiede tempo. Per taxa strettamente correlate con un alto grado di condivisione dell’identità di sequenza dell’amminoacido o nucleotide, un metodo di matrice di distanza (Neighbor unendo: NJ; Metodo di gruppo coppia non ponderata con media aritmetica: UPGMA) è appropriato; lontanamente correlate taxa, un metodo di dati discreti (metodo della massima verosimiglianza: ML; Massima parsimonia: MP; Inferenza bayesiana) è ottimale3,8. In questo studio, i metodi di ML in MEGA (6.0.6) e inferenza bayesiana (MrBayes 3.2) sono stati applicati per costruire alberi filogenetici9. Idealmente, quando vengono utilizzati i parametri e il modello adeguato, i risultati derivati da diversi metodi possono essere coerenti, e sono dunque più affidabile e convincente.

Per un albero filogenetico di ML costruito utilizzando MEGA10, il file di sequenza allineata in formato FASTA deve essere caricato nel programma. Il primo passo è quindi di selezionare il modello di sostituzione ottimale per i dati caricati. Tutti i modelli di sostituzione disponibili vengono confrontati in base sulle sequenze caricate, e loro punteggi finali verranno mostrati in una tabella di risultati. Selezionare il modello con il Punteggio di criterio BIC (Bayesian Information) più piccolo (elencato per primo nella tabella), impostare i parametri di ML secondo il modello raccomandato e avviare il calcolo. Il tempo di calcolo varia da alcuni minuti a diversi giorni, a seconda della complessità dei dati caricati (lunghezza delle sequenze e numero di taxa) e le prestazioni del computer su cui vengono eseguiti i programmi. Quando il calcolo è finito, un albero filogenetico appare in una nuova finestra. Salvare il file come “FileName.mat”. Dopo aver impostato i parametri per specificare l’aspetto dell’albero, salvare ancora una volta. Utilizzando questo metodo, MEGA è in grado di generare figure di pubblicazione grado albero filogenetico.

Per la costruzione di albero con MrBayes11, il primo passo è quello di trasformare la sequenza allineata, che di solito è elencata in formato FASTA, in formato nexus (NEX come tipo di file). Trasformazione di file FASTA in nexus formato possono essere elaborati in MEGA. Successivamente, la sequenza allineata nel nexus formato possa essere caricata in MrBayes. Quando il file viene caricato correttamente, è necessario specificare i parametri dettagliati per il calcolo dell’albero. Questi parametri includono dettagli come modello di sostituzione dell’amminoacido, tassi di variazione, numero catena-catena di Markov Monte Carlo (MCMC) accoppiamento, numero ngen, media deviazione standard delle frequenze di Spalato e così via. Dopo questi parametri sono stati specificati, è possibile avviare il calcolo. Alla fine, due figure di albero in ASC II codice, un visualizzando clade credibilità e le altre lunghezze del ramo visualizzando, verrà visualizzato sullo schermo.

Il risultato di albero verrà salvato automaticamente come “FileName.nex.con”. Questo file di albero può essere aperto e modificato da FigTree, e la cifra in FigTree può essere modificata ulteriormente per renderlo più adatto per la pubblicazione.

In questo studio, 228 proteine dolci, tra cui 35 dolci da eucarioti unicellulari e 57 SemiSWEETs da procarioti, sono stati analizzati come un esempio. I dolci e il SemiSWEETs sono stati caratterizzati come glucosio, fruttosio o saccarosio trasportatori attraverso membrane12,13. L’analisi filogenetica suggerisce che i due domini MtN3/saliva contenente dolci potrebbero essere derivati da una fusione evolutiva di un passato batterica e di un archaeon14.

Protocol

1. sequenza di allineamento Raccogliere le sequenze dell’amminoacido di dolce eucariotici e procariotico passato in documenti separati e li elenco in formato FASTA. Scaricare sequenze dal centro nazionale per Biotechnology Information (NCBI), European Molecular Biology Laboratory (EMBL) e la banca dati del DNA dei database Japan (DDBJ) ricerca di similitudine con lo strumento di base locale allineamento Cerca strumento (BLAST). Nei file d’esempio, raccogliere 228 sequenze della prote…

Representative Results

Alberi filogenetici mostrano che tutti i domini di MtN3/saliva primi delle sequenze dolce 35 cluster come un clade e i domini di MtN3/saliva secondo delle sequenze dolce cluster come un altro clade. Inoltre, risultati di allineamento delle dolci e SemiSWEETs mostrano che alcuni SemiSWEETs da α-Proteobacteria allineato con il primo dominio di MtN3/saliva delle sequenze dolce, considerando che SemiSWEETs da Metanobatteri (archaea) allineato con la seconda MtN3/saliva dominio delle sequenze…

Discussion

Sta diventando sempre più popolare nella ricerca biologica per fare un albero filogenetico basato su nucleotide o dell’amminoacido sequenze8. In generale, ci sono tre fasi critiche della pratica compreso l’allineamento di sequenza, valutazione delle sequenze allineate con l’algoritmo o il metodo corretto e la visualizzazione del risultato computazionale come un albero filogenetico. Nello studio presentato, sono state condotte tre turni di allineamento di sequenza: in primo luogo, le sequenze di p…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato da National Natural Science Foundation of China (31371596), centro di ricerca Bio-tecnologia, Università di Cina tre gole (2016KBC04) e la Fondazione di scienze naturali della provincia di Jiangsu, Cina (BK20151424).

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Play Video

Cite This Article
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video