A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq

Aide Macias-Mu&#241;oz; Ali Mortazavi

doi:10.3791/61633

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biologie

En bioinformatikpipeline för att undersöka molekylär evolution och genuttryck med RNA-seq

Published: May 28, 2021

doi:

10.3791/61633

Aide Macias-Muñoz, Ali Mortazavi

¹Department of Developmental and Cell Biology,University of California, Irvine

Summary

Syftet med detta protokoll är att undersöka utvecklingen och uttrycket av kandidatgener med hjälp av RNA-sekvenseringsdata.

Abstract

Destillering och rapportering av stora datamängder, till exempel hela genom- eller transkriptomdata, är ofta en skrämmande uppgift. Ett sätt att bryta ner resultat är att fokusera på en eller flera genfamiljer som är viktiga för organismen och studien. I detta protokoll beskriver vi bioinformatiska steg för att generera en fylogeni och kvantifiera uttrycket av gener av intresse. Fylogenetiska träd kan ge insikt i hur gener utvecklas inom och mellan arter samt avslöja ortologi. Dessa resultat kan förbättras med hjälp av RNA-seq data för att jämföra uttrycket av dessa gener i olika individer eller vävnader. Studier av molekylär evolution och uttryck kan avslöja utvecklingssätt och bevarande av genfunktionen mellan arter. Karakteriseringen av en genfamilj kan fungera som en språngbräda för framtida studier och kan lyfta fram en viktig genfamilj i ett nytt genom eller transkriptompapper.

Introduction

Framsteg inom sekvenseringsteknik har underlättat sekvensering av genom och transkriptomer av icke-modellorganismer. Förutom den ökade genomförbarheten av sekvensering av DNA och RNA från många organismer, är ett överflöd av data offentligt tillgängligt för att studera gener av intresse. Syftet med detta protokoll är att tillhandahålla bioinformatiska steg för att undersöka den molekylära evolutionen och uttrycket av gener som kan spela en viktig roll i organismen av intresse.

Att undersöka utvecklingen av en gen- eller genfamilj kan ge insikt i utvecklingen av biologiska system. Medlemmar av en genfamilj bestäms vanligtvis genom att identifiera bevarade motiv eller homologa gensekvenser. Genfamiljens evolution undersöktes tidigare med hjälp av genom från avlägset besläktade modellorganismer¹. En begränsning av detta tillvägagångssätt är att det inte är klart hur dessa genfamiljer utvecklas i närbesläktade arter och rollen för olika miljöselektiva tryck. I detta protokoll inkluderar vi en sökning efter homologer i närbesläktade arter. Genom att generera en fylogeni på fylumnivå kan vi notera trender i genfamiljens utveckling som konserverade gener eller härstamning-specifika dubbleringar. På denna nivå kan vi också undersöka om gener är ortologer eller paraloger. Medan många homologer sannolikt fungerar på samma sätt som varandra, är det inte nödvändigtvis fallet². Att införliva fylogenetiska träd i dessa studier är viktigt för att avgöra om dessa homologa gener är ortoologer eller inte. I eukaryoter behåller många ortologer liknande funktioner i cellen, vilket framgår av däggdjursproteinernas förmåga att återställa funktionen hos jästortologer³. Det finns dock fall där en icke-ortologisk gen utför en karakteriserad funktion⁴.

Fylogenetiska träd börjar avgränsa relationer mellan gener och arter, men funktionen kan inte tilldelas enbart baserat på genetiska relationer. Genuttrycksstudier i kombination med funktionella anteckningar och anrikningsanalys ger starkt stöd för genfunktionen. Fall där genuttryck kan kvantifieras och jämföras mellan individer eller vävnadstyper kan vara mer talande för potentiell funktion. Följande protokoll följer metoder som används för att undersöka opsingener i Hydra vulgaris⁷, men de kan tillämpas på alla arter och alla genarter. Resultaten av sådana studier utgör en grund för ytterligare undersökning av genfunktion och gennätverk i icke-modellorganismer. Som ett exempel ger undersökningen av fylogeni av opsiner, som är proteiner som initierar fototransduktionskaskaden, sammanhang till utvecklingen av ögon och ljusdetektering⁸^,⁹^,¹⁰^,¹¹. I detta fall kan icke-modellorganismer, särskilt basala djurarter som cnidarians eller ctenophores, klargöra bevarande eller förändringar i fototransduktionskaskaden och synen över^{kladderna 12}^,¹³^,¹⁴. På samma sätt kommer bestämning av fylogeni, uttryck och nätverk av andra genfamiljer att informera oss om de molekylära mekanismerna bakom anpassningar.

Protocol

Detta protokoll följer UC Irvine riktlinjer för djurvård. 1. RNA-seq biblioteksförberedelse Isolera RNA med följande metoder. Samla in prover. Om RNA ska extraheras vid ett senare tillfälle, frys provet eller placera provet eller placera i RNA-lagringslösning15 (Materialförteckning). Avliva och dissekera organismen för att separera vävnader av intresse. Extrahera totalt RNA med hjälp av ett extraktionsk…

Representative Results

Metoderna ovan sammanfattas i figur 1 och tillämpades på en datauppsättning Hydra vulgaris vävnader. H. vulgaris är ett sötvatten ryggradslösa djur som tillhör fylum cnidaria som också innehåller koraller, maneter och havsanemoner. H. vulgaris kan reproducera asexuellt genom att spira och de kan regenerera huvudet och foten när de är tudelade. I denna studie syftade vi till att undersöka utvecklingen och uttrycket av opsingener i Hydra</em…

Discussion

Syftet med detta protokoll är att ge en översikt över stegen för att karakterisera en genfamilj med hjälp av RNA-seq-data. Dessa metoder har visat sig fungera för en mängd olika arter och datamängder^4,^34,³⁵. Den pipeline som upprättats här har förenklats och bör vara tillräckligt enkel för att följas av en nybörjare inom bioinformatik. Protokollets betydelse är att det beskriver alla steg och nödvändiga progra…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Vi tackar Adriana Briscoe, Gil Smith, Rabi Murad och Aline G. Rangel för råd och vägledning när vi införlivar några av dessa steg i vårt arbetsflöde. Vi är också tacksamma mot Katherine Williams, Elisabeth Rebboah och Natasha Picciani för kommentarerna till manuskriptet. Detta arbete stöddes delvis av ett George E. Hewitt Foundation for Medical research fellowship till A.M.M.

Materials

Bioanalyzer-DNA kit	Agilent	5067-4626	wet lab materials
Bioanalyzer-RNA kit	Agilent	5067-1513	wet lab materials
BLAST+ v. 2.8.1			On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC)			On local computer https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0			On computer cluster
Bowtie v. 1.0.0			On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended)			NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1			On computer cluster
edgeR v. 3.26.8 (in R)			In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0			On computer cluster
Java v. 11.0.2			On computer cluster
MEGA7 (on your PC)			On local computer https://www.megasoftware.net
MEGAX v. 0.1			On local computer https://www.megasoftware.net
NucleoSpin RNA II kit	Macherey-Nagel	740955.5	wet lab materials
perl 5.30.3			On computer cluster
python			On computer cluster
Qubit 2.0 Fluorometer	ThermoFisher	Q32866	wet lab materials
R v.4.0.0			On computer cluster https://cran.r-project.org/src/base/R-4/
RNAlater	ThermoFisher	AM7021	wet lab materials
RNeasy kit	Qiagen	74104	wet lab materials
RSEM v. 1.3.0			Computer software https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335			On local computer https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3			Computer software
SRA Toolkit v. 2.8.1			On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c			On computer cluster https://github.com/alexdobin/STAR
StringTie v. 1.3.4d			On computer cluster https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0			On computer cluster https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35			On computer cluster http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5			On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol	ThermoFisher	15596018	wet lab materials
TruSeq RNA Library Prep Kit v2	Illumina	RS-122-2001	wet lab materials
TURBO DNA-free Kit	ThermoFisher	AM1907	wet lab materials

*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

References

Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology – B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Trinity. . RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra’s periodic activity. Hydrobiologia. 530, 129-134 (2004).
Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. . OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. . edgeR differential expression analysis of digital gene expression data User’s Guide. , (2013).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citer Cet Article

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

En bioinformatikpipeline för att undersöka molekylär evolution och genuttryck med RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

Materials

References

Tags

Play Video

Citer Cet Article

View Video

En bioinformatikpipeline för att undersöka molekylär evolution och genuttryck med RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

Materials

References

Tags

Play Video

Citer Cet Article

View Video

✖

To prove you're not a robot, please enter the text in the image below