A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq

Aide Macias-Mu&#241;oz; Ali Mortazavi

doi:10.3791/61633

JoVE Journal > Biology

Biologie

En bioinformatikrørledning til undersøgelse af molekylær udvikling og genekspression ved hjælp af RNA-seq

Published: May 28, 2021

doi:

10.3791/61633

Aide Macias-Muñoz, Ali Mortazavi

¹Department of Developmental and Cell Biology,University of California, Irvine

Summary

Formålet med denne protokol er at undersøge udviklingen og ekspressionen af kandidatgener ved hjælp af RNA-sekventeringsdata.

Abstract

Destillering og rapportering af store datasæt, såsom hele genom- eller transskriptionsdata, er ofte en skræmmende opgave. En måde at nedbryde resultater er at fokusere på en eller flere genfamilier, der er vigtige for organismen og undersøgelsen. I denne protokol skitserer vi bioinformatiske trin til at generere en fylogeni og kvantificere ekspressionen af gener af interesse. Fylogenetiske træer kan give indsigt i, hvordan gener udvikler sig inden for og mellem arter samt afsløre orthology. Disse resultater kan forbedres ved hjælp af RNA-seq data til at sammenligne udtrykket af disse gener i forskellige individer eller væv. Undersøgelser af molekylær evolution og udtryk kan afsløre former for evolution og bevarelse af genfunktion mellem arter. Karakteriseringen af en genfamilie kan tjene som springbræt til fremtidige undersøgelser og kan fremhæve en vigtig genfamilie i et nyt genom eller transskriberingspapir.

Introduction

Fremskridt inden for sekventeringsteknologier har lettet rækkefølgen af genomer og transskriptioner af ikke-modelorganismer. Ud over den øgede gennemførlighed af sekventering af DNA og RNA fra mange organismer er en overflod af data offentligt tilgængelig til undersøgelse af gener af interesse. Formålet med denne protokol er at tilvejebringe bioinformatiske trin til at undersøge den molekylære udvikling og ekspression af gener, der kan spille en vigtig rolle i den pågældende organisme.

Undersøgelse af udviklingen af et gen eller gen familie kan give indsigt i udviklingen af biologiske systemer. Medlemmer af en genfamilie bestemmes typisk ved at identificere bevarede motiver eller homologe gensekvenser. Genfamiliens udvikling blev tidligere undersøgt ved hjælp af genomer fra fjernt beslægtede modelorganismer¹. En begrænsning af denne tilgang er, at det ikke er klart, hvordan disse genfamilier udvikler sig i nært beslægtede arter og den rolle, som forskellige miljømæssige selektive pres. I denne protokol inkluderer vi en søgning efter homologer i nært beslægtede arter. Ved at generere en fylogeni på et phylum-niveau kan vi bemærke tendenser i genfamiliens udvikling, såsom konserverede gener eller afstamningsspecifikke dobbeltarbejde. På dette niveau kan vi også undersøge, om gener er orthologs eller paraloger. Mens mange homologer sandsynligvis fungerer på samme måde som hinanden, er det ikke nødvendigvis tilfældet². Indarbejde fylogenetiske træer i disse undersøgelser er vigtigt at afgøre, om disse homologe gener er orthologs eller ej. I eukaryoter bevarer mange orthologer lignende funktioner i cellen som det fremgår af pattedyrproteinernes evne til at genoprette funktionen af gær orthologs³. Der er dog tilfælde, hvor et ikke-ortologt gen udfører en karakteriseret funktion⁴.

Fylogenetiske træer begynder at afgrænse forholdet mellem gener og arter, men funktion kan ikke tildeles udelukkende baseret på genetiske relationer. Genekspressionsundersøgelser kombineret med funktionelle anmærkninger og berigelsesanalyse giver stærk støtte til genfunktion. Tilfælde, hvor genekspression kan kvantificeres og sammenlignes på tværs af enkeltpersoner eller vævstyper, kan være mere sigende for potentiel funktion. Følgende protokol følger metoder, der anvendes til at undersøge opsin gener i Hydra vulgaris⁷, men de kan anvendes på enhver art og enhver genfamilie. Resultaterne af sådanne undersøgelser danner grundlag for yderligere undersøgelser af genfunktion og gennetværk i organismer uden model. Som et eksempel giver undersøgelsen af opsins fylogeni, som er proteiner, der indleder fototransduktionskaskaden, kontekst til udviklingen af øjne og lysdetektion⁸^,⁹^,¹⁰^,¹¹. I dette tilfælde kan ikke-model organismer især basale dyrearter som cnidarians eller ctenophores belyse bevarelse eller ændringer i phototransduktion kaskade og vision på tværs af clades¹²^,¹³^,¹⁴. På samme måde vil fastsættelsen af fylogeni, udtryk og netværk af andre genfamilier informere os om de molekylære mekanismer, der ligger til grund for tilpasninger.

Protocol

Denne protokol følger UC Irvine dyrepleje retningslinjer. 1. RNA-seq bibliotek forberedelse Isoler RNA ved hjælp af følgende metoder. Indsamle prøver. Hvis RNA skal udvindes på et senere tidspunkt, skal prøven eller anbringes i RNA-opbevaringsopløsning15 (Materialetabel). Aflive og dissekere organismen til separate væv af interesse. Ekstrakter det samlede RNA ved hjælp af et ekstraktionssæt, og purer RNA…

Representative Results

Ovennævnte metoder er sammenfattet i figur 1 og blev anvendt på et datasæt af Hydra vulgaris-væv. H. vulgaris er et ferskvands hvirvelløse dyr, der tilhører phylum Cnidaria, som også omfatter koraller, vandmænd og havanemoner. H. vulgaris kan reproducere a seksuelt ved spirende, og de kan regenerere deres hoved og fod, når gennemskåret. I denne undersøgelse sigtede vi mod at undersøge udviklingen og ekspressionen af opsingener i Hydra<…

Discussion

Formålet med denne protokol er at give en oversigt over trinene til at karakterisere en genfamilie ved hjælp af RNA-seq-data. Disse metoder har vist sig at virke for en række arter og datasæt⁴^,³⁴^,³⁵. Den rørledning, der er etableret her, er blevet forenklet og bør være let nok til at blive efterfulgt af en nybegynder inden for bioinformatik. Betydningen af protokollen er, at den skitserer alle trin og nødvendige programm…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Vi takker Adriana Briscoe, Gil Smith, Rabi Murad og Aline G. Rangel for råd og vejledning i at indarbejde nogle af disse trin i vores arbejdsgang. Vi er også taknemmelige for Katherine Williams, Elisabeth Rebboah og Natasha Picciani for kommentarer til manuskriptet. Dette arbejde blev delvist støttet af en George E. Hewitt Foundation for Medical forskningsstipendium til A.M.M.

Materials

Bioanalyzer-DNA kit	Agilent	5067-4626	wet lab materials
Bioanalyzer-RNA kit	Agilent	5067-1513	wet lab materials
BLAST+ v. 2.8.1			On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC)			On local computer https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0			On computer cluster
Bowtie v. 1.0.0			On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended)			NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1			On computer cluster
edgeR v. 3.26.8 (in R)			In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0			On computer cluster
Java v. 11.0.2			On computer cluster
MEGA7 (on your PC)			On local computer https://www.megasoftware.net
MEGAX v. 0.1			On local computer https://www.megasoftware.net
NucleoSpin RNA II kit	Macherey-Nagel	740955.5	wet lab materials
perl 5.30.3			On computer cluster
python			On computer cluster
Qubit 2.0 Fluorometer	ThermoFisher	Q32866	wet lab materials
R v.4.0.0			On computer cluster https://cran.r-project.org/src/base/R-4/
RNAlater	ThermoFisher	AM7021	wet lab materials
RNeasy kit	Qiagen	74104	wet lab materials
RSEM v. 1.3.0			Computer software https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335			On local computer https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3			Computer software
SRA Toolkit v. 2.8.1			On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c			On computer cluster https://github.com/alexdobin/STAR
StringTie v. 1.3.4d			On computer cluster https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0			On computer cluster https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35			On computer cluster http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5			On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol	ThermoFisher	15596018	wet lab materials
TruSeq RNA Library Prep Kit v2	Illumina	RS-122-2001	wet lab materials
TURBO DNA-free Kit	ThermoFisher	AM1907	wet lab materials

*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

References

Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology – B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Trinity. . RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra’s periodic activity. Hydrobiologia. 530, 129-134 (2004).
Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. . OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. . edgeR differential expression analysis of digital gene expression data User’s Guide. , (2013).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citer Cet Article

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

En bioinformatikrørledning til undersøgelse af molekylær udvikling og genekspression ved hjælp af RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

Materials

References

Tags

Play Video

Citer Cet Article

View Video

En bioinformatikrørledning til undersøgelse af molekylær udvikling og genekspression ved hjælp af RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

Materials

References

Tags

Play Video

Citer Cet Article

View Video

✖

To prove you're not a robot, please enter the text in the image below