A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq

Aide Macias-Mu&#241;oz; Ali Mortazavi

doi:10.3791/61633

JoVE Journal > Biology

Biologie

En bioinformatikkrørledning for undersøkelse av molekylær evolusjon og genuttrykk ved hjelp av RNA-seq

Published: May 28, 2021

doi:

10.3791/61633

Aide Macias-Muñoz, Ali Mortazavi

¹Department of Developmental and Cell Biology,University of California, Irvine

Summary

Formålet med denne protokollen er å undersøke utviklingen og uttrykket av kandidatgener ved hjelp av RNA-sekvenseringsdata.

Abstract

Destillering og rapportering av store datasett, for eksempel hele genom- eller transkripsjonsdata, er ofte en skremmende oppgave. En måte å bryte ned resultatene på er å fokusere på en eller flere genfamilier som har betydning for organismen og studien. I denne protokollen skisserer vi bioinformatiske trinn for å generere en fylogeni og for å kvantifisere uttrykket av gener av interesse. Fylogenetiske trær kan gi innsikt i hvordan gener utvikler seg i og mellom arter, samt avdekke ortologi. Disse resultatene kan forbedres ved hjelp av RNA-seq data for å sammenligne uttrykket av disse genene i forskjellige individer eller vev. Studier av molekylær evolusjon og uttrykk kan avdekke former for evolusjon og bevaring av genfunksjon mellom arter. Karakteriseringen av en genfamilie kan fungere som et springbrett for fremtidige studier og kan fremheve en viktig genfamilie i et nytt genom eller transkripsjonspapir.

Introduction

Fremskritt innen sekvenseringsteknologier har lagt til rette for sekvensering av genomer og transkripsjoner av ikke-modellorganismer. I tillegg til den økte muligheten for sekvensering av DNA og RNA fra mange organismer, er en overflod av data offentlig tilgjengelig for å studere gener av interesse. Formålet med denne protokollen er å gi bioinformatiske trinn for å undersøke molekylær evolusjon og uttrykk for gener som kan spille en viktig rolle i interesseorganismen.

Å undersøke utviklingen av et gen eller en genfamilie kan gi innsikt i utviklingen av biologiske systemer. Medlemmer av en genfamilie bestemmes vanligvis ved å identifisere bevarte motiver eller homologe gensekvenser. Genfamilieutvikling ble tidligere undersøkt ved hjelp av genomer fra fjernt beslektede modellorganismer¹. En begrensning i denne tilnærmingen er at det ikke er klart hvordan disse genfamiliene utvikler seg i nært beslektede arter og rollen til ulike miljøselektive press. I denne protokollen inkluderer vi et søk etter homologer i nært beslektede arter. Ved å generere en fylogeni på et fylumsnivå, kan vi merke oss trender i genfamilieutvikling som for konserverte gener eller avledningsspesifikke dupliseringer. På dette nivået kan vi også undersøke om gener er ortologer eller paraloger. Mens mange homologer sannsynligvis fungerer på samme måte som hverandre, er det ikke nødvendigvis tilfelle². Å inkorporere fylogenetiske trær i disse studiene er viktig for å løse om disse homologe genene er ortologer eller ikke. I eukaryoter beholder mange ortologer lignende funksjoner i cellen som det fremgår av pattedyrproteiners evne til å gjenopprette funksjonen til gjær ortologer³. Det er imidlertid tilfeller der et ikke-ortopedisk gen utfører en karakterisert funksjon⁴.

Fylogenetiske trær begynner å avgrense sammenhenger mellom gener og arter, men funksjonen kan ikke tildeles utelukkende basert på genetiske relasjoner. Genuttrykksstudier kombinert med funksjonelle merknader og berikelsesanalyse gir sterk støtte til genfunksjon. Tilfeller der genuttrykk kan kvantifiseres og sammenlignes på tvers av individer eller vevstyper, kan være mer fortellende om potensiell funksjon. Følgende protokoll følger metoder som brukes til å undersøke opsingener i Hydra vulgaris⁷, men de kan brukes på alle arter og hvilken som helst genfamilie. Resultatene fra slike studier gir grunnlag for videre utredning av genfunksjon og gennettverk i ikke-modellorganismer. Som et eksempel gir undersøkelsen av fylogenien av opsiner, som er proteiner som initierer fototransduksjonskaskaden, kontekst til utviklingen av øyne og lysdeteksjon^8,⁹^,¹⁰^,¹¹. I dette tilfellet kan ikke-modellorganismer spesielt basale dyrearter som cnidarians eller ctenophores belyse bevaring eller endringer i fototransduksjonskaskaden og visjonen over clades¹²^,¹³^,¹⁴. På samme måte vil det å bestemme fylogeni, uttrykk og nettverk av andre genfamilier informere oss om de molekylære mekanismene som ligger til grunn for tilpasninger.

Protocol

Denne protokollen følger UC Irvine dyrepleieretningslinjer. 1. RNA-seq bibliotek forberedelse Isoler RNA ved hjelp av følgende metoder. Samle inn prøver. Hvis RNA skal trekkes ut på et senere tidspunkt, må du fryse prøven eller plassere den i RNA-lagringsløsningen15 (Materialliste). Avlive og dissekere organismen for å skille vev av interesse. Trekk ut total RNA ved hjelp av et ekstraksjonssett og rens RNA…

Representative Results

Metodene ovenfor er oppsummert i figur 1 og ble brukt på et datasett av Hydra vulgaris vev. H. vulgaris er en ferskvanns hvirvelløse dyr som tilhører phylum Cnidaria som også inkluderer koraller, maneter og sjømoner. H. vulgaris kan reprodusere aseksuelt ved spirende, og de kan regenerere hodet og foten når de blir bispedert. I denne studien hadde vi som mål å undersøke evolusjonen og uttrykket av opsingener i Hydra7</su…

Discussion

Formålet med denne protokollen er å gi en oversikt over trinnene for å karakterisere en genfamilie ved hjelp av RNA-seq-data. Disse metodene har vist seg å fungere for en rekke arter og datasett⁴^,³⁴^,³⁵. Rørledningen som er etablert her er forenklet og bør være enkel nok til å bli etterfulgt av en nybegynner innen bioinformatikk. Betydningen av protokollen er at den skisserer alle trinnene og nødvendige programmer for å…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Vi takker Adriana Briscoe, Gil Smith, Rabi Murad og Aline G. Rangel for råd og veiledning i å innlemme noen av disse trinnene i arbeidsflyten vår. Vi er også takknemlige til Katherine Williams, Elisabeth Rebboah og Natasha Picciani for kommentarer til manuskriptet. Dette arbeidet ble delvis støttet av en George E. Hewitt Foundation for Medical research fellowship til A.M.M.

Materials

Bioanalyzer-DNA kit	Agilent	5067-4626	wet lab materials
Bioanalyzer-RNA kit	Agilent	5067-1513	wet lab materials
BLAST+ v. 2.8.1			On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC)			On local computer https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0			On computer cluster
Bowtie v. 1.0.0			On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended)			NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1			On computer cluster
edgeR v. 3.26.8 (in R)			In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0			On computer cluster
Java v. 11.0.2			On computer cluster
MEGA7 (on your PC)			On local computer https://www.megasoftware.net
MEGAX v. 0.1			On local computer https://www.megasoftware.net
NucleoSpin RNA II kit	Macherey-Nagel	740955.5	wet lab materials
perl 5.30.3			On computer cluster
python			On computer cluster
Qubit 2.0 Fluorometer	ThermoFisher	Q32866	wet lab materials
R v.4.0.0			On computer cluster https://cran.r-project.org/src/base/R-4/
RNAlater	ThermoFisher	AM7021	wet lab materials
RNeasy kit	Qiagen	74104	wet lab materials
RSEM v. 1.3.0			Computer software https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335			On local computer https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3			Computer software
SRA Toolkit v. 2.8.1			On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c			On computer cluster https://github.com/alexdobin/STAR
StringTie v. 1.3.4d			On computer cluster https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0			On computer cluster https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35			On computer cluster http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5			On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol	ThermoFisher	15596018	wet lab materials
TruSeq RNA Library Prep Kit v2	Illumina	RS-122-2001	wet lab materials
TURBO DNA-free Kit	ThermoFisher	AM1907	wet lab materials

*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

References

Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology – B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Trinity. . RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra’s periodic activity. Hydrobiologia. 530, 129-134 (2004).
Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. . OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. . edgeR differential expression analysis of digital gene expression data User’s Guide. , (2013).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citer Cet Article

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

En bioinformatikkrørledning for undersøkelse av molekylær evolusjon og genuttrykk ved hjelp av RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

Materials

References

Tags

Play Video

Citer Cet Article

View Video

En bioinformatikkrørledning for undersøkelse av molekylær evolusjon og genuttrykk ved hjelp av RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

Materials

References

Tags

Play Video

Citer Cet Article

View Video

✖

To prove you're not a robot, please enter the text in the image below