A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq

Aide Macias-Mu&#241;oz; Ali Mortazavi

doi:10.3791/61633

JoVE Journal > Biology

生物学

Um Pipeline bioinforático para investigar a evolução molecular e a expressão genética usando RNA-seq

Published: May 28, 2021

doi:

10.3791/61633

Aide Macias-Muñoz, Ali Mortazavi

¹Department of Developmental and Cell Biology,University of California, Irvine

Summary

O objetivo deste protocolo é investigar a evolução e expressão dos genes candidatos usando dados de sequenciamento de RNA.

Abstract

Destilar e relatar grandes conjuntos de dados, como dados de genoma inteiro ou transcriptome, é muitas vezes uma tarefa assustadora. Uma maneira de quebrar resultados é focar em uma ou mais famílias genéticas que são significativas para o organismo e estudar. Neste protocolo, delineamos etapas bioinformáticas para gerar uma filogenia e quantificar a expressão de genes de interesse. As árvores filogenéticas podem dar uma visão de como os genes estão evoluindo dentro e entre espécies, bem como revelar ortologia. Esses resultados podem ser aprimorados usando dados de RNA-seq para comparar a expressão desses genes em diferentes indivíduos ou tecidos. Estudos de evolução molecular e expressão podem revelar modos de evolução e conservação da função genética entre espécies. A caracterização de uma família genética pode servir de trampolim para estudos futuros e pode destacar uma importante família genética em um novo genoma ou papel transcriptome.

Introduction

Os avanços nas tecnologias de sequenciamento facilitaram o sequenciamento de genomas e transcriptomes de organismos não-modelos. Além da maior viabilidade do sequenciamento do DNA e do RNA de muitos organismos, uma abundância de dados está disponível publicamente para estudar genes de interesse. O objetivo deste protocolo é fornecer passos bioinforáticos para investigar a evolução molecular e a expressão de genes que possam desempenhar um papel importante no organismo de interesse.

Investigar a evolução de um gene ou gene familiar pode fornecer uma visão da evolução dos sistemas biológicos. Membros de uma família genética são tipicamente determinados pela identificação de motivos conservados ou sequências genéticas homólogos. A evolução da família genética foi previamente investigada usando genomas de organismos modelos distantes¹. Uma limitação para essa abordagem é que não está claro como essas famílias genéticas evoluem em espécies intimamente relacionadas e o papel de diferentes pressões seletivas ambientais. Neste protocolo, incluímos uma busca por homólogos em espécies intimamente relacionadas. Ao gerar uma filogenia a um nível de filogênio, podemos notar tendências na evolução da família genética, como a de genes conservados ou duplicações específicas de linhagem. Neste nível, também podemos investigar se genes são ortologs ou paralogs. Embora muitos homólogos provavelmente funcionem de forma semelhante entre si, isso não é necessariamente o caso². A incorporação de árvores filogenéticas nesses estudos é importante para resolver se esses genes homólogos são ortologs ou não. Nos eucariotes, muitos ortologos mantêm funções semelhantes dentro da célula, como evidenciado pela capacidade das proteínas mamíferas de restaurar a função dos ortologs de levedura³. No entanto, há casos em que um gene não ortologos realiza uma função caracterizada⁴.

As árvores filogenéticas começam a delinear relações entre genes e espécies, mas a função não pode ser atribuída apenas com base nas relações genéticas. Estudos de expressão genética combinados com anotações funcionais e análise de enriquecimento fornecem forte suporte para a função genética. Casos em que a expressão genética pode ser quantificada e comparada entre indivíduos ou tipos de tecidos podem ser mais reveladores da função potencial. O protocolo a seguir segue métodos usados na investigação de genes de opsina em Hydra vulgaris⁷, mas eles podem ser aplicados a qualquer espécie e qualquer família genética. Os resultados desses estudos fornecem uma base para uma investigação mais aprofundada sobre a função genética e redes genéticas em organismos não-modelo. Como exemplo, a investigação da filogenia das opsinas, que são proteínas que iniciam a cascata de fototransdução, dá contexto à evolução dos olhos e da detecção de luz^8,^9,^10,¹¹. Neste caso, organismos não-modelos, especialmente espécies de animais basais, como cnidários ou ctenoforos, podem elucidar a conservação ou alterações na cascata de fototransdução e na visão através de claes¹²^,¹³^,¹⁴. Da mesma forma, determinar a filogenia, expressão e redes de outras famílias genéticas nos informará sobre os mecanismos moleculares subjacentes às adaptações.

Protocol

Este protocolo segue as diretrizes de cuidados com animais da UC Irvine. 1. Preparação da biblioteca RNA-seq Isole o RNA usando os seguintes métodos. Coletar amostras. Se o RNA for extraído posteriormente, congele a amostra ou coloque na solução de armazenamentoRNA 15 (Tabela de Materiais). Eutanize e disseque o organismo para separar tecidos de interesse. Extrair RNA total usando um kit de extração e puri…

Representative Results

Os métodos acima são resumidos na Figura 1 e foram aplicados a um conjunto de dados de tecidos hydra vulgaris. H. vulgaris é um invertebrado de água doce que pertence ao filo Cnidaria que também inclui corais, águas-vivas e anêmonas do mar. H. vulgaris pode se reproduzir assexualmente brotando e eles podem regenerar a cabeça e o pé quando bissecto. Neste estudo, buscou-se investigar a evolução e expressão dos genes opsin na Hydra<sup c…

Discussion

O objetivo deste protocolo é fornecer um esboço das etapas para caracterizar uma família genética usando dados RNA-seq. Estes métodos têm sido comprovados para funcionar para uma variedade de espécies e conjuntos de dados^4,³⁴^,³⁵. O gasoduto aqui estabelecido foi simplificado e deve ser fácil o suficiente para ser seguido por um novato em bioinformática. O significado do protocolo é que ele delineia todas as etapas e pr…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Agradecemos a Adriana Briscoe, Gil Smith, Rabi Murad e Aline G. Rangel por conselhos e orientações na incorporação de algumas dessas etapas em nosso fluxo de trabalho. Também somos gratos a Katherine Williams, Elisabeth Rebboah e Natasha Picciani por comentários sobre o manuscrito. Este trabalho foi apoiado em parte por uma bolsa de pesquisa médica da Fundação George E. Hewitt para a A.M.M.

Materials

Bioanalyzer-DNA kit	Agilent	5067-4626	wet lab materials
Bioanalyzer-RNA kit	Agilent	5067-1513	wet lab materials
BLAST+ v. 2.8.1			On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC)			On local computer https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0			On computer cluster
Bowtie v. 1.0.0			On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended)			NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1			On computer cluster
edgeR v. 3.26.8 (in R)			In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0			On computer cluster
Java v. 11.0.2			On computer cluster
MEGA7 (on your PC)			On local computer https://www.megasoftware.net
MEGAX v. 0.1			On local computer https://www.megasoftware.net
NucleoSpin RNA II kit	Macherey-Nagel	740955.5	wet lab materials
perl 5.30.3			On computer cluster
python			On computer cluster
Qubit 2.0 Fluorometer	ThermoFisher	Q32866	wet lab materials
R v.4.0.0			On computer cluster https://cran.r-project.org/src/base/R-4/
RNAlater	ThermoFisher	AM7021	wet lab materials
RNeasy kit	Qiagen	74104	wet lab materials
RSEM v. 1.3.0			Computer software https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335			On local computer https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3			Computer software
SRA Toolkit v. 2.8.1			On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c			On computer cluster https://github.com/alexdobin/STAR
StringTie v. 1.3.4d			On computer cluster https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0			On computer cluster https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35			On computer cluster http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5			On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol	ThermoFisher	15596018	wet lab materials
TruSeq RNA Library Prep Kit v2	Illumina	RS-122-2001	wet lab materials
TURBO DNA-free Kit	ThermoFisher	AM1907	wet lab materials

*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

References

Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology – B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Trinity. . RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra’s periodic activity. Hydrobiologia. 530, 129-134 (2004).
Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. . OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. . edgeR differential expression analysis of digital gene expression data User’s Guide. , (2013).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Um Pipeline bioinforático para investigar a evolução molecular e a expressão genética usando RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Um Pipeline bioinforático para investigar a evolução molecular e a expressão genética usando RNA-seq

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below