Summary

Een bioinformaticapijplijn voor het onderzoeken van moleculaire evolutie en genexpressie met behulp van RNA-seq

Published: May 28, 2021
doi:

Summary

Het doel van dit protocol is om de evolutie en expressie van kandidaatgenen te onderzoeken met behulp van RNA-sequencinggegevens.

Abstract

Het distilleren en rapporteren van grote datasets, zoals hele genoom- of transcriptoomgegevens, is vaak een ontmoedigende taak. Een manier om resultaten op te splitsen is door je te concentreren op een of meer genfamilies die belangrijk zijn voor het organisme en de studie. In dit protocol schetsen we bioinformatische stappen om een fylogenie te genereren en de expressie van interessegenen te kwantificeren. Fylogenetische bomen kunnen inzicht geven in hoe genen zich ontwikkelen binnen en tussen soorten en orthologie onthullen. Deze resultaten kunnen worden verbeterd met behulp van RNA-seq-gegevens om de expressie van deze genen in verschillende individuen of weefsels te vergelijken. Studies van moleculaire evolutie en expressie kunnen modi van evolutie en behoud van genfunctie tussen soorten onthullen. De karakterisering van een genfamilie kan dienen als springplank voor toekomstige studies en kan een belangrijke genfamilie benadrukken in een nieuw genoom of transcriptoompapier.

Introduction

Vooruitgang in sequencingtechnologieën heeft de sequencing van genomen en transcriptomen van niet-modelorganismen vergemakkelijkt. Naast de toegenomen haalbaarheid van het sequentiëren van DNA en RNA van veel organismen, is een overvloed aan gegevens openbaar beschikbaar om genen van belang te bestuderen. Het doel van dit protocol is om bio-informatische stappen te bieden om de moleculaire evolutie en expressie van genen te onderzoeken die een belangrijke rol kunnen spelen in het organisme van belang.

Het onderzoeken van de evolutie van een gen of genenfamilie kan inzicht geven in de evolutie van biologische systemen. Leden van een genfamilie worden meestal bepaald door het identificeren van geconserveerde motieven of homologe gensequenties. Genfamilie-evolutie werd eerder onderzocht met behulp van genomen van verre verwante modelorganismen1. Een beperking van deze benadering is dat het niet duidelijk is hoe deze genfamilies evolueren in nauw verwante soorten en de rol van verschillende selectieve omgevingsdruk. In dit protocol nemen we een zoektocht op naar homologen bij nauw verwante soorten. Door een fylogenie op fylumniveau te genereren, kunnen we trends in de evolutie van genfamilies opmerken, zoals die van geconserveerde genen of afstammingsspecifieke duplicaties. Op dit niveau kunnen we ook onderzoeken of genen orthesen of paralogen zijn. Hoewel veel homologen waarschijnlijk op dezelfde manier met elkaar functioneren, is dat niet noodzakelijk het geval2. Het opnemen van fylogenetische bomen in deze studies is belangrijk om op te lossen of deze homologe genen orthesen zijn of niet. Bij eukaryoten behouden veel ortheologen vergelijkbare functies in de cel, zoals blijkt uit het vermogen van zoogdiereiwitten om de functie van gistortheologen te herstellen3. Er zijn echter gevallen waarin een niet-orthologisch gen een gekarakteriseerde functie vervult4.

Fylogenetische bomen beginnen relaties tussen genen en soorten af te bakenen, maar de functie kan niet alleen worden toegewezen op basis van genetische relaties. Genexpressiestudies in combinatie met functionele annotaties en verrijkingsanalyse bieden een sterke ondersteuning voor de genfunctie. Gevallen waarin genexpressie kan worden gekwantificeerd en vergeleken tussen individuen of weefseltypen kunnen meer vertellen over de potentiële functie. Het volgende protocol volgt methoden die worden gebruikt bij het onderzoeken van opsinegenen in Hydra vulgaris7, maar ze kunnen worden toegepast op elke soort en elke genfamilie. De resultaten van dergelijke studies vormen een basis voor verder onderzoek naar genfunctie en gennetwerken in niet-modelorganismen. Het onderzoek naar de fylogenie van opsines, eiwitten die de fototransductiecascade initiëren, geeft bijvoorbeeld context aan de evolutie van ogen en lichtdetectie8,9,10,11. In dit geval kunnen niet-modelorganismen, met name basale diersoorten zoals cnidarianen of ctenoforen, de instandhouding of veranderingen in de fototransductiecascade en het gezichtsvermogen over de clades12,13,14verduidelijken . Evenzo zal het bepalen van de fylogenie, expressie en netwerken van andere genfamilies ons informeren over de moleculaire mechanismen die ten grondslag liggen aan aanpassingen.

Protocol

Dit protocol volgt de richtlijnen voor dierverzorging van UC Irvine. 1. RNA-seq bibliotheekvoorbereiding Isoleer RNA op de volgende manieren. Verzamel monsters. Als RNA op een later tijdstip moet worden geëxtraheerd, moet het monster in de flits worden gevriesdroogd of in RNA-opslagoplossing worden gebracht15 (Tabel met materialen). Euthanaseer en ontleed het organisme om weefsels van belang te scheiden. Extrahee…

Representative Results

De bovenstaande methoden zijn samengevat in figuur 1 en werden toegepast op een dataset van Hydra vulgaris weefsels. H. vulgaris is een zoetwater ongewervelde die behoort tot de phylum Cnidaria die ook koralen, kwallen en zee-anemonen omvat. H. vulgaris kunnen zich aseksueel voortplanten door te ontluiken en ze kunnen hun hoofd en voet regenereren wanneer ze worden doorsneden. In deze studie wilden we de evolutie en expressie van opsinegenen in Hydra</…

Discussion

Het doel van dit protocol is om een overzicht te geven van de stappen voor het karakteriseren van een genfamilie met behulp van RNA-seq-gegevens. Het is bewezen dat deze methoden werken voor verschillende soorten en datasets4,34,35. De hier opgerichte pijplijn is vereenvoudigd en moet gemakkelijk genoeg zijn om te worden gevolgd door een beginner in bioinformatica. Het belang van het protocol is dat het alle stappen en noodzakel…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

We danken Adriana Briscoe, Gil Smith, Rabi Murad en Aline G. Rangel voor advies en begeleiding bij het opnemen van enkele van deze stappen in onze workflow. We zijn ook Katherine Williams, Elisabeth Rebboah en Natasha Picciani dankbaar voor hun commentaar op het manuscript. Dit werk werd gedeeltelijk ondersteund door een George E. Hewitt Foundation for Medical research fellowship aan A.M.M.

Materials

Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

Referenzen

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology – B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. . RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra’s periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. . OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. . edgeR differential expression analysis of digital gene expression data User’s Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Play Video

Diesen Artikel zitieren
Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

View Video