本协议的目的是使用RNA测序数据调查候选基因的进化和表达。
蒸馏和报告大型数据集(如全基因组或转录组数据)往往是一项艰巨的任务。分解结果的一种方法是关注一个或多个对生物体和研究具有重要意义的基因家族。在此协议中,我们概述了生物信息学步骤,以生成植物学并量化感兴趣的基因表达。植物遗传树可以深入了解基因在物种内部和物种之间是如何进化的,并揭示正学。这些结果可以使用RNA-seq数据来比较这些基因在不同个体或组织中的表达。分子进化和表达的研究可以揭示物种间基因功能的进化和保存模式。基因家族的特征可以作为未来研究的跳板,并能在新的基因组或转录纸中突出一个重要的基因家族。
测序技术的进步促进了非模型生物基因组和转录组的测序。除了从许多生物体中测序DNA和RNA的可行性增加外,还有大量数据可供公开研究感兴趣的基因。本议定书的目的是提供生物信息学步骤,以研究基因的分子进化和表达,这些基因可能在感兴趣的有机体中发挥重要作用。
研究基因或基因家族的进化可以深入了解生物系统的进化。基因家族的成员通常通过识别保存的图案或同源基因序列来确定。基因家族进化以前是利用来自遥远相关模型生物体1的基因组进行研究的。这种方法的一个局限性是,不清楚这些基因家族是如何在密切相关的物种中进化的,以及不同环境选择性压力的作用。在此协议中,我们包括在密切相关的物种中搜索同源物种。通过在植物水平上生成植物,我们可以注意到基因家族进化的趋势,如保存的基因或特定于血统的复制。在这个水平上,我们也可以调查基因是正石还是对等体。虽然许多同源可能彼此类似,但情况不一定如此。在这些研究中加入植物遗传树对于确定这些同源基因是否是正交者非常重要。在真核生物中,许多矫形器在细胞内保留着类似的功能,哺乳动物蛋白质恢复酵母组织细胞3的功能的能力就证明了这一点。然而,在某些情况下,非正直面基因具有特征功能4。
植物树开始描绘基因和物种之间的关系,但功能不能仅仅根据遗传关系来分配。基因表达研究与功能注释和富集分析相结合,为基因功能提供了强有力的支持。基因表达可以跨个体或组织类型进行量化和比较的案例可以更能说明潜在的功能。以下协议遵循的方法,用于研究在海德拉粗俗7的蛋白基因,但他们可以应用于任何物种和任何基因家族。这些研究的结果为进一步研究非模型生物的基因功能和基因网络奠定了基础。例如,对蛋白的植物学研究,这些蛋白是引发光转移级联的蛋白质,为眼睛和光检测的进化提供了背景。在这种情况下,非模型生物,特别是基础动物物种,如神经元或细胞,可以阐明保护或变化的光转移级联和视觉跨越包12,13,14。同样,确定其他基因家族的植物学、表达和网络将告诉我们适应背后的分子机制。
本协议的目的是提供使用RNA-seq数据描述基因家族的步骤大纲。这些方法已被证明适用于各种物种和数据集4,34,35。这里建立的管道已经简化,应该很容易,随后是生物信息学的新手。该协议的意义在于,它概述了完成可发布分析的所有步骤和必要程序。协议中的一个关键步骤是正确组装全长成绩单,这来自高质量的基因组或…
The authors have nothing to disclose.
我们感谢阿德里亚娜·布里斯科、吉尔·史密斯、拉比·穆拉德和艾琳·兰赫尔在将其中一些步骤纳入我们的工作流程方面提供的建议和指导。我们也感谢凯瑟琳·威廉姆斯、伊丽莎白·雷博亚和娜塔莎·皮恰尼对手稿的评论。这项工作部分得到了乔治·休伊特医学研究基金会对A.M.M的支持。
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ |
||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic |
||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ |
||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html |
||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net |
||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net |
||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ |
||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ |
||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download |
||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit |
||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR |
||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ |
||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases |
||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic |
||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases |
||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |