在这里, 我们提出了一个生物信息学方法和分析, 以识别 LINE-1 表达在位点特定的水平。
长插入元素-1 (Lines/l1) 是重复的元素, 可以复制并随机插入基因组, 导致基因组不稳定和突变。了解 L1 位点在个体层面的表达模式, 将有助于了解这种诱变元素的生物学。这种自主元素占人类基因组的很大一部分, 有超过 50万份, 尽管99% 被截断和有缺陷。然而, 它们丰富和占主导地位的有缺陷的副本数量使得从作为其他基因一部分表达的 L1 相关序列中真正表达的 L1 变得具有挑战性。由于元素的重复性质, 确定表达哪些特定 L1 位点也具有挑战性。克服这些挑战, 我们提出了一个 RNA-Seq 生物信息方法来识别 L1 表达在位点特定的水平。总之, 我们收集细胞质 rna, 选择多腺化转录, 并利用特异性 RNA-Seq 分析, 将读取唯一映射到人类参考基因组中的 L1 位点。我们用独特的映射读数直观地管理每个 L1 位点, 以确认从其自身的启动子中进行转录, 并调整映射的转录读数, 以考虑每个 L1 位点的映射能力。这种方法被应用于前列腺肿瘤细胞系 DU145, 以证明该方案检测出少量全长 L1 元素表达的能力。
逆转录酶是重复的 DNA 元素, 可以通过 RNA 中间体在复制和粘贴机制中 “跳” 在基因组中。后移子区的一个子集被称为 Long infos散元长-1 (LINEs/L1s), 占人类基因组的六分之一, 有超过 500, 000份副本1。尽管这些副本很多, 但它们大多是有缺陷的, 被截断的只有估计的 80-120 L1 元素被认为是活跃的 2。全长 l1 的长度约为 6 kb, 具有 5 ‘ 和 3 ‘ 未翻译的区域, 内部启动子和相关的反义启动子, 两个非重叠的开放阅读帧 (orf), 以及信号和多a 尾 3,4,5.在人类中, l1 是由因进化年龄而区分的亚系组成的, 与最年轻的亚科 L1s6,7 相比, 年龄较大的家庭随着时间的推移积累了更多独特的序列突变。L1 是唯一的自主的人的反转座子及其 Orf 编码逆转录酶, 内切酶, 和 RNPs 的 rna 结合和陪同活动所需的再转相和插入基因组在一个过程称为目标底漆逆转录酶8,9,10,11,12。
据报告, l1 的逆行通过各种机制导致人类生殖素疾病, 包括插入突变、靶点缺失和重新排列13、14、15、 16. 最近有人假设, l1 可能在肿瘤发生和肿瘤进展中发挥作用, 因为在各种上皮癌中观察到这种诱变元素的表达和插入事件增加 17,18.据估计, 每200个新生儿中就有一个新的 L1 插入率19。因此, 更好地理解主动表达 L1 的生物学是势在必行的。在其他基因的转录记录中发现的有缺陷的副本的重复性质和丰富, 使这一水平的分析具有挑战性。
幸运的是, 随着高通量测序技术的出现, 在特定于库的级别上解析和识别真实表达 L1 的方法取得了长足的进步。关于如何使用 RNA 下一代测序最好地识别表达的 L1, 有不同的理念。建议在特定于用户的层面绘制 L1 记录的方法只有两种。你只注重通过 L1 多腺苷酸信号读入侧翼序列20的潜在转录。我们的方法利用 L1 元素之间的微小序列差异, 只映射那些唯一映射到一个位置21的 RNA-Seq 读取。这两种方法在成绩单水平的定量方面都有局限性。通过为每个 L1 位点21的 “唯一映射性” 添加校正, 或者使用更复杂的算法来重新分配无法唯一映射到特定位点22的多映射读取, 可以潜在地改进量化。在这里, 我们将逐步详细介绍 RNA 提取和下一代测序和生物信息学协议, 以确定在特定于位置的级别上表达的 L1 元素。我们的方法最大限度地利用了我们对功能 L1 元素生物学的了解。这包括知道功能 L1 元素必须从 L1 启动子中生成, 在 L1 元素开始时启动, 必须在细胞质中转换, 并且它们的转录应与基因组呈线性关系。简单地说, 我们收集新鲜的细胞质 RNA, 选择多腺苷酸转录, 并利用特异性 RNA-Seq 分析, 将读取唯一映射到人类参考基因组中的 L1 位点。然后, 这些对齐的读取仍然需要广泛的手动策划, 以确定是否从 L1 启动子开始, 然后再指定一个轨迹作为一个真正表达的 L1。我们将此方法应用于 DU145 前列腺肿瘤细胞系样本, 以证明它如何从大量的非活性拷贝中识别相对较少的主动转录的 L1 成员。
L1 活动已被证明会造成遗传损害和不稳定, 导致疾病 27,28,29。在大约 5, 000份全长 L1 副本中, 只有几十份进化上年轻的 L1 占了逆转录数活动2的大部分。然而, 有证据表明, 即使是一些较老的、经后转移的 L1 仍然能够产生 DNA 破坏蛋白 30.为了充分理解 L1 在基因组不稳定和疾病中的作用, 必须了解 L1 在局部特定水平上的表达。然而, L1 相关序列的高背景包含在与 L1 反转换无关的其他 Rna 中, 这对解释真实的 L1 表达性提出了重大挑战。另一个挑战是识别并因此理解单个 L1 位点的表达模式, 这是因为它们的重复性质, 不允许许多简短的读取序列映射到一个唯一的位点。为了克服这些挑战, 我们开发了上述方法, 使用 RNA-Seq 数据识别单个 L1 位点的表达。
我们的方法过滤高水平 (超过 99%)通过采取一些步骤, 产生的与 L1 逆行无关的 L1 序列产生的转录噪声。第一步是制备细胞质 RNA。通过选择细胞质 RNA, 在细胞核中表达的内界 mRNA 中发现的 L1 相关读数被显著耗尽。在测序库准备中, 为减少与 L1 无关的转录噪声而采取的另一个步骤包括选择多腺苷酸化转录。这消除了在非 mrna 物种中发现的与 L1 相关的转录噪声。另一个步骤包括特定于结构的排序, 以识别和消除反义 L1 相关的记录。在识别映射到 L1 的 RNA-Seq 文字记录的数量时, 使用具有功能启动子区域的全长 L1 注释也消除了源自截断 L1 的背景噪声。最后, 消除与 L1 反转位无关的 L1 序列转录噪声的最后一个关键步骤是手动管理被确定为映射了 RNA-Seq 记录的全长 L1。手动策划涉及在其周围的基因组环境中对每个生物信息识别到表达的 L1 位点进行可视化, 以确认这种表达源自 L1 启动子。这种方法适用于 DU145, 前列腺肿瘤细胞系。即使采取了与准备有关的步骤来减少背景噪音, 在 DU145 中确定的生物信息 L1 位点中, 约有50% 被拒绝, 因为 L1 背景噪声来自其他转录源 (图 4),强调产生可靠结果所需的严谨性。这种使用人工策展的方法是劳动密集型的, 但在开发此管道时, 对于评估和了解全长 L1 周围的基因组环境是必要的。接下来的步骤包括通过自动化一些策展规则来减少必要的人工策展量, 不过由于基因组表达的性质尚不完全清楚, 参考基因组中没有注释的表达来源, 低区域映射性, 甚至是与参考基因组的构建相关的复杂因素, 在这个时候是不可能完全自动化的 L1 策展。
在识别具有排序的单个 L1 位点表达方面的第二个挑战涉及重复 L1 转录的映射。在此对齐策略中, 需要记录与参考基因组进行唯一一致的一致, 以便进行映射。通过选择一致绘制一致地图的配对端序列, 与参考基因组中的 L1 位点唯一对齐的转录量增加。这种唯一映射策略提供了对特定于单个 L1 位点的读取映射调用的信心, 尽管它可能低估了每个识别到真实表达的重复 L1 的表达量。为了大致纠正这种低估, 开发了基于每个 L1 位点的 “映射” 分数, 并将其应用于唯一映射的记录读取数 (图 6)。值得注意的是, 理想情况下, 映射性应根据匹配的 WGS 样本在全长 L1 中进行全覆盖读取。在这里, 我们使用 H但细胞的 WGS 来确定每个 L1 位点的映射分数, 以膨胀或降低读取映射到 DU145 前列腺肿瘤细胞系中的 L1 位点。这种映射计算是一个粗糙的校正评分, 但选择的 ‘ 完全覆盖映射 ‘ 的400次读数是在考虑肿瘤细胞系动态性质的情况下确定的。在补充图 1中可以看到, 有几个 l1 位点与 H过拉 wgs 具有非常高的映射读取数。这些可能来自在 HeLa 内的重复染色体序列, 这些序列不在参考基因组内, 这就是为什么这些位点没有被选择代表完全的映射覆盖。相反, 根据补充图 1 , 100% 阅读覆盖率的平均值发生在400次左右, 然后假定这一平均值也适用于 du145 肿瘤细胞系。
这种对齐策略与 100-200 bp 读取从 RNA-Seq 技术也优先选择在参考基因组中的进化上更老的 L1, 因为年龄较大的 L1 已经积累了独特的突变随着时间的推移, 使他们更可映射。因此, 这种方法在识别 L1 中最年轻的 L1 以及非引用的多态 L1 时的灵敏度有限。为了确定 L1 中最年轻的, 我们建议使用 5 ‘ RACE 选择 L1 文字记录和测序技术, 如 PacBio, 利用更长的读数21。这允许更独特的映射, 从而有信心地识别表达的年轻 L1. 使用 RNA-Seq 和 PacBio 方法可以共同产生更全面的真实表达 L1 的列表。为了识别真实表达的多态 L1, 接下来的第一步包括构建多态序列并将其插入参考基因组。
研究重复序列的生物和技术挑战是巨大的, 但通过上述严格的程序, 消除 L1 序列的转录噪声与重复转换无关, 我们开始筛选通过大水平的转录背景噪声, 并在单个位点水平上自信和严格地识别 L1 表达模式和数量。
The authors have nothing to disclose.
我们要感谢严东博士的 DU145 前列腺肿瘤细胞。我们要感谢 Nathan Ungerleider 博士在创建超级计算机脚本方面的指导和建议。其中一些工作是由国家卫生研究院资助的, 向 PD 提供了 R01 gm121812, 将 R01 AG057597 授予 VPB, 将5TL1TR001418 授予了传统知识。我们还要感谢癌症十字军和图兰癌症中心生物信息学核心的支持。
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |