在这里, 我们提出了一个深度测序方法, 提供了一个公正的确定新生 3 ‘-终端以及突变的分布的单链 dna 分子。主要应用是对新生的抗逆转录病毒补充 dna (cDNAs) 的表征, 这是在逆转录病毒逆转录酶过程中产生的中间体。
在病毒复制过程中对核酸中间体进行监测, 可深入了解抗病毒化合物和宿主细胞蛋白对病毒 dna 合成的作用及其机制。在这里, 我们解决缺乏一种基于细胞的、高覆盖率和高分辨率的检测方法, 该检测方法能够在病毒感染的生理环境中定义抗逆转录病毒逆转录酶中间体。所述方法在单核苷酸分辨率下捕获 hiv-1 感染细胞中新生互补 dna (cdna) 分子的 3 ‘-末端。该协议涉及采集整个细胞 dna、通过混合捕获有针对性地浓缩病毒 dna、适应结扎、通过凝胶纯化进行大小分馏、pcr 扩增、深度测序和数据分析。一个关键的步骤是有效和无偏见的结扎适配器分子打开 3 ‘-dna 终端。所描述的方法的应用决定了给定样本中每个特定长度的反向文字记录的丰度。它还提供了关于 (内部) 序列变化的信息, 在反写文字记录, 从而任何潜在的突变。一般来说, 该检测适用于与 dna 3 ‘-扩展相关的任何问题, 前提是模板序列是已知的。
为了充分剖析和理解病毒复制, 需要越来越精细的技术来捕获复制中间体。特别是, 在受感染细胞的背景下, 病毒核酸物种的精确定义可以提供新的见解, 因为许多病毒复制机制迄今已在孤立的体外反应中进行了检查。一个很好的例子是逆转录酶病毒的逆转录化过程, 如人体免疫缺陷病毒 1 (hiv-1)。hiv-1 逆转录酶的各个步骤, 在这期间, 病毒酶逆转录酶 (rt) 将单链 rna 基因组复制到双链 dna 中, 主要研究了纯化蛋白质和细胞核的引物扩展分析酸1,2,3,4,5。虽然确立了基本原则, 但这种检测并不包括所有病毒和细胞成分, 也可能不反映相关因素的生物学相关化学因素。因此, 我们设计了一种强大的技术来确定逆转录酶中间体的光谱, 它们的精确 cdna 3 ‘-终端 (即, 确定它们的确切长度) 和核苷酸序列在生活感染的背景下单元格6。从时间过程实验中收集的数据可用于比较各种条件下的记录的概况, 例如抗病毒分子或蛋白质的存在, 这些条件可能会影响 dna 合成的效率和可扩展性,积累。这使得人们能够更详细地了解自然病原体的生命周期, 这往往是有针对性的药物设计和成功的治疗干预的基础。
hiv-1 逆转录酶包括一系列连续的事件, 由 rna 引物退火到基因组 rna 模板, 然后由 rt 扩展, 以产生一个短的单链 cdna 转录, 称为微链强停 (-sss) (见图 1)。随后,-sss cdna 从 5 ‘ 长的末端重复 (ltr) 转移到基因组 rna 的 3 ‘-ltr, 在那里它退火并作为引物继续 rt 介导的延伸的减去链 dna (见评论逆转录酶 1,2,3 个,4). 第一次链转移是逆转录酶的限速步骤之一;因此,-ss cdna 是已知的积累。图 2a概述了在受感染细胞中捕获逆转录酶产品的基本工作流程和库设计。协议中使用并在表 1中列出的特定引物和分析设置的目标是所有早期逆转录酶中间体, 长度在 23 ~ 650 nt 之间, 其中包括180-182 分 sss dna。然而, 对该策略的适当的小调整将允许应用于不仅是晚期逆转录酶产物, 还有其他病毒和系统, 其目的是检测含有 dna 末端的 3 ‘-oh。需要考虑的重要限制包括库中最终 pcr 产品的长度范围;特别是, 开放 3 ‘-终端上的适配器与上游引物站点之间的距离超过 ~ 1000 nt 的模板可能会降低排序效率, 这可能会在图书馆准备过程中引入误导性的技术偏差 (有关更多详细信息和适应建议, 请参阅讨论)。
此前报道的系统测定核酸链 3 ‘-末端的技术主要集中在 rna, 而不是 dna, 分子。一个例子是 3 ‘ race (快速扩增 cdna 末端) 7, 它依赖于 mrna 的多腺化。此外, 还开发了采用 rna 脂质的适配器连接策略, 其中包括 rlm-race (rna 配体介导的 race) 8 或 lace (基于配体的 cdna 末端扩增)9。重要的是要强调的是, 基于结扎的放大是敏感的任何偏见引入的结扎反应本身。例如, 结扎的效率可能或多或少取决于 3 ‘ 位置、序列、总分子长度或局部结构中的特定核苷酸。这种连接酶偏好导致分子的不完全捕获和读数中的曲解, 我们和其他人已经观察到9,10.为了最大限度地减少在本文所述协议中的适配器添加步骤中的结扎偏差, 我们测试了一些结扎策略, 并发现使用 t4 dna 连接酶与发夹单链 dna 适配器 (如郭文等人所述).11) 是唯一的程序与接近定量结扎没有导致显著差异的结扎效率时, 评估与一套专门选择的控制寡核苷酸6。因此, 选择这种结扎策略是本协议成功的一个关键特征。
迄今为止, 对感染细胞中 hiv-1 rt 进展的监测主要是通过使用定量 pcr (qpcr) 测量不同长度的逆转录酶品来完成的, 这些逆转录酶链仪使用原始探针集, 以独特地测量短时间或更长的时间 (早期和早期和早期)(分别为) cdna 产品12、13、14。虽然这种 qpcr 方法适合于确定细胞系统中逆转录酶过程的内在效率, 但输出的分辨率相对较低, 没有获得序列信息。我们的新方法基于优化的适配器结扎、pcr 介导的库生成和深度测序, 解决了技术差距, 并为定量和单核苷酸时监测 hiv-1 感染期间的逆转录酶提供了机会分辨率。
我们已经说明了这种方法的效用, 在一项研究中, 区分了两个拟议的模型的能力的 hiv-1 限制因子 apobec3g (载脂蛋白 b mrna 编辑酶催化多肽类似 3g) 干扰6.
快速、可靠和经济高效的深度测序技术使生命科学领域的许多方面发生了革命性的变化, 使基于测序的分析具有很大的深度。剩下的挑战在于创新设计和创建具有代表性的测序库。在这里, 我们描述了一个捕获新生病毒 cdna 分子的协议, 特别是 hiv-1 逆转录酶过程的中间体。
在这一战略中最关键的一步是连接一个适配器开放 3 ‘-终端在数量和公正的方式。针对各种应用11、26、27、28、29,研究并优化了两个分子内和分子内的两个 ssdna 末端之间结扎的效率。选择在步骤3.3 所述条件下使用带有 t4 dna 连接酶的发夹适配器是经验优化的结果, 我们在实验中评估了不同的配体、适应剂和试剂, 用于合成寡核苷酸的结扎hiv-1 序列 (表 2) (未显示数据)。在这些体外试验反应中, 我们证实 t4 dna 连接酶介导了发夹适配器的结扎, 如郭等人所述. 11、具有非常低的偏置, 当适配器过度使用时, 可实现受体分子的接近完全结扎。结扎效率不受添加核苷酸序列的影响, 使适配器与多路引物系统兼容 (见图 4)。相比之下, 我们发现, 热稳定性 5dna/rna 连接酶 (“连接酶 a”, 见材料表比较确切的结扎酶), 这是一种工程 rna 连接酶, 开发的部分原因是为了提高以 ssdna 为受体的结扎效率27, 确实比 rna 连接酶 (“连接酶 b”) 更有效地结扎两个 ssdna 分子, 但有明显的偏差, 即使在单碱基长度差异的寡核苷酸之间, 结扎效率也有很强的差异 [表2;htp 中 g (a) 和 (b)]。此外, 我们发现与 “ligase c” 的反应中只有最小的偏差, 并与带有随机 5 ‘-终端 (一种用于抵消已知的 “ligase c” 核苷酸偏倚的策略) 的适配器结合使用. 30). 然而, “连接酶 c” 介导的分子间结扎不完整, 使 t4 dna 连接酶系统的首选。
在协议过程中的几个质量控制步骤以及包含积极和消极的控制, 可以在检测继续之前检测潜在问题, 并为故障排除工作提供指导。qpcr 2.2.2 和2.3.12 中的步骤进行量化, 以确保输入材料的数量充足。200μl 洗脱 (步骤 2.1) 中的典型 cdna 拷贝数从每μl 10, 000 到 300, 000 不等。混合捕获步骤可能会导致 hiv-1 cdna 总量的一些损失, 但应该会导致在细胞 dna 上的特定 hiv-1 cdna 的大量丰富, 这可以通过使用适当的引物来确定基因组 dna 在浓缩前后的或通过测量总 dna 浓度。在混合捕获步骤后恢复的 hiv-1 cdna 应至少占输入的10%。低起始材料可以解释一个成功的寡核苷酸阳性控制 (见步骤 3.3.2), 但只有有限的读数在样品中实现。总体读数低的原因还可能是由于没有 miseq 适配器的 dna 物种不相关, 高估了图书馆的浓度。这将导致低聚类密度, 并可以通过 qpcr 确定库中 hiv-1 序列的浓度, 以及通过荧光测定的总 dna 量来改进。由于该方法的高度敏感性, 应特别注意避免来自其他样品 (特别是高浓度控制寡核苷酸库存) 和实验室设备的甚至低水平的污染。在紫外线灭菌 pcr 工作站上工作在这方面是有益的。最终库的自动凝胶电泳 (步骤 6.1.2) 是进一步的质量控制措施。通常观察到的核酸大小范围在150至 500 nt 之间, 现在应该不存在 pcr 后和纯化前可在可选控制中检测到的底漆 (见步骤5.2 中的说明)。在一个具有代表性的结果中, 样本强度曲线的峰值在160到 170, 40nm 左右, 第二个更锐利的峰值在320至 350 nt 左右。这可能反映了经常看到的较高的丰度, 无论是相对较短 (1 至20nt 插入长度) 和全长强停 (180 至 182 nt 插入长度) (图 3b)。
虽然所提出的协议和选定的引物是特定于早期 hiv-1 逆转录酶结构, 该方法是普遍适用于任何研究, 旨在确定开放 3 ‘-终止的 dna。其他上下文中需要的主要修改将是混合捕获的方法和引物设计策略。例如, 如果要使目标适应后期的 hiv-1 转录, 在 cdna 长度内退火更多的不同生物基化寡核苷酸将是可取的, 并可能减少混合捕获步骤中的损失。正如在导言中提到的, 在设计检测 3 ‘-终端的范围时, 必须考虑到限制, 以避免不同的偏差源。首先, 如果带有适配器的模板长度差别很大, 则 pcr 反应可能会有偏差。其次, 此处使用的排序平台 (例如, miseq) 具有最佳聚类的首选插入长度范围, 并且可能无法以相同的效率对产品进行排序。在一定程度上, 这可以通过计算来解决, 就像通过计算线性长度偏置的修正系数所做的那样 (参见图 4, 下图)。但是, 如果需要 3 ‘-终端映射的区域很长 (> 1000 nt), 则更建议将反应与结扎的文字记录分开, 并使用多个上游引物来评估部分中的 3 ‘-终端。
分析程序是在内部编写的, 其具体目的是分析与固定适配器序列相邻的 hiv-1 序列的最后一个核苷酸, 以及所有碱基的基部变异, 以识别任何突变。各个步骤包括以下几个步骤: 首先, 使用快速0.0.13 工具包对适配器序列进行修剪;然后, 删除复制的任何序列 (表示包含条形码的相同序列)。然后使用 bowtie (http://bowtie-bio.sourceforge.net/index.shtml) 将所有剩余的唯一读取与 hiv-1 序列对齐, 最大不匹配设置在三个碱基。模板序列由 hiv-1 cdna (nl4.3 菌株) 的前635吨组成, 其中包括-sss 序列和第一个链转移产品, 直至 polypurine 轨道 (u5-r-u3-ppt; 见图 1)。因此, 所提供的软件和模板只有在该方法用于同一应用时才直接适用 (检测 hiv-1nl4.3 的早期反录)。必须对其他目标序列进行调整。每个读取的 3 ‘-终端的位置由对齐中的位置决定。记录每个位置的基本调用, 并根据每个基数的总覆盖率计算变异率, 这一点各不相同, 因为读取长度不同, 而在 read2 中的125个基测序可能并不完全覆盖长的插入。
最后, 我们认为所描述的方法是许多类型研究的宝贵工具。明显的应用包括通过抗逆转录病毒药物或细胞限制因子对逆转录酶抑制的机制进行研究。然而, 只需要进行相对较小的调整, 就需要使系统适应其他单链 dna 病毒中间体中的 3 ‘-末端图谱, 例如, 在细小病毒复制中存在这种情况。此外, 该方法的原理, 特别是其优化的结扎步骤, 可以为图书馆准备设计的核心部分提供任何 3 ‘-dna 延伸的表征, 包括由细胞双链 dna 催化的伸长率聚合 酶。
The authors have nothing to disclose.
提交人感谢 malim 实验室成员 luis Apolonia、jernej ule 和 rebecca oakey 的支持。作者感谢伦敦国王学院基因组中心的马特·阿诺和伦敦大学学院 (ucl) 的黛比·休斯, 下一代神经病学测序设施, 感谢他们在 miseq 测序运行方面提供的帮助。这项工作得到了英国医学研究理事会 (g1000196 和 mr/m00112/1 至 m. m.)、wellcome 信托基金 (10622z/z/z 至 m. m.)、欧洲联盟委员会第七个框架方案 (fp72007-2013) 的支持。piif-gaa-2012-329779 (至 d. p.) 和卫生部通过国家卫生研究所综合生物医学研究中心与伦敦国王学院和国王学院合作, 向盖伊和圣托马斯国家医疗服务体系基金会信托基金颁发了奖项。学院医院 nhs 基金会信托基金。
293T cells | ATCC | CRL-3216 | |
Dulbecco's Modified Eagle's Medium | Gibco | 31966-021 | |
Penicillin/Streptomycin | Gibco | 15150-122 | |
Fetal Bovine Serum | Gibco | 10270-106 | |
HeraCell Vios 250i CO2 Incubator | Thermo Scientific | 51030966 | |
Laminar flow hood – CAS BioMAT2 | Wolflabs | CAS001-C2R-1800 | |
10mm TC-treated culture dish | Corning | 430167 | |
TrypLE™ Express (1x), Stable Trypsin Replacement Enzyme | Gibco | 12605-010 | |
OptiMEM® (Minimal Essential Medium) | Gibco | 31985-047 | |
HIV-1 NL4-3 Infectious Molecular Clone (pNL4-3) | NIH Aids reagent program | 114 | |
Polyethylenimine (PEI) – MW:25000 | PolySciences Inc | 23966-2 | dissolved at 1mg/ml and adjusted to pH7 |
RQ1- Rnase free Dnase | Promega | M6101 | |
Filter 0.22 μm | Triple Red Limited | FPE404025 | |
15 mL polypropylene tubes | Corning | CLS430791 | |
Sucrose | Calbiochem | 573113 | |
Phosphate Buffered Saline (1x) | Gibco | 14190-094 | |
Ultracentrifuge tubes | Beckman Coulter | 344060 | |
Ultracentrifuge | Sorval | WX Ultra Series | Th-641 Rotor |
Alliance HIV-1 p24 antigen ELISA kit | Perkin Elmer | NEK050001KT | |
CEM-SS cells | NIH Aids reagent program | 776 | |
Roswell Park Memorial Institute Medium | Gibco | 31870-025 | |
CoStar® TC treated multiple well plates | Corning | CLS3513-50EA | |
Benchtop centrifuge: Heraus™ Multifuge™ X3 FR | Thermo Scientific | 75004536 | |
TX-1000 Swinging Bucket Rotor | Thermo Scientific | 75003017 | |
Microcentrifuge: 5424R | Eppendorf | 5404000060 | |
Total DNA extraction kit (DNeasy Blood and Tissue kit) | Qiagen | 69504 | |
Nuclease free H2O | Ambion | AM9937 | |
Cutsmart buffer | New England Biolabs (part of DpnI enzyme) | R0176S | |
DpnI restriction enzyme | New England Biolabs | R0176S | |
Oligonucleotides for qPCR | MWG Eurofins | N/A | HPSF purification |
TaqMan PCR Universal Mastermix | Thermo | 4304437 | |
LoBind Eppendorf® tubes | Eppendorf | 30108078 | |
Axygen™ aerosol filter pipette tips, 1000 μL | Fisher Scientific | TF-000-R-S | |
Axygen™ aerosol filter pipette tips, 200 μL | Fisher Scientific | TF-200-R-S | |
Axygen™ aerosol filter pipette tips, 20 μL | Fisher Scientific | TF-20-R-S | |
Axygen™ aerosol filter pipette tips, 10 μL | Fisher Scientific | TF-10-R-S | |
PCR clean hood | LabCaire | Model PCR-62 | |
DynaMag™2-magnet | Thermo | 12321D | |
Streptavidin MagneSphere® paramagnetic particles | Promega | Z5481 | |
Casein | Thermo Scientific | 37582 | |
End over end rotator, Revolver™ 360° | Labnet | H5600 | |
Tris-Base | Fisher Scientific | BP152-5 | |
Hydrochloric Acid | Sigma | H1758-100ML | |
EDTA disodium salt dihydrate | Electran (VWR) | 443885J | |
Sodium Chloride | Sigma | S3014 | |
Dri-Block® Analog Block Heater | Techne | UY-36620-13 | |
PCR tubes and domed caps | Thermo Scientific | AB0266 | |
PCR machine | Eppendorf | Mastercycler® series | |
T4 DNA ligase | New England Biolabs | M0202M | |
40% Polyethylene glycol solution (PEG) in H2O, MW: 8000 | Sigma | P1458-25ML | |
Betaine solution, 5M | Sigma | B0300-1VL | |
Gel loading buffer II (formamide buffer) | Thermo Scientific | AM8546G | |
Precast 6% TBE urea gels | Invitrogen | EC6865BOX | |
Mini cell electrophoresis system | Invitrogen, Novex | XCell SureLock™ | |
Tris/Borate/EDTA solution (10x) | Fisher Scientific | 10031223 | |
Needle 21 G x1 1/2 | VWR | 613-2022 | |
SYBR Gold nucleic acid stain (10000x) | Life Technologies | S11494 | |
Dark Reader DR46B transilluminator | Fisher Scientific | NC9800797 | |
Ammonium acetate | Merck | 101116 | |
SDS solution 20% (w/v) | Biorad | 161-0418 | |
Centrifuge tube filter | Appleton Woods | BC591 | |
Filter Glass Fibre Gf/D 10mm | Whatman (VWR) | 512-0427 | |
polyadenylic acid (polyA) RNA | Sigma | 10108626001 | |
Glycogen, molecular biology grade | Thermo Scientific | R0561 | |
Isopropanol (2-propanol) | Fisher Scientific | 15809665 | |
Ethanol, molecular biology grade | Fisher Scientific | 10041814 | |
Accuprime™ Supermix I (DNA polymerase premix) | Life Technologies | 12342-010 | |
NEBNext® Multiplex Oligo for Illumina (Index Primer Set 1 and 2) | New England Biolabs | E7335S; E7500S | |
Tapestation D1000 Screentape High sensitivity | Agilent Technologies | 5067- 5584 | |
Tapestation D1000 Reagents | Agilent Technologies | 5067- 5585 | |
2200 Tapestation – automated gel electrophoresis system | Agilent Technologies | G2965AA | |
Agencourt® AMPure® beads XP | Beckman Coulter | A63880 | |
Qubit™ dsDNA HS Assay Kit | Invitrogen | Q32851 | |
Qubit™ 2.0 Fluorometer | Invitrogen | Q32866 | |
Topo™ TA cloning Kit | Invitrogen | 450071 | |
Sequencing platform: MiSeq System | Illumina | ||
Experiment Manager (Sample sheet software) | Illumina | Note: Use TruSeq LT as a template | |
Miseq™ Reagent kit V3 (150 cycle) | Illumina | MS-102-3001 | |
Sequencing hub: Basespace | Illumina | https://basespace.illumina.com | |
Ligase A: Thermostable 5’ App DNA/RNA ligase | NEB | M0319S | Not used in this protocol, but tested in optimization process with results described in the discussion. |
Ligase B: T4 RNA ligase 1 | NEB | M0204 | Not used in this protocol, but tested in optimization process with results described in the discussion. |
Ligase C: CircLigase | Epicentre | CL4111K | Not used in this protocol, but tested in optimization process with results described in the discussion. |