该协议描述了用于以高分辨率表征超大型靶基因组区域的3D组织的Capture Hi-C方法,包括拓扑关联结构域(TAD)的边界以及调控和其他DNA序列元件之间的长程染色质相互作用。
基因组的空间组织有助于其在许多情况下的功能和调节,包括转录、复制、重组和修复。因此,了解基因组拓扑和功能之间的确切因果关系至关重要,并且越来越成为深入研究的主题。染色体构象捕获技术(3C)允许通过测量基因组任何区域之间的相互作用频率来推断染色质的3D结构。在这里,我们描述了一种快速简单的协议来执行Capture Hi-C,这是一种基于3C的靶标富集方法,可在高分辨率下表征超大型基因组靶标的等位基因特异性3D组织。在捕获Hi-C中,在下游高通量测序之前,由一系列生物素化探针捕获目标区域。因此,实现了更高的分辨率和等位基因特异性,同时提高了该技术的时间效率和可负担性。为了证明其优势,将Capture Hi-C协议应用于小鼠X灭活中心(Xic),这是X染色体失活 (XCI)的主要调控位点。
线性基因组保存了生物体经历胚胎发育并在整个成年期生存所需的所有信息。然而,指导基因相同的细胞执行不同的功能对于准确控制在特定情况下使用哪些信息至关重要,包括不同的组织和/或发育阶段。基因组的三维组织被认为通过促进或阻止线性基因组中可以相隔几百千碱基的调控元件之间的物理相互作用来参与基因活动的这种准确的时空调控(评论1,2,3).在过去的20年中,我们对基因组折叠和活性之间相互作用的理解迅速增加,这主要是由于染色体构象捕获技术(3C)的发展(综述4,5,6,7)。这些方法测量基因组任何区域之间相互作用的频率,并依赖于细胞核内3D接近的DNA序列的连接。最常见的3C方案从用交联剂(如甲醛)固定细胞群开始。然后用限制性内切酶消化交联染色质,尽管MNase消化也被使用8,9。消化后,空间接近的游离DNA末端被重新连接,交联被逆转。这一步产生了3C“文库”或“模板”,这是一个混合的杂交片段池,其中3D接近细胞核的序列有更高的机会连接在同一DNA片段中。这些杂交片段的下游定量能够推断基因组区域的3D构象,这些基因组区域在线性基因组中相距数千个碱基对,但可能在3D空间中相互作用。
已经开发了许多不同的方法来表征3C文库,在分析连接片段的哪些子集以及使用哪种技术进行下游定量方面都有所不同。最初的3C方案依赖于选择两个感兴趣的区域,并通过PCR10,11量化它们的“一对一”相互作用频率。4C方法(环状染色体构象捕获)测量单个兴趣位点(即“视点”)与基因组其余部分(“一个与所有”)之间的相互作用12,13,14。在4C中,3C文库经历第二轮消化和重新连接,以产生小的环状DNA分子,这些分子通过视点特异性引物15进行PCR扩增。5C(染色体构象捕获碳拷贝)能够表征更大感兴趣区域的3D相互作用,从而深入了解该区域内高阶染色质折叠(“多与多”)16。在5C中,3C文库杂交到重叠限制性内切位点的寡核苷酸池中,随后可以通过具有通用引物15的多重PCR扩增。在4C和5C中,信息丰富的DNA片段最初通过微阵列定量,后来通过下一代测序(NGS)定量17,18,19。这些策略表征了感兴趣的目标区域,但不能应用于绘制全基因组相互作用。后一个目标是通过Hi-C实现的,Hi-C是一种基于3C的高通量策略,其中3C模板的大规模并行测序允许在全基因组水平(“全部与全部”)对染色质折叠进行无偏表征20。Hi-C方案包括在消化片段的末端掺入生物素化残基,然后用链霉亲和素珠下拉连接片段,以提高连接片段的回收率20。
Hi-C揭示了哺乳动物基因组在3D细胞核中的多个尺度上结构组织。在巨碱基尺度上,基因组分为活性和非活性染色质区域,A和B区室分别为20,21。随后还显示了由不同染色质和活性状态表示的进一步亚区室的存在22。在更高的分辨率下,基因组进一步划分为称为拓扑关联域(TADs)的亚兆碱基自相互作用域,首先通过人类和小鼠基因组的Hi-C和5C分析23,24揭示。与以组织特异性方式变化的隔室不同,TAD往往是恒定的(尽管有许多例外)。重要的是,TAD边界在物种中是保守的25。在哺乳动物细胞中,TADs通常包含具有相同调控景观的基因,并且已被证明代表一种结构框架,该结构框架促进基因共调控,同时限制与相邻调控域的相互作用(综述3,26,27,28)。此外,在TADs中,由于凝聚素挤出环底部的CTCF位点引起的相互作用可能会增加启动子-增强子或增强子-增强子相互作用的可能性(综述29)。
在Hi-C中,可以在1 Mb至40 kb的分辨率下检测隔室和TAD,但可以实现更高的分辨率来表征较小尺度的接触,例如远端元件之间的循环相互作用,分辨率为5-10 kb。然而,提高分辨率以便能够通过HiC有效地检测此类环路需要显着增加测序深度,从而增加测序成本。如果分析需要具有等位基因特异性,则情况会加剧。事实上,分辨率的X倍提高需要测序深度增加X2 ,这意味着高分辨率和等位基因特异性全基因组方法可能非常昂贵30。
为了在保持高分辨率的同时提高成本效益和可负担性,可以在下游测序之前与互补的生物素标记寡核苷酸探针杂交后,从全基因组3C或Hi-C文库中物理提取感兴趣的靶区。这些靶标富集策略被称为Capture-C方法,允许询问分散在基因组中的数百个靶位点的相互作用(即启动子捕获(PC)Hi-C;下一代 (NG) 捕获-C;低输入 (LI) 捕获-C;核滴定 (NuTi) 捕获-C;Tri-C)31,32,33,34,35,36,37,38,39,40,或跨越多个巨型碱基的区域(即捕获HiC;HYbrid Capture Hi-C (Hi-C 2);平铺-C)41,42,43。在基于捕获的方法中,两个方面可能有所不同:(1)生物素化寡核苷酸的性质和设计(即RNA或DNA,捕获分散基因组靶标的单个寡核苷酸或将感兴趣区域平铺的多个寡核苷酸);(2)用于下拉靶标的模板可以是3C或Hi-C文库,后者由从3C文库拉下的生物素化限制性内切片段组成。
本文描述了一种基于3C库中目标触点富集的Capture Hi-C协议。该方案依赖于定制生物素化RNA探针平铺阵列的设计,并且可以在从3C文库制备到NGS测序的1周内完成。该协议快速、简单,允许以 5 kb 分辨率表征兆基大小感兴趣区域的高阶 3D 组织,同时与其他 3C 方法相比提高了时间效率和可负担性。Capture Hi-C方案被应用于X染色体失活(XCI)的主调控位点,即X失活中心(Xic),其宿主Xist非编码RNA。Xic以前一直是广泛的结构和功能分析的主题(审查44,45)。在哺乳动物中,XCI补偿雌性(XX)和雄性(XY)之间X连锁基因的剂量,并涉及雌性细胞中两条X染色体中几乎全部的转录沉默。Xic代表了3D基因组拓扑学研究以及与基因调控44相互作用的强大黄金标准位点。对小鼠胚胎干细胞(mESCs)中Xic的5C分析导致了TAD的发现和命名,为拓扑分区和基因共调控的功能相关性提供了初步的见解24。Xic的拓扑组织随后被证明与Xist上调和XCI46的适当发育时间密切相关,并且最近在Xic 47,48,49中也发现了可以影响TAD内部和之间基因活性的未被怀疑的顺式调节元件。将捕获Hi-C应用于跨越Xic的小鼠X染色体的3 Mb,证明了这种方法在高分辨率下解剖大规模染色质折叠方面的力量。从设计感兴趣区域内每个DpnII限制性位点的生物素化探针阵列开始,到全基因组3C文库的生成、靶标接触的杂交和捕获以及下游数据分析,提供了详细且易于遵循的方案。还概述了适当的质量控制和预期成果,并根据类似的现有方法讨论了该方法的长处和局限性。
在这里,我们描述了一种相对快速和简单的Capture Hi-C协议,以5-10 kb分辨率表征兆碱基大小基因组区域的高阶组织。Capture Hi-C属于Capture-C技术家族,旨在富集全基因组3C或Hi-C模板的靶向染色质相互作用。迄今为止,绝大多数Capture-C应用已被用于绘制分散在整个基因组中的相对较小的调控元件的染色质接触。在第一个Capture-C方案中,使用多个重叠的RNA生物素化探针在由红系细胞制备的3C文库中捕获>400个预选启动子31。随后在下一代 (NG) 和核滴定 (NuTi) 捕获-C 中改进了相同的策略,通过使用跨越单个限制性位点的单个 120 bp DNA 诱饵和两轮连续捕获,实现 >8,000 个启动子的高分辨率相互作用谱,以最大限度地提高信息连接片段的富集32,40.这些策略导致在许多不同的背景下对顺式作用元件进行功能解剖,包括小鼠胚胎发育,细胞分化,X染色体失活和病理条件下的基因错误调节46,63,65,66,67,68,69,70,71。
在启动子捕获Hi-C(PCHi-C)中,通过在限制性内切片段34,72的两端杂交单个RNA 120-mer生物素化探针,从Hi-C文库中拉下>22,000个含有限制性内切酶片段的注释启动子。该方法允许解剖快速增长的细胞类型中数千个启动子的相互作用组,包括小鼠胚胎干细胞,胎儿肝细胞和脂肪细胞34,35,72,73,以及人淋巴母细胞系,造血祖细胞,表皮角质形成细胞和多能细胞37,74,75,76,77.
与这些靶标富集技术相比,Capture Hi-C靶向连续的基因组区域,最高可达兆碱基规模,从而跨越一个或多个TAD,并涵盖基因的调控环境。整个感兴趣区域必须用一系列生物素化探针平铺,这些探针包含靶标内的每个DpnII限制性位点。生物素化阵列与3C模板的杂交,随后基于链霉亲和素的捕获以及多重测序的处理使用Illumina配对端多重测序的靶标富集系统进行。整个实验方案速度很快,从3C文库制备到NGS测序只需1周即可完成,并且只需要稍作调整和/或定制特定的故障排除。
与其他基于3C的方法相比,该协议还具有优势。为了获得分辨率为5-10 kb的交互图,我们对100-120 M配对端读取进行了测序。作为比较,我们在这里使用了 571 M 读取的 Hi-C 数据集来达到 20 kb 分辨率64 (GSM2053973),并且至少需要 10 亿次读取才能达到染色体宽Hi-C 22 的 5 kb 分辨率。
本研究中使用的捕获Hi-C比先前发表的基于6 bp切割限制性内切酶47 的5C分辨率高得多(补充表1)。重要的是,旨在丰富和扩增5C中靶向相互作用的策略不允许对染色质相互作用进行等位基因特异性分析。相反,Capture Hi-C数据可以特异性地映射等位基因,从而允许解剖成对同源染色体的3D结构景观,例如在人类细胞或通过杂交遗传不同的小鼠品系衍生的F1杂交细胞系中78。为了生成5 kb分辨率的等位基因特异性Capture Hi-C相互作用图,我们对150 bp配对末端读取进行了测序,以增加SNP覆盖率。类似的等位基因特异性方法可以应用于人类细胞系,SNP的注释是可用的22。
重要的是,尽管Capture Hi-C通常可确保高分辨率,同时提高测序成本的可承受性,但定制生物素化寡核苷酸的生产确实会影响该方法的总体成本。因此,对于不同的应用,最合适的3C方法的选择会有所不同,并且取决于正在解决的生物学问题和所需的分辨率,以及感兴趣区域的大小。开发的其他 Capture Hi-C 协议与此处描述的协议具有相同的关键功能。例如,应用Capture Hi-C策略来表征~50 kb至1 Mb基因组区域,这些基因组区域跨越与乳腺癌和结直肠癌风险相关的非编码变异;在该协议中,通过杂交 120 聚体 RNA 诱饵以 3 倍覆盖率33,38,79 平铺目标区域,从 Hi-C 文库中拉下目标区域。同样,HYbrid Capture Hi-C(Hi-C 2)用于定位感兴趣区域内高达2 Mb80的相互作用。在这两种方案中,与我们的方案相比,使用富含生物素下拉连接片段的Hi-C模板增加了总信息读段的百分比。例如,在我们用于比较64 (GSM2053973) 的 Hi-C 数据集中,删除重复项后的有效对百分比比在 Capture Hi-C 中获得的有效对高 4.8 倍,如图 3 和补充表 1 中所述。然而,生物素化连接片段和杂交探针的连续下拉使该方案更加复杂和耗时,同时可能降低捕获区域的复杂性。
另一种用平铺探针富集3C模板的可用方法是Tiled-C,它被用于在小鼠红系分化过程中以高空间和时间分辨率研究染色质结构43。在Tiled-C中,一组70 bp生物素化探针用于在连续两轮捕获中富集大规模区域内的接触,以生成靶向相互作用的高分辨率图谱43,81。与Capture Hi-C相比,双重捕获富集也使协议更长,更复杂。然而,与针对单个限制性位点的Capture-C策略不同,在Tiled-C中,第二轮捕获似乎并没有显着提高捕获效率,因此可能可以省略43。最后,基于本研究中使用的相同靶标富集策略的类似平铺方法应用于解剖调控景观,包括先天性畸形患者中描述的结构变异,并在转基因小鼠中重新设计41,42。在这种情况下,探针的平铺阵列是在整个目标上设计的,而不是在DpnII限制性位点41附近设计的。尽管如此,这项工作在强调该策略在不同背景下实现大型基因组区域的高分辨率表征的敏感性和能力方面具有开创性意义41,42,48。
总之,这里描述的协议代表了一种简单、稳健且强大的策略,用于对任何感兴趣的基因组区域进行高分辨率 3D 表征。将这种方法应用于不同的模型系统,细胞类型,发育调节的染色质景观以及健康和病理条件下的基因调控,可能有助于我们理解基因组拓扑和基因调控之间的相互作用和因果关系,这是表观遗传学领域的基本开放问题之一。此外,应用Capture Hi-C来绘制GWAS研究确定的风险变异的远程相互作用和高阶染色质折叠,有可能揭示在不同背景下与人类疾病相关的非编码基因组位点的功能相关性,从而为潜在的潜在发病机制过程提供新的见解。
The authors have nothing to disclose.
赫德实验室的工作得到了欧洲研究委员会高级研究员奖(XPRESS – AdG671027)的支持。A.L.得到了欧盟玛丽·斯克沃多夫斯卡-居里行动个人奖学金(IF-838408)的支持。A.H.得到了ITN创新和跨学科网络ChromDesign的支持,根据Marie Skłodowska-Curie赠款协议813327。作者感谢Daniel Ibrahim(MPI分子遗传学,柏林)提供的有用的技术建议,感谢居里研究所(巴黎)的NGS平台,感谢弗拉基米尔·贝内斯(Vladimir Benes)和EMBL的基因组学核心设施(海德堡)的支持和帮助。
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |