氨基酸水平信噪比分析确定了在给定氨基酸位置的遗传变异的流行率归一化为特定种群的背景遗传变异。这样就可以识别蛋白质序列 (信号) 中的变种 “热点”, 这些变化高于在人群 (噪声) 中发现的罕见变种的频率。
下一代基因测序的成本和速度的提高产生了临床全外显子组和全基因组检测的爆炸式增长。虽然这导致更多的识别可能与遗传综合征相关的致病性突变, 它也大大增加了偶然发现的未知意义的遗传变异 (vus) 的数量。确定这些变体的临床意义是科学家和临床医生面临的一项重大挑战。一种帮助确定致病性可能性的方法是在蛋白质序列级别进行信号到噪声分析。该协议描述了一种氨基酸级信噪比分析方法, 该方法利用蛋白质已知蛋白质拓扑结构的每个氨基酸位置的变异频率来识别初级序列中具有较高可能性的区域。病理变异 (相对于人口的 “背景” 变异)。该方法可以识别高病理信号的氨基酸残留位 “热点”, 可用于细化下一代基因检测发现的 vuss 的诊断权重。
基因测序平台的迅速改进彻底改变了遗传学在医学中的可获得性和作用。曾经局限于单个基因或少数基因, 下一代基因测序成本的降低和速度的提高导致了基因组整个编码序列 (整个外显子组测序、wes) 和整个基因组 (全基因组测序, wgs) 在临床环境中。wes 和 wgs 经常被用于考虑危重新生儿和关注遗传综合征的儿童, 在这些环境中, wes 和 wgs 是一种经证实的诊断工具, 可以改变临床管理1,2。虽然这导致了对与遗传综合征相关的可能致病性突变的更多识别, 但也大大增加了偶然发现的未知诊断的基因变异或意外阳性结果的数量(vus)。虽然其中一些变异被忽略, 并没有报告, 变异定位与潜在致命或高度病态疾病相关的基因经常报告。目前的指南建议报告在可能对患者有益的特定基因中发现的附带变异, 包括与心脏猝死诱发疾病 (如心肌病和渠道病3。虽然这项建议旨在捕获有可能发生 scd 诱发疾病的个人, 但变种检测的敏感性远远超过特异性。这反映在越来越多的 vus 和偶然识别的变量与不明确的诊断效用, 远远超过频率的各自疾病在给定的人口4。其中一种疾病, 长 qt 综合征 (lqts), 是由突变定位到编码心脏离子通道的基因, 或通道相互作用的蛋白质, 导致心脏复极延迟5引起的典型心脏通道病.这种延迟复极化, 看到一个长期的 qt 间隔在休息心电图, 导致一个潜在的致命室性心律失常的电易感性, 如尖扭转。虽然一些基因与这种疾病的发展有关,但 kcnq1编码的 ik 钾通道 (kcnq1, kv7.1) 的突变是 lqts 1 型的原因, 并作为6型以下的例子.在描述变异解释的复杂性时, 以前所描述的是 lqts 相关基因中罕见的变异, 即所谓的 “背景遗传变异”.
除了已知病原变异的大型汇编式数据库外, 还有几种策略可以预测不同变异将产生的影响。一些是基于算法, 如 sift 和 polyphen 2, 它可以过滤大量的新的非同义词变种, 以预测有害性9,10。尽管这些工具被广泛使用, 低特异性限制了其适用性, 当涉及到 “调用” 临床 vus11.“信噪比” 分析是一种工具, 它根据已知的病源的已知病理变异频率, 根据种群中罕见的遗传变异, 确定变异与疾病相关的可能性。与基于人群的变异 (高信号到噪声) 相比, 与基于人群的变异相比, 与疾病相关突变的流行率较高的遗传位点的差异更有可能与疾病相关。此外, 与疾病相关频率 (低信噪比频率) 相比, 偶然发现的罕见变异体与罕见种群变异频率较高的基因的定位, 可能不太可能与疾病相关。信号到噪声分析的诊断效用已在最新的心肌病和渠道病基因检测指南中得到说明;然而, 它只被应用于整个基因水平或领域特异性的 12级.最近, 考虑到病理变异 (疾病数据库、文献中的队列研究) 和基于人群的控制变量 (exome 聚合联盟、exac 和基因组聚合数据库, gnomad13) 的可用性增加,这已被应用于蛋白质的原代序列内的单个氨基酸位置。氨基酸水平的信噪比分析已被证明是有用的分类偶然确定的变异的基因与 lqts 相关的可能 “背景” 遗传变异, 而不是疾病相关。在与 lqts 相关的三个主要基因中, 包括kcnq1, 这些偶然识别的变种缺乏显著的信噪比, 这表明这些变种在单个氨基酸位置的频率反映了罕见的种群变异, 而不是与疾病相关的突变。此外, 当蛋白质特异性域拓扑被叠加在高信噪区域时, 病理突变的 “热点” 被定位到蛋白质的关键功能域14。这种方法有希望在确定 1) 变异的可能性是疾病或人口相关和 2) 确定新的关键功能领域的蛋白质与人类疾病。
在过去十年中, 高通量基因检测在应用和可用性方面取得了显著进展。然而, 在许多具有成熟遗传基础的疾病中, 如心肌病, 扩大检测未能提高诊断结果21。此外, 许多已确定的变体的诊断效用存在很大的不确定性。这在一定程度上是由于在 wes 和 wgs 上发现的偶然发现的罕见变种越来越多, 这可能导致误诊22。氨基酸级信噪比分析基于公认的预测变异致病性的策略, …
The authors have nothing to disclose.
apl 由国家卫生研究院 k08-hl136839 提供支持。
1000 Genome Project | N/A | www.internationalgenome.org | |
ClinVar | N/A | www.ncbi.nlm.nih.gov/clinvar | |
Ensembl Genome Browser | N/A | uswest.ensembl.org/index.html | |
Excel | Microsoft | office.microsoft.com/excel/ | Used for all example formulas and functions |
Exome Aggregation Consortium | N/A | www.exac.broadinstitute.org | |
Genome Aggregation Database | N/A | www.gnomad.broadinstitute.org | |
National Center for Biotechnology Information Domain and Structure Database | N/A | www.ncbi.nlm.nih.gov/guide/domains-structures/ | |
National Center for Biotechnology Information Gene Database | N/A | www.ncbi.nlm.nih.gov/gene/ | |
National Center for Biotechnology Information Protein Database | N/A | www.ncbi.nlm.nih.gov/protein/ | |
National Heart, Lung, and Blood Institute GO Exome Sequencing Project | N/A | www.evs.gs.washington.edu/EVS/ | |
SnapGene | GSL Biotech LCC | www.snapgene.com | |
University of California, Santa Cruz Human Genome Browser | N/A | www.genome.ucsc.edu |