Summary

遗传变异的氨基酸级信噪比分析确定变异致病性的可能性

Published: January 16, 2019
doi:

Summary

氨基酸水平信噪比分析确定了在给定氨基酸位置的遗传变异的流行率归一化为特定种群的背景遗传变异。这样就可以识别蛋白质序列 (信号) 中的变种 “热点”, 这些变化高于在人群 (噪声) 中发现的罕见变种的频率。

Abstract

下一代基因测序的成本和速度的提高产生了临床全外显子组和全基因组检测的爆炸式增长。虽然这导致更多的识别可能与遗传综合征相关的致病性突变, 它也大大增加了偶然发现的未知意义的遗传变异 (vus) 的数量。确定这些变体的临床意义是科学家和临床医生面临的一项重大挑战。一种帮助确定致病性可能性的方法是在蛋白质序列级别进行信号到噪声分析。该协议描述了一种氨基酸级信噪比分析方法, 该方法利用蛋白质已知蛋白质拓扑结构的每个氨基酸位置的变异频率来识别初级序列中具有较高可能性的区域。病理变异 (相对于人口的 “背景” 变异)。该方法可以识别高病理信号的氨基酸残留位 “热点”, 可用于细化下一代基因检测发现的 vuss 的诊断权重。

Introduction

基因测序平台的迅速改进彻底改变了遗传学在医学中的可获得性和作用。曾经局限于单个基因或少数基因, 下一代基因测序成本的降低和速度的提高导致了基因组整个编码序列 (整个外显子组测序、wes) 和整个基因组 (全基因组测序, wgs) 在临床环境中。wes 和 wgs 经常被用于考虑危重新生儿和关注遗传综合征的儿童, 在这些环境中, wes 和 wgs 是一种经证实的诊断工具, 可以改变临床管理1,2。虽然这导致了对与遗传综合征相关的可能致病性突变的更多识别, 但也大大增加了偶然发现的未知诊断的基因变异或意外阳性结果的数量(vus)。虽然其中一些变异被忽略, 并没有报告, 变异定位与潜在致命或高度病态疾病相关的基因经常报告。目前的指南建议报告在可能对患者有益的特定基因中发现的附带变异, 包括与心脏猝死诱发疾病 (如心肌病和渠道病3。虽然这项建议旨在捕获有可能发生 scd 诱发疾病的个人, 但变种检测的敏感性远远超过特异性。这反映在越来越多的 vus 和偶然识别的变量与不明确的诊断效用, 远远超过频率的各自疾病在给定的人口4。其中一种疾病, 长 qt 综合征 (lqts), 是由突变定位到编码心脏离子通道的基因, 或通道相互作用的蛋白质, 导致心脏复极延迟5引起的典型心脏通道病.这种延迟复极化, 看到一个长期的 qt 间隔在休息心电图, 导致一个潜在的致命室性心律失常的电易感性, 如尖扭转。虽然一些基因与这种疾病的发展有关,但 kcnq1编码的 ik 钾通道 (kcnq1, kv7.1) 的突变是 lqts 1 型的原因, 并作为6型以下的例子.在描述变异解释的复杂性时, 以前所描述的是 lqts 相关基因中罕见的变异, 即所谓的 “背景遗传变异”.

除了已知病原变异的大型汇编式数据库外, 还有几种策略可以预测不同变异将产生的影响。一些是基于算法, 如 sift 和 polyphen 2, 它可以过滤大量的新的非同义词变种, 以预测有害性9,10。尽管这些工具被广泛使用, 低特异性限制了其适用性, 当涉及到 “调用” 临床 vus11.“信噪比” 分析是一种工具, 它根据已知的病源的已知病理变异频率, 根据种群中罕见的遗传变异, 确定变异与疾病相关的可能性。与基于人群的变异 (高信号到噪声) 相比, 与基于人群的变异相比, 与疾病相关突变的流行率较高的遗传位点的差异更有可能与疾病相关。此外, 与疾病相关频率 (低信噪比频率) 相比, 偶然发现的罕见变异体与罕见种群变异频率较高的基因的定位, 可能不太可能与疾病相关。信号到噪声分析的诊断效用已在最新的心肌病和渠道病基因检测指南中得到说明;然而, 它只被应用于整个基因水平或领域特异性的 12级.最近, 考虑到病理变异 (疾病数据库、文献中的队列研究) 和基于人群的控制变量 (exome 聚合联盟、exac 和基因组聚合数据库, gnomad13) 的可用性增加,这已被应用于蛋白质的原代序列内的单个氨基酸位置。氨基酸水平的信噪比分析已被证明是有用的分类偶然确定的变异的基因与 lqts 相关的可能 “背景” 遗传变异, 而不是疾病相关。在与 lqts 相关的三个主要基因中, 包括kcnq1, 这些偶然识别的变种缺乏显著的信噪比, 这表明这些变种在单个氨基酸位置的频率反映了罕见的种群变异, 而不是与疾病相关的突变。此外, 当蛋白质特异性域拓扑被叠加在高信噪区域时, 病理突变的 “热点” 被定位到蛋白质关键功能域14。这种方法有希望在确定 1) 变异的可能性是疾病或人口相关和 2) 确定新的关键功能领域的蛋白质与人类疾病。

Protocol

1. 识别感兴趣的基因和特定的拼接等形式 注: 在这里, 我们演示使用 ensembl15来确定与感兴趣的疾病的发病机制相关的感兴趣的基因的共识序列 (即kcnq1 突变与 lqts 相关)。ensembl 的替代方案包括通过国家生物技术信息中心 (ncbi)16和加州大学圣克鲁斯分校 (ucsc) 人类基因组17 (见材料表)。 在 ensembl 主?…

Representative Results

图 6给 kcnq1 的氨基酸级信号噪声分析一个有代表性的结果。在本例中, 描述了在 gnomad 队列 (对照组) 中识别的罕见变体、意外识别的 wes 变体 (实验队列 #1) 和被认为与疾病相关的 lqts 病例相关变体 (实验队列 #2)。此外, 还描述了与 gnomad 变异频率归一化的 wes 和 lqts 队列变量频率的信噪比分析。与 lqts 相关的变种在与通道孔、选择性滤波器和 kcnet 结合?…

Discussion

在过去十年中, 高通量基因检测在应用和可用性方面取得了显著进展。然而, 在许多具有成熟遗传基础的疾病中, 如心肌病, 扩大检测未能提高诊断结果21。此外, 许多已确定的变体的诊断效用存在很大的不确定性。这在一定程度上是由于在 wes 和 wgs 上发现的偶然发现的罕见变种越来越多, 这可能导致误诊22。氨基酸级信噪比分析基于公认的预测变异致病性的策略, …

Disclosures

The authors have nothing to disclose.

Acknowledgements

apl 由国家卫生研究院 k08-hl136839 提供支持。

Materials

1000 Genome Project N/A www.internationalgenome.org
ClinVar N/A www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser N/A uswest.ensembl.org/index.html
Excel Microsoft office.microsoft.com/excel/ Used for all example formulas and functions
Exome Aggregation Consortium  N/A www.exac.broadinstitute.org
Genome Aggregation Database  N/A www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database N/A www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database N/A www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database N/A www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project N/A www.evs.gs.washington.edu/EVS/
SnapGene GSL Biotech LCC www.snapgene.com
University of California, Santa Cruz Human Genome Browser N/A www.genome.ucsc.edu

References

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
  16. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).
check_url/58907?article_type=t

Play Video

Cite This Article
Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

View Video