Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation

Edward G Jones; Andrew P Landstrom

doi:10.3791/58907

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Determinar la probabilidad de la variable patogenicidad mediante el análisis de Signal-to-Noise del aminoácido-nivel de variación genética

Published: January 16, 2019

doi:

10.3791/58907

Edward G Jones, Andrew P Landstrom

¹Department of Pediatrics,Baylor College of Medicine, ²Department of Pediatrics, Division of Cardiology,Duke University School of Medicine

Summary

Análisis de señal a ruido nivel de aminoácidos determina la prevalencia de la variación genética en una posición dada del aminoácido normalizada para la variación genética de fondo de una determinada población. Esto permite la identificación de la variante “puntos calientes” dentro de una secuencia de la proteína (señal) que se eleva por encima de la frecuencia de variantes raras en una población (ruido).

Abstract

Los avances en el costo y la velocidad de secuenciación genética de próxima generación han generado una explosión de exoma toda clínica y pruebas de todo el genoma. Mientras que esto ha llevado a mayor identificación de las mutaciones patógenas probables asociados a síndromes genéticos, ha también aumentado espectacularmente el número de fortuito encontrado variantes genéticas de la significación desconocida (VUS). Determinar la significación clínica de estas variantes es un gran desafío para los científicos y médicos. Un enfoque para ayudar a determinar la probabilidad de patogenicidad es análisis de señal a ruido en el nivel de secuencia de la proteína. Este protocolo describe un método para el análisis de señal a ruido nivel de aminoácidos que aprovecha la frecuencia variante en cada posición del aminoácido de la proteína con la topología de la proteína conocida para identificar las áreas de la secuencia principal con elevada probabilidad de variación patológica (en relación con la variación de población “fondo”). Este método puede identificar la ubicación de residuos del aminoácido ‘hotspots’ de alta señal patológica, que se puede utilizar para refinar el peso diagnóstico de VUSs como los identificados por pruebas genéticas de próxima generación.

Introduction

La mejora rápida en plataformas de secuenciación genética ha revolucionado la accesibilidad y el papel de la genética en medicina. Una vez confinado a un solo gen, o un puñado de genes, la reducción de costos y aumento en la velocidad de próxima generación de secuenciación genética ha llevado la secuencia sistemática de la totalidad del genoma de secuencia de codificación (secuenciación del exoma completo, WES) y la totalidad del genoma ( secuenciación del genoma entero, WGS) en el ajuste clínico. WES y WGS han utilizado con frecuencia en el ajuste de los recién nacidos críticamente enfermos y niños con preocupación por síndrome genético que es una probada herramienta de diagnóstico que puede cambiar el manejo clínico¹^,². Mientras que esto ha llevado a mayor identificación de las mutaciones patógenas probables asociados a síndromes genéticos, ha aumentado dramáticamente el número de variantes genéticas por cierto encontradas o resultados positivos inesperados, de diagnóstico desconocido significación (VUS). Mientras que algunas de estas variantes son ignorados y no divulgados, variantes localizar a genes asociados a enfermedades potencialmente mortales o altamente morbosas se divulgan a menudo. Las directrices actuales recomiendan informes incidentales variantes en genes específicos que pueden ser de beneficio médico al paciente, incluyendo genes asociados con el desarrollo de repentinas enfermedades cardíacas predisponentes de muerte como miocardiopatías y canalopatías³. Aunque esta recomendación fue diseñada para capturar a personas en riesgo de una enfermedad predisponente de SCD, la sensibilidad de la detección de variantes supera especificidad. Esto se refleja en un número creciente de VUSs y por cierto identificado variantes con la utilidad de diagnóstico claro que exceden por mucho la frecuencia de las respectivas enfermedades en una población de⁴. Una de esas enfermedades, síndrome de QT largo (SQTL) es una canónica channelopathy cardiaca causada por mutaciones de localizar a los genes que codifican los canales iónicos cardiacos, o canal de interacción de proteínas, dando por resultado retrasa la repolarización cardiaca⁵. Esta repolarización retardada, vista por un intervalo QT prolongado en el electrocardiograma de reposo resulta en una eléctrica predisposición a arritmias ventriculares potencialmente fatales como el de pointes de torsades. Mientras que un número de genes se han relacionado con el desarrollo de esta enfermedad, las mutaciones en KCNQ1-codificado en_Ks potasio canal (KCNQ1, Kv7.1) es la causa del SQTL tipo 1 y es utilizado como un ejemplo a continuación⁶. Ilustrando la complejidad de la interpretación variable, la presencia de variantes raras de genes SQTL asociado, llamados “variación genética de fondo” ha sido descrito previamente⁷^,⁸.

Además de compendio-estilo grande bases de datos de variantes patógenas conocidas varias estrategias existen para la predicción de que las diversas variantes de efecto producirá. Algunos se basan en algoritmos, como SIFT y Polyphen 2, que puede filtrar gran cantidad de nuevas variantes no sinónimo para predecir deleteriousness⁹^,¹⁰. A pesar del amplio uso de estas herramientas, baja especificidad limita su aplicabilidad cuando se trata de “llamando” clínica VUSs¹¹. Análisis de “Signal to noise” es una herramienta que identifica la probabilidad de que una variante se asoció a enfermedad basada en la frecuencia de la conocida variación patológica en el locus en cuestión normalizada contra rara variación genética de una población. Localización de loci genéticos variantes donde hay una alta prevalencia de mutaciones enfermedad-asociadas en comparación con la variación poblacional, un gran señal-ruido, son más propensos a ser asociada a enfermedad de ellos mismos. Variantes más, raras encontrar localizar a un gen con una alta frecuencia de variantes de población rara por cierto comparado con frecuencia asociada a la enfermedad, un baja señal-ruido, puede ser menos probables que asociada a la enfermedad. La utilidad de diagnóstico de análisis de señal a ruido ha sido ilustrada en las últimas guías para las pruebas genéticas para las miocardiopatías y canalopatías; sin embargo, sólo se ha empleado en el nivel del gene entero o nivel específico de dominio¹². Recientemente, dado el aumento de la disponibilidad de variantes patológicas (bases de datos de la enfermedad, estudios de cohortes en la literatura) y variantes de control poblacional (Consorcio de agregación exoma, ExAC y la base de datos de genoma agregación, GnomAD¹³), Esto se ha aplicado a las posiciones de cada aminoácido en la secuencia primaria de una proteína. Análisis de señal a ruido nivel de aminoácidos ha demostrado su utilidad en la categorización por cierto identificadas variantes en los genes asociados con SQTL como probable variación genética del “fondo” en lugar de enfermedad asociados. Entre los tres genes principales asociados con SQTL, incluyendo KCNQ1, estas variantes identificadas por cierto carecían de un significativo cocientes signal-to-noise, lo que sugiere que la frecuencia de estas variantes en las posiciones de aminoácidos individuales reflejan rara variación de la población en lugar de mutaciones asociadas a la enfermedad. Además, cuando la topología de dominio específico de la proteína era overlaid contra áreas de alta señal a ruido, patológica mutación ‘hotspots’ localizadas a dominios funcionales claves de las proteínas¹⁴. Esta metodología es prometedor para determinar que 1) la probabilidad de una variante está asociada enfermedad o población y 2) identificando nuevos dominios funcionales críticos de una proteína asociada a la enfermedad humana.

Protocol

1. identificar los genes y empalme específica de isoforma de interés Nota: Aquí, se demuestra el uso de Ensembl15 para identificar la secuencia de consenso para el gen de interés que se asocia con la patogenia de la enfermedad de interés (es decir, KCNQ1 mutaciones se asocian a LQTS). Alternativas a Ensembl incluyen RefSeq vía el Centro Nacional de información biotecnológica (NCBI)16 y la Universidad de California, Santa Cruz (UCSC…

Representative Results

Un resultado representativo para señal de nivel de aminoácidos análisis de ruido de KCNQ1 se representa en la figura 6. En este ejemplo, variantes raras identificadas en la cohorte de GnomAD (cohorte de control), identificado por cierto WES variantes (experimental cohorte #1) y variantes de SQTL asociado caso consideran probable asociada a la enfermedad (experimental cohorte #2) se describe. Además, el análisis de señal a ruido que comparan la frecuenci…

Discussion

Pruebas genéticas de alto rendimiento ha avanzado considerablemente en su aplicación y la disponibilidad de la última década. Sin embargo, en muchas enfermedades con bases genéticas bien establecidas, como las miocardiopatías, la prueba ampliada ha podido mejorar rendimiento diagnóstico²¹. Además, existe considerable incertidumbre con respecto a la utilidad de diagnóstico de muchas variantes identificadas. Esto es parcialmente debido a un creciente número de variantes raras por cierto id…

Disclosures

The authors have nothing to disclose.

Acknowledgements

APL es apoyado por el nacional institutos de salud K08-HL136839.

Materials

1000 Genome Project	N/A	www.internationalgenome.org
ClinVar	N/A	www.ncbi.nlm.nih.gov/clinvar
Ensembl Genome Browser	N/A	uswest.ensembl.org/index.html
Excel	Microsoft	office.microsoft.com/excel/	Used for all example formulas and functions
Exome Aggregation Consortium	N/A	www.exac.broadinstitute.org
Genome Aggregation Database	N/A	www.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure Database	N/A	www.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene Database	N/A	www.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein Database	N/A	www.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing Project	N/A	www.evs.gs.washington.edu/EVS/
SnapGene	GSL Biotech LCC	www.snapgene.com
University of California, Santa Cruz Human Genome Browser	N/A	www.genome.ucsc.edu

References

Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
Landstrom, A. P., Ackerman, M. J. The Achilles’ heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Jones, E. G., Landstrom, A. P. Determining the Likelihood of Variant Pathogenicity Using Amino Acid-level Signal-to-Noise Analysis of Genetic Variation. J. Vis. Exp. (143), e58907, doi:10.3791/58907 (2019).

Determinar la probabilidad de la variable patogenicidad mediante el análisis de Signal-to-Noise del aminoácido-nivel de variación genética

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Determinar la probabilidad de la variable patogenicidad mediante el análisis de Signal-to-Noise del aminoácido-nivel de variación genética

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below