Summary

Screening for funktionelle ikke-kodende genetiske varianter Brug af elektroforetisk mobilitet (EMSA) og DNA-affinitet Precipitation Assay (DAPA)

Published: August 21, 2016
doi:

Summary

We present a strategic plan and protocol for identifying non-coding genetic variants affecting transcription factor (TF) DNA binding. A detailed experimental protocol is provided for electrophoretic mobility shift assay (EMSA) and DNA affinity precipitation assay (DAPA) analysis of genotype-dependent TF DNA binding.

Abstract

Population and family-based genetic studies typically result in the identification of genetic variants that are statistically associated with a clinical disease or phenotype. For many diseases and traits, most variants are non-coding, and are thus likely to act by impacting subtle, comparatively hard to predict mechanisms controlling gene expression. Here, we describe a general strategic approach to prioritize non-coding variants, and screen them for their function. This approach involves computational prioritization using functional genomic databases followed by experimental analysis of differential binding of transcription factors (TFs) to risk and non-risk alleles. For both electrophoretic mobility shift assay (EMSA) and DNA affinity precipitation assay (DAPA) analysis of genetic variants, a synthetic DNA oligonucleotide (oligo) is used to identify factors in the nuclear lysate of disease or phenotype-relevant cells. For EMSA, the oligonucleotides with or without bound nuclear factors (often TFs) are analyzed by non-denaturing electrophoresis on a tris-borate-EDTA (TBE) polyacrylamide gel. For DAPA, the oligonucleotides are bound to a magnetic column and the nuclear factors that specifically bind the DNA sequence are eluted and analyzed through mass spectrometry or with a reducing sodium dodecyl sulfate polyacrylamide gel electrophoresis (SDS-PAGE) followed by Western blot analysis. This general approach can be widely used to study the function of non-coding genetic variants associated with any disease, trait, or phenotype.

Introduction

Sekventering og genotypebestemmelse baserede undersøgelser, herunder genom-Wide Association Studies (GWAS), kandidat locus undersøgelser, og dyb-sekventering studier har identificeret mange genetiske varianter, der er statistisk forbundet med en sygdom, træk, eller fænotype. I modsætning til tidlige forudsigelser, de fleste af disse varianter (85-93%) er placeret i ikke-kodende regioner og ikke ændrer aminosyresekvensen af proteiner 1,2. Fortolkning af funktionen af disse ikke-kodende varianter og bestemme de biologiske mekanismer, der forbinder dem til den associerede sygdom, er træk, eller fænotype bevist udfordrende 3-6. Vi har udviklet en generel strategi til at identificere de molekylære mekanismer, der knytter varianter til et vigtigt mellemprodukt fænotype – genekspression. Denne rørledning er specielt designet til at identificere modulation af TF binding af genetiske varianter. Denne strategi kombinerer beregningsmæssige metoder og molekylærbiologiske teknikker med henblik at forudsigebiologiske effekter af kandidat varianter i silico og kontrollere disse forudsigelser empirisk (Figur 1).

figur 1
Figur 1:.. Strategisk tilgang til analyse af ikke-kodende genetiske varianter Steps, der ikke er medtaget i detaljeret protokol i forbindelse med dette manuskript er skraveret med gråt Klik her for at se en større version af dette tal.

I mange tilfælde er det vigtigt at begynde med at udvide listen over varianter at omfatte alle dem i high kobling-uligevægt (LD) med hver statistisk associeret variant. LD er et mål for ikke-tilfældige association af alleler ved to forskellige kromosomale positioner, hvilket kan måles ved R2 statistik 7. R2 er et mål for linKage uligevægt mellem to varianter, med en r 2 = 1 angiver perfekt kobling mellem to varianter. Alleler i høj LD viser sig at co-segregerer på kromosomet tværs ancestral populationer. Aktuelle genotype arrays inkluderer ikke alle kendte varianter i det humane genom. I stedet er de udnytte LD inden det humane genom og omfatte en delmængde af de kendte varianter, der fungerer som stedfortrædere for andre varianter inden for en bestemt region i LD 8. Således kan en variant uden biologisk konsekvens være associeret med en bestemt sygdom, fordi det er i LD med den kausale variant-varianten med en meningsfuld biologisk virkning. Proceduremæssigt, anbefales det at konvertere den nyeste version af de 1.000 genomer projekt 9 variant opkald filer (VCF) i binære filer er kompatible med Plink 10,11, et open source-værktøj til hele genomet association analyse. Efterfølgende alle andre genetiske varianter med LD r 2> 0,8 med hver indgang genetiske vaRiant kan identificeres som kandidater. Det er vigtigt at bruge den relevante Referencepopulationen for dette trin for fx hvis en variant blev identificeret i emner af europæisk afstamning, data fra emner af lignende afstamning skal bruges til LD ekspansion.

LD ekspansion resulterer ofte i snesevis af kandidat-varianter, og det er sandsynligt, at kun en lille brøkdel af disse bidrager til sygdom mekanisme. Ofte er det umuligt at eksperimentelt undersøge hver af disse varianter individuelt. Det er derfor nyttigt at udnytte de tusindvis af offentligt tilgængelige funktionelle genomiske datasæt som et filter til at prioritere de varianter. For eksempel har KODE konsortium 12 udført tusindvis af chip-seq eksperimenter beskriver bindingen af TF'er og co-faktorer og histon-mærker i en lang række sammenhænge, ​​sammen med data chromatin accessibility fra teknologier såsom DNase-seq 13, ATAC -seq 14, og FAIRE-seq 15. Databasernes og webservere såsom UCSC Genome Browser 16, køreplanen Epigenomics 17, Blueprint epigenome 18, Cistrome 19, og restere 20 giver fri adgang til data fra disse og andre eksperimentelle teknikker på tværs af en bred vifte af celletyper og betingelser. Når der er for mange varianter at undersøge eksperimentelt, kan disse data anvendes til at prioritere dem, der findes inden for sandsynlige regulatoriske regioner i relevante celle- og vævstyper. I tilfælde, hvor en variant er inden for en chip-seq top for et specifikt protein, kan disse data give potentielle kundeemner som til den specifikke TF (er) eller co-faktorer, hvis binding kan påvirke.

Dernæst resulterende prioriteres varianter screenes eksperimentelt at validere forudsagte genotype-afhængigt protein binding under anvendelse EMSA 21,22. EMSA måler ændringer i vandringen af ​​oligo på et ikke-reducerende TBE gel. Fluorescensmærket oligo inkuberes mednuklear lysat, og binding af nukleare faktorer vil forsinke bevægelsen af ​​oligo på gelen. På denne måde oligo der har bundet flere nukleare faktorer vil præsentere som et stærkere fluorescerende signal ved scanning. Især betyder EMSA ikke kræver forudsigelser om de specifikke proteiner, hvis binding vil blive påvirket.

Når varianter er identificeret som er placeret inden for forudsagte regulatoriske regioner og er i stand til forskelligt bindende nukleare faktorer, der beregningsmetoder ansat til at forudsige den specifikke TF (er), hvis bindende de kan påvirke. Vi foretrækker at bruge CIS-BP 23,24, RegulomeDB 25, UniProbe 26 og Jaspar 27. Når kandidat TF'er er identificeret, kan disse forudsigelser specifikt testet ved hjælp af antistoffer mod disse TF'er (EMSA-supershifts og DAPA-Westerns). En EMSA-supershift indebærer tilsætning af en TF-specifikt antistof til den nukleare lysat og oligo. Et positivt resultat i en EMSA-supershift er Represented som en yderligere forskydning i EMSA band, eller et tab af bandet (revideret i henvisning 28). I den komplementære DAPA, er en 5'-biotinyleret oligo duplex indeholder varianten og 20 basepar flankerende nukleotider inkuberet med nukleare lysat fra relevante celletype (r) til at fange eventuelle nukleare faktorer specifikt binder oligoer. Oligo duplex-nuklear faktor-kompleks immobiliseres ved streptavidin mikroperler i en magnetisk søjle. De bundne nukleare faktorer indsamles direkte gennem eluering 29,48. Bindende forudsigelser kan derefter vurderes ved en Western blot under anvendelse af antistoffer specifikke for proteinet. I tilfælde, hvor der ikke er oplagte forudsigelser, eller for mange forudsigelser, de elueringer fra variant pull-downs af DAPA eksperimenter kan sendes til en proteomics kerne for at identificere kandidat TF'er hjælp massespektrometri, som efterfølgende kan valideres bruge disse tidligere beskrevet metoder.

I den resterende del af article, er den detaljerede protokol for EMSA og DAPA analyse af genetiske varianter forudsat.

Protocol

1. Udarbejdelse af løsninger og reagenser Bestil brugerdefinerede DNA oligonucleotidprober til brug i EMSA og DAPA. For at reducere ikke-specifik proteinbinding, designe korte oligoer (mellem 35-45 basepar (bp) i længden) 30, og placere variant af interesse direkte i centrum flankeret af sin 17 bp endogene genomiske sekvens. For EMSA oligoer, tilføje en 5 'fluorophor. For DAPA oligoer, tilføje en 5 'biotin tag. Bestille både sense streng og dens omvendte komplement s…

Representative Results

I dette afsnit er repræsentative resultater af hvad forventer leveres, når der udføres en EMSA eller DAPA, og variabilitet med hensyn til kvaliteten af ​​lysatet er karakteriseret. For eksempel er det blevet foreslået, at nedfrysning og optøning proteinprøver flere gange kan resultere i denaturering. For at undersøge reproducerbarheden af ​​EMSA analyse i forbindelse med disse "fryse-tø" cykler blev to 35 bp oligoer afviger på en genetisk variant inkuberes med …

Discussion

Selvom fremskridt inden sekventering og genotypebestemmelse teknologier i høj grad har forbedret vores evne til at identificere genetiske varianter associeret med sygdom, er vores evne til at forstå de funktionelle mekanismer påvirket af disse varianter halter. En vigtig kilde til problemet er, at mange sygdomsassocierede varianter er beliggende i n on-kodende områder af genomet, som sandsynligvis påvirker vanskelige at forudsige mekanismer, der styrer genekspression. Her præsenteres en protokol baseret på …

Disclosures

The authors have nothing to disclose.

Acknowledgements

We thank Erin Zoller, Jessica Bene, and Lindsey Hays for input and direction in protocol development. MTW was supported in part by NIH R21 HG008186 and a Trustee Award grant from the Cincinnati Children’s Hospital Research Foundation. ZHP was supported in part by T32 GM063483-13.

Materials

Custom DNA Oligonucleotides Integrated DNA Technologies http://www.idtdna.com/site/order/oligoentry
Potassium Chloride Fisher Scientific BP366-500 KCl, for CE buffer
HEPES (1M) Fisher Scientific 15630-080 For CE and NE buffer
EDTA (0.5M), pH 8.0 Life Technologies R1021 For CE, NE, and annealing buffer
Sodium Chloride Fisher Scientific BP358-1 NaCl, for NE buffer
Tris-HCl (1M), pH 8.0 Invitrogen BP1756-100 For annealing buffer
Phosphate Buffered Saline (1X) Fisher Scientific MT21040CM PBS, for cell wash
DL-Dithiothreitol solution (1M) Sigma 646563 Reducing agent
PMSF Thermo Scientific 36978 Protease Inhibitor
Phosphatase Inhibitor Cocktail  Thermo Scientific 78420 Prevents dephosphorylation of TFs
Nonidet P-40 Substitute IBI Scientific IB01140 NP-40, for nuclear extraction
BCA Protein Assay Kit Thermo Scientific 23225 For measuring protein concentration
Odyssey EMSA Buffer Kit Licor 829-07910 Contains all necessary EMSA buffers
TBE Gels, 6%, 12 Wells Invitrogen EC6265BOX For EMSA
TBE Buffer (10X) Thermo Scientific B52 For EMSA
FactorFinder Starting Kit Miltenyi Biotec 130-092-318 Contains all necessary DAPA buffers
Licor Odyssey CLx Licor Recommended scanner for DAPA/EMSA
Antibiotic-Antimycotic Gibco 15240-062 Contains 10,000 units/mL of penicillin, 10,000 µg/mL of streptomycin, and 25 µg/mL of Fungizone® Antimycotic
Fetal Bovine Serum Gibco 26140-079 FBS, for culture media
RPMI 1640 Medium Gibco 22400-071 Contains L-glutamine and 25mM HEPES

References

  1. Hindorff, L. A., et al. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc Natl Acad Sci U S A. 106 (23), 9362-9367 (2009).
  2. Maurano, M. T., et al. Systematic localization of common disease-associated variation in regulatory DNA. Science. 337 (6099), 1190-1195 (2012).
  3. Ward, L. D., Kellis, M. Interpreting noncoding genetic variation in complex traits and human disease. Nat Biotechnol. 30 (11), 1095-1106 (2012).
  4. Paul, D. S., Soranzo, N., Beck, S. Functional interpretation of non-coding sequence variation: concepts and challenges. Bioessays. 36 (2), 191-199 (2014).
  5. Zhang, F., Lupski, J. R. Non-coding genetic variants in human disease. Hum Mol Genet. , (2015).
  6. Lee, T. I., Young, R. A. Transcriptional regulation and its misregulation in disease. Cell. 152 (6), 1237-1251 (2013).
  7. Slatkin, M. Linkage disequilibrium–understanding the evolutionary past and mapping the medical future. Nat Rev Genet. 9 (6), 477-485 (2008).
  8. Bush, W. S., Moore, J. H. Chapter 11: Genome-wide association studies. PLoS Comput Biol. 8 (12), e1002822 (2012).
  9. 1000 Genomes Project Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  10. Chang, C. C., et al. Second-generation PLINK: rising to the challenge of larger and richer datasets. Gigascience. 4, 7 (2015).
  11. Purcell, S., et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet. 81 (3), 559-575 (2007).
  12. ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489 (7414), 57-74 (2012).
  13. Crawford, G. E., et al. Genome-wide mapping of DNase hypersensitive sites using massively parallel signature sequencing (MPSS). Genome Res. 16 (1), 123-131 (2006).
  14. Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y., Greenleaf, W. J. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods. 10 (12), 1213-1218 (2013).
  15. Giresi, P. G., Kim, J., McDaniell, R. M., Iyer, V. R., Lieb, J. D. FAIRE Formaldehyde-Assisted Isolation of Regulatory Elements) isolates active regulatory elements from human chromatin. Genome Res. 17 (6), 877-885 (2007).
  16. Kent, W. J., et al. The human genome browser at UCSC. Genome Res. 12 (6), 996-1006 (2002).
  17. Roadmap Epigenomics Consortium. Integrative analysis of 111 reference human epigenomes. Nature. 518 (7539), 317-330 (2015).
  18. Martens, J. H., Stunnenberg, H. G. BLUEPRINT: mapping human blood cell epigenomes. Haematologica. 98 (10), 1487-1489 (2013).
  19. Liu, T., et al. Cistrome: an integrative platform for transcriptional regulation studies. Genome Biol. 12 (8), R83 (2011).
  20. Griffon, A., et al. Integrative analysis of public ChIP-seq experiments reveals a complex multi-cell regulatory landscape. Nucleic Acids Res. 43 (4), e27 (2015).
  21. Staudt, L. M., et al. A lymphoid-specific protein binding to the octamer motif of immunoglobulin genes. Nature. 323 (6089), 640-643 (1986).
  22. Singh, H., Sen, R., Baltimore, D., Sharp, P. A. A nuclear factor that binds to a conserved sequence motif in transcriptional control elements of immunoglobulin genes. Nature. 319 (6049), 154-158 (1986).
  23. Weirauch, M. T., et al. Determination and inference of eukaryotic transcription factor sequence specificity. Cell. 158 (6), 1431-1443 (2014).
  24. Ward, L. D., Kellis, M. HaploReg: a resource for exploring chromatin states, conservation, and regulatory motif alterations within sets of genetically linked variants. Nucleic Acids Res. 40 (Database issue), D930-D934 (2012).
  25. Boyle, A. P., et al. Annotation of functional variation in personal genomes using RegulomeDB. Genome Res. 22 (9), 1790-1797 (2012).
  26. Hume, M. A., Barrera, L. A., Gisselbrecht, S. S., Bulyk, M. L. UniPROBE, update 2015: new tools and content for the online database of protein-binding microarray data on protein-DNA interactions. Nucleic Acids Res. 43 (Database issue), D117-D122 (2015).
  27. Mathelier, A., et al. JASPAR 2014: an extensively expanded and updated open-access database of transcription factor binding profiles. Nucleic Acids Res. 42 (Database issue), 142-147 (2014).
  28. Smith, M. F., Delbary-Gossart, S. Electrophoretic Mobility Shift Assay (EMSA). Methods Mol Med. 50, 249-257 (2001).
  29. Franza, B. R., Josephs, S. F., Gilman, M. Z., Ryan, W., Clarkson, B. Characterization of cellular proteins recognizing the HIV enhancer using a microscale DNA-affinity precipitation assay. Nature. 330 (6146), 391-395 (1987).
  30. . BCA Protein Assay Kit: User Guide Available from: https://tools.thermofisher.com/content/sfs/manuals/MAN0011430_Pierce_BCA_Protein_Asy_UG.pdf (2014)
  31. Wijeratne, A. B., et al. Phosphopeptide separation using radially aligned titania nanotubes on titanium wire. ACS Appl Mater Interfaces. 7 (21), 11155-11164 (2015).
  32. Silva, J. M., McMahon, M. The Fastest Western in Town: A Contemporary Twist on the Classic Western Blot Analysis. J. Vis. Exp. (84), (2014).
  33. Lu, X., et al. Lupus Risk Variant Increases pSTAT1 Binding and Decreases ETS1 Expression. Am J Hum Genet. 96 (5), 731-739 (2015).
  34. Ramana, C. V., Chatterjee-Kishore, M., Nguyen, H., Stark, G. R. Complex roles of Stat1 in regulating gene expression. Oncogene. 19 (21), 2619-2627 (2000).
  35. Fillebeen, C., Wilkinson, N., Pantopoulos, K. Electrophoretic Mobility Shift Assay (EMSA) for the Study of RNA-Protein Interactions: The IRE/IRP Example. J. Vis. Exp. (94), e52230 (2014).
  36. Heng, T. S., Painter, M. W. Immunological Genome Project, C. The Immunological Genome Project: networks of gene expression in immune cells. Nat Immunol. 9 (10), 1091-1094 (2008).
  37. Wu, C., et al. BioGPS: an extensible and customizable portal for querying and organizing gene annotation resources. Genome Biol. 10 (11), R130 (2009).
  38. Wu, C., Macleod, I., Su, A. I. BioGPS and MyGene.info: organizing online, gene-centric information. Nucleic Acids Res. 41 (Database issue), D561-D565 (2013).
  39. Wang, J., et al. Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors. Genome Res. 22 (9), 1798-1812 (2012).
  40. Holden, N. S., Tacon, C. E. Principles and problems of the electrophoretic mobility shift assay. J Pharmacol Toxicol Methods. 63 (1), 7-14 (2011).
  41. Xu, J., Liu, H., Park, J. S., Lan, Y., Jiang, R. Osr1 acts downstream of and interacts synergistically with Six2 to maintain nephron progenitor cells during kidney organogenesis. Development. 141 (7), 1442-1452 (2014).
  42. Yang, T. -. P., et al. Genevar: a database and Java application for the analysis and visualization of SNP-gene associations in eQTL studies. Bioinformatics. 26 (19), 2474-2476 (2010).
  43. Fort, A., et al. A liver enhancer in the fibrinogen gene cluster. Blood. 117 (1), 276-282 (2011).
  44. Solberg, N., Krauss, S. Luciferase assay to study the activity of a cloned promoter DNA fragment. Methods Mol Biol. 977, 65-78 (2013).
  45. Rahman, M., et al. A repressor element in the 5′-untranslated region of human Pax5 exon 1A. Gene. 263 (1-2), 59-66 (2001).
  46. Mali, P., et al. RNA-Guided Human Genome Engineering via Cas9. Science. 339 (6121), 823-826 (2013).
check_url/54093?article_type=t

Play Video

Cite This Article
Miller, D. E., Patel, Z. H., Lu, X., Lynch, A. T., Weirauch, M. T., Kottyan, L. C. Screening for Functional Non-coding Genetic Variants Using Electrophoretic Mobility Shift Assay (EMSA) and DNA-affinity Precipitation Assay (DAPA). J. Vis. Exp. (114), e54093, doi:10.3791/54093 (2016).

View Video