Summary

दुर्लभ जीनोमिक वेरिएंट के जमा अनुक्रमण का प्रयोग किरच से जांच

Published: June 23, 2012
doi:

Summary

जमा डीएनए अनुक्रमण एक तेजी से और लागत प्रभावी करने के लिए दुर्लभ बड़े साथियों में जटिल phenotypes के साथ जुड़े वेरिएंट का पता लगाने के लिए रणनीति है. हम यहाँ जमा, 32 कैंसर से संबंधित किरच सॉफ्टवेयर पैकेज का उपयोग कर जीनों की अगली पीढ़ी के अनुक्रमण के कम्प्यूटेशनल विश्लेषण का वर्णन. इस विधि स्केलेबल है, और ब्याज की किसी भी फेनोटाइप के लिए लागू है.

Abstract

As DNA sequencing technology has markedly advanced in recent years2, it has become increasingly evident that the amount of genetic variation between any two individuals is greater than previously thought3. In contrast, array-based genotyping has failed to identify a significant contribution of common sequence variants to the phenotypic variability of common disease4,5. Taken together, these observations have led to the evolution of the Common Disease / Rare Variant hypothesis suggesting that the majority of the “missing heritability” in common and complex phenotypes is instead due to an individual’s personal profile of rare or private DNA variants6-8. However, characterizing how rare variation impacts complex phenotypes requires the analysis of many affected individuals at many genomic loci, and is ideally compared to a similar survey in an unaffected cohort. Despite the sequencing power offered by today’s platforms, a population-based survey of many genomic loci and the subsequent computational analysis required remains prohibitive for many investigators.

To address this need, we have developed a pooled sequencing approach1,9 and a novel software package1 for highly accurate rare variant detection from the resulting data. The ability to pool genomes from entire populations of affected individuals and survey the degree of genetic variation at multiple targeted regions in a single sequencing library provides excellent cost and time savings to traditional single-sample sequencing methodology. With a mean sequencing coverage per allele of 25-fold, our custom algorithm, SPLINTER, uses an internal variant calling control strategy to call insertions, deletions and substitutions up to four base pairs in length with high sensitivity and specificity from pools of up to 1 mutant allele in 500 individuals. Here we describe the method for preparing the pooled sequencing library followed by step-by-step instructions on how to use the SPLINTER package for pooled sequencing analysis (http://www.ibridgenetwork.org/wustl/splinter). We show a comparison between pooled sequencing of 947 individuals, all of whom also underwent genome-wide array, at over 20kb of sequencing per person. Concordance between genotyping of tagged and novel variants called in the pooled sample were excellent. This method can be easily scaled up to any number of genomic loci and any number of individuals. By incorporating the internal positive and negative amplicon controls at ratios that mimic the population under study, the algorithm can be calibrated for optimal performance. This strategy can also be modified for use with hybridization capture or individual-specific barcodes and can be applied to the sequencing of naturally heterogeneous samples, such as tumor DNA.

Protocol

Vallania FML एट अल जीनोम. 2010 शोध रिपोर्ट में शोध में इस विधि का इस्तेमाल किया गया था. 1. नमूना Pooling और लक्षित जीनोमिक loci पीसीआर कैद जीनोमिक डीएनए के प्रत्येक व्यक्ति से एक सामान्यीकृत अपने पूल (ओं) में राशि का मिश्रण. पीसीआर प्रतिक्रिया प्रति व्यक्ति प्रति डीएनए की 0.3 एनजी का प्रयोग प्रत्येक पीसीआर प्रतिक्रिया, जो पूल के एलील प्रति वर्दी प्रवर्धन की संभावना में सुधार में लगभग 50 व्यक्ति प्रति द्विगुणित जीनोम को शामिल करेंगे. जीनोमिक दृश्यों (NCBI से प्राप्त किया जा सकता है http://www.ncbi.nlm.nih.gov/ ) या UCSC जीनोम (ब्राउज़र http://genome.ucsc.edu/index.html को ) उपयोग करने के लिए सुनिश्चित करें. "RepeatMasker" ("एन") के रूप में चिह्नित करने के लिए एक दोहराव क्षेत्र में एक किताब डिजाइन से बचने के अनुक्रम प्राप्त करने. वेब आधारित Primer3 का उपयोग करें (rimer3/input.htm "लक्ष्य =" "_blank http://frodo.wi.mit.edu/primer3/input.htm>) के लिए ब्याज के अलावा कुछ flanking दृश्यों के जीनोमिक क्षेत्रों को काटने और चिपकाने के द्वारा प्राइमरों डिजाइन उपयोगिता (amplicons 600-2000 बीपी आम तौर पर कर रहे हैं आदर्श) 3 प्राइमर के लिए इष्टतम प्रथम डिजाइन की स्थिति के लिए इस्तेमाल किया जा 10: न्यूनतम प्राइमर आकार = 19; इष्टतम प्राइमर आकार = 25, अधिकतम प्राइमर आकार = 30; न्यूनतम tm = 64 डिग्री सेल्सियस, इष्टतम Tm. = 70 ° सी, अधिकतम Tm = 74 डिग्री सेल्सियस, अधिकतम tm = 5 अंतर डिग्री सेल्सियस, न्यूनतम जीसी सामग्री 45 =; अधिकतम जीसी सामग्री 80 = 20 = वापसी (यह मनमाना है) संख्या, अधिकतम 3 'अंत स्थिरता = 100 डिजाइन प्राइमरों प्राप्त करने पर ब्याज के सभी जीनोमिक loci बढ़ाना प्राइमरों., lyophilized स्टॉक के 10 मिमी Tris, 7.5 पीएच + 0.1 मिमी EDTA में 100 उम की अंतिम एकाग्रता DDH में एक अतिरिक्त 10:01 कमजोर पड़ने के बाद पतला किया जा सकता है 2 हे से 10 उम. हम उच्च विश्वस्तता एक डीएनए पोलीमरेज़ का उपयोग बड़े जीनोमिक बढ़ाना करने की सलाह देते हैं पीसीआर प्रवर्धन:कम त्रुटि दर 10) (-7 और कुंद समाप्त उत्पादों (इस बहाव बंधाव कदम के लिए आवश्यक है) के उत्पादन के कारण amplicons. हम उच्च फिडेलिटी PfuUltra के इस्तेमाल किया है, लेकिन इसी तरह की विशेषताओं के (जैसे Phusion रूप में) के साथ एंजाइमों तुलनीय परिणाम प्रदान करना चाहिए. प्रत्येक पीसीआर प्रतिक्रिया 2.5 यू PfuUltra पोलीमरेज़ उच्च फिडेलिटी के अंतिम एकाग्रता शामिल हैं, 1 एम Betaine, 400 एनएम प्रत्येक प्राइमर, 200 माइक्रोन dNTPs, में 1x PfuUltra बफर (या एक ≥ 2 मिमी 2 मिलीग्राम से युक्त क्रम में एंजाइमी निष्ठा बनाए रखने के लिए बफर) 50 μL की एक अंतिम मात्रा में जमा डीएनए के 5-50 एनजी. 1: निम्नलिखित पीसीआर स्थितियों का उपयोग करें. 93-95 ° सी 2 मिनट के लिए, 2. 93-95 ° C 30 सेकंड के लिए, 3. 58-60 ° C 30 सेकंड के लिए, 4. 65-70 ° C 250-500 बीपी / 1.5-3 पहले amplicons 500-1000 बीपी /> 1 केबी amplicons के लिए 3-5 मिनट के लिए amplicons के लिए 60-90 सेकंड के लिए, 5. दोहराएँ 25-40 चक्र के लिए चरण 2-4, 6. 65 ° C 10 मिनट के लिए, 7. 4 डिग्री सेल्सियस पकड़. यदि आवश्यक हो, पीसीआर परिणाम आम तौर पर द्वारा सुधार किया जा सकता है: 1)2) बड़े amplicons के लिए annealing के तापमान को ऊपर उठाने,, छोटे amplicons के लिए annealing के तापमान को कम 3. किसी भी amplicon के लिए विस्तार के समय लंबी. : किरच नियंत्रण की तैयारी हर किरच प्रयोग इष्टतम शुद्धता को प्राप्त करने के लिए एक नकारात्मक और सकारात्मक नियंत्रण की उपस्थिति की आवश्यकता है. एक नकारात्मक नियंत्रण किसी भी व्यक्ति, बार कोड नमूना में सभी समयुग्मजी आधार पदों है कि पहले से अनुक्रम HapMap नमूना जैसे हो सकते हैं. सकारात्मक नियंत्रण तो ऐसे दो या दो से अधिक नमूनों का एक मिश्रण के शामिल होगा. इस रिपोर्ट के लिए, नकारात्मक नियंत्रण की M13mp18 ssDNA वेक्टर रीढ़ की हड्डी से एक 1934 बीपी प्रवर्धित क्षेत्र है. पीसीआर उत्पाद सेंगर अनुक्रम इसके उपयोग से पहले क्रम में पुष्टि करने के लिए कि कोई अनुक्रम भिन्नता स्रोत सामग्री या पीसीआर प्रवर्धन से मौजूद है. सकारात्मक नियंत्रण सम्मिलित क्लोन एक 72 बीपी साथ pGEM टी आसान वैक्टर के एक पैनल का विशिष्ट सम्मिलन, हटाना, substit के इंजीनियर के साथ होते हैंutions (तालिका 1). हम वैक्टर साथ दाढ़ अनुपात में एक जंगली प्रकार की पृष्ठभूमि के खिलाफ मिश्रण है कि इस तरह के परिवर्तन पूल में एक एलील (यानी 100 एलील पूल के लिए, एक ही एलील की आवृत्ति 1%) की आवृत्ति पर मौजूद हैं. हम तो पीसीआर मिश्रित नियंत्रण M13 pGEM – टी आसान में पीयूसी प्राइमर साइटों का उपयोग कर, एक अंतिम 355bp लंबे समय पीसीआर उत्पाद पैदा टेम्पलेट बढ़ाना. 2. जमा पीसीआर पुस्तकालय तैयारी और अनुक्रमण पीसीआर उत्पाद पूलिंग: प्रत्येक पीसीआर उत्पाद अतिरिक्त प्राइमरों की साफ किया जाना चाहिए. हम क्विएज़न Qiaquick स्तंभ शुद्धि या 96 में अच्छी तरह से बड़े पैमाने पर सफाई के लिए वैक्यूम कई गुना के साथ फिल्टर प्लेट का इस्तेमाल किया. शोधन के बाद, प्रत्येक पीसीआर उत्पाद मानक तकनीक का उपयोग मात्रा निर्धारित किया जाना चाहिए. एकाग्रता द्वारा पूलिंग के रूप में अणु संख्या से सामान्य पूल में हर पीसीआर उत्पाद (नियंत्रण सहित) का मिश्रण छोटे amplicons ov के overrepresentation में परिणाम होगाएर बड़ा उत्पादों. सांद्रता सूत्र का उपयोग मात्रा प्रति डीएनए अणु की निरपेक्ष संख्या में परिवर्तित कर रहे हैं: (छ / μL) (1 mol एक्स बीपी 660 / छ) (amplicon में 1 / # बीपी) एक्स (x 6 10 23 अणुओं / 1 mol ) = अणुओं / μL. हम तो प्रत्येक प्रतिक्रिया से एक normalized amplicon प्रति अणुओं की संख्या पूल के लिए आवश्यक मात्रा का निर्धारण करते हैं. इस संख्या में मनमाने ढंग से समायोजित किया जा सकता है और वास्तव में काफी बड़ी सटीकता बनाए रखने संस्करणों pipetting पर निर्भर करता है. हम आमतौर पर 1-2 एक्स 10 प्रत्येक amplicon के के 10 अणुओं पूल. पीसीआर उत्पादों की ligation: यह कदम वर्दी अनुक्रमण कवरेज प्राप्त करने के लिए आवश्यक है के रूप में छोटे पीसीआर amplicons की sonication उनके सिरों की ओर उनके प्रतिनिधित्व पक्षपाती है. इस पर काबू पाने के लिए, हम बड़े (> Kb = 10) concatemers के विखंडन के लिए पहले में जमा पीसीआर उत्पादों कटी घमनी को बांधना. Pfu अल्ट्रा HF पोलीमरेज़ कुंद समाप्त होता है उत्पन्न, कुशल बंधाव (Taq आधारित एक पोलीमरेज़ 3p "ए" की अधिकता है कि नहीं एक जोड़ देगा करने के लिए अग्रणीभरने में blunting या पूर्व के बिना llow बंधाव). इस प्रतिक्रिया को बढ़ाया जा सकता है यदि आवश्यक 2-3 गुना. बंधाव प्रतिक्रिया 10 यू टी -4 polynucleotide kinase, 200 यू टी -4 ligase, 15% polyethylene w / वी, में 1X टी -4 ligase बफर, ग्लाइकोल 8000 मेगावाट 50 μL की एक अंतिम मात्रा में जमा पीसीआर उत्पादों की 2 μg, शामिल हैं. प्रतिक्रियाओं 22 डिग्री सेल्सियस पर 20 मिनट के लिए 65 ° C के बाद और 4 डिग्री सेल्सियस उसके बाद में आयोजित 16 घंटे के लिए incubated हैं. इस कदम की सफलता के नमूने के एक 1% agarose जेल में 50 एनजी लोड द्वारा जाँच की जा सकती है. सफल ligation के एक उच्च आणविक वजन लेन बैंड वर्तमान में (चित्रा 2, 3 लेन देखें) में परिणाम होगा. डीएनए का बंटवारा: इस बिंदु पर आप पीसीआर उत्पादों की बड़ी concatemers (10kb>) होना चाहिए. हम एक यादृच्छिक sonication एक 24 – नमूना Diagenode Bioruptor sonicator का उपयोग रणनीति है कि टुकड़ा 25 मिनट में कर सकते हैं इन concatemers (40 सेकंड "पर" / प्रति मिनट 20 सेकंड "बंद"). Sonication खूंटी द्वारा शुरू की चिपचिपाहट से हिचकते है इतना,इस क्विएज़न पंजाब बफर में 10:01 नमूना गिराए द्वारा दूर किया जा सकता है. परिणाम 2% agarose जेल (चित्रा 2, 4 और 5 गलियों देखें) पर जाँच की जा सकती है. नमूना लिए Illumina जीनोमिक लाइब्रेरी नमूना तैयार प्रोटोकॉल शुरुआत एंड मरम्मत "कदम के साथ में सीधे शामिल करने के लिए तैयार है. यहां बताया डेटा एकल के अंत से हैं Illumina जीनोम एनालाइज़र IIx पर पढ़ता है, लेकिन हम 2000 HiSeq इस्तेमाल किया है और तुलनीय परिणाम के साथ एक या रखा अंत पढ़ता प्रदर्शन किया. बनाया पुस्तकालय के पैमाने को देखते हुए, हम भी कस्टम barcoded एडाप्टर का इस्तेमाल किया है मल्टीप्लेक्स कई पुस्तकालयों जमा करने के क्रम में HiSeq मंच (नहीं दिखाया डेटा) के द्वारा आपूर्ति की बैंडविड्थ को समायोजित. निर्माता प्रोटोकॉल और सिफारिशों है कि किट के साथ आने का पालन करें. आदेश में इष्टतम संस्करण, 25 गुना या एलील प्रति अधिक का लक्ष्य कवरेज का पता लगाने के लिए संवेदनशीलता और विशिष्टता प्राप्त करने के लिए (चित्रा 3) की सिफारिश की है. यह अनुमान पूल के आकार के स्वतंत्र हैऔर संस्करण के प्रकार का पता लगाया जा करने के लिए. यदि आवश्यक कई गलियों और रन के लिए पर्याप्त कवरेज तक पहुँचने के लिए जोड़ा जा सकता है. 3. अनुक्रमण संरेखण और विश्लेषण पुस्तकें फ़ाइल संपीड़न और स्वरूपण: कच्चे अनुक्रमण पढ़ा फाइलें या तो दुपट्टा प्रारूप या संकुचित में परिवर्तित किया जाना चाहिए. यह संपीड़न वैकल्पिक है के रूप में यह किसी भी प्रासंगिक जानकारी को खोने के बिना समय और बाद के विश्लेषण कदम के लिए अंतरिक्ष बचाता है. यह निम्न कमांड के साथ शामिल स्क्रिप्ट RAPGAP_read_compressor_v2.pl के का उपयोग करके प्राप्त किया जाता है: ./RAPGAP_read_compressor_v2.pl [पढ़ें] फ़ाइल [संपीडित फ़ाइल पढ़ें] पढ़ने के स्वीकार किए जाते हैं फ़ाइल इनपुट प्रारूपों दुपट्टा और FASTQ, या तो gzipped या असम्पीडित हैं: दुपट्टा प्रारूप उदाहरण: HWI – EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ प्रारूप उदाहरण: @ / 1 0 HWI के EAS440_7_1_0_410 के NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + और 8888888888888888888854588767777666 /! अब कच्चे पढ़ा संरेखण: कच्चे पढ़ता एनोटेट FASTA संदर्भ लक्षित पीसीआर प्रतिक्रियाओं, के रूप में के रूप में अच्छी तरह से सकारात्मक और नकारात्मक नियंत्रण में शामिल क्षेत्रों के लिए विशिष्ट अनुक्रम के लिए गठबंधन किया जा सकता है. संरेखण शामिल संरेखण उपकरण RAPGAPHASH5d के प्रदर्शन का उपयोग किया जा सकता है. इनपुट प्रारूप करने के लिए इस बिंदु पर दुपट्टा या संकुचित हो गया है. संरेखण के लिए आदेश है: ./RAPGAPHASH5d [संपीडित पढ़ें फ़ाइल] [FASTA फ़ाइल] [संपादन की संख्या की अनुमति]> [निरपेक्ष फ़ाइल] कि संदर्भ अनुक्रम की तुलना में अनुमति दी जाती है पढ़ने के प्रति बेमेल की संख्या एक प्रयोक्ता परिभाषित पैरामीटर है. पुस्तकें कि बेमेल की एक अतिरिक्त संख्या खारिज कर दिया जाएगा. हम 76 बीपी पढ़ता है और 5 के लिए 101 पढ़ता बीपी बेमेल के लिए 2 के लिए 36 बीपी पढ़ता, 4 बेमेल बेमेल की अनुमति की सलाह देते हैं. अल में अधिक बेमेल की अनुमति की अनुमति अतिरिक्त अनुक्रमण त्रुटियों की संभावना में वृद्धि होगीडेटा igned. के रूप में पढ़ा लंबाई के लिए अब हो गया जारी है, इस मान को आगे बढ़ाया जा सकता है. टैगिंग ही flowcell से फ़ाइलें गठबंधन: इस बिंदु पर पूरे गठबंधन फ़ाइल को पढ़ने के लिए एक अद्वितीय पहचानकर्ता ("टैग") दिया जाना चाहिए क्रम में पढ़ा वही अनुक्रमण रन (यानी एक ही flowcell से कई गलियों में एकत्रित किया जा सकता है संबंधित फाइलें की पहचान और एक टैग दिए गए). टैग आवश्यक है क्योंकि हर मशीन चलाने के एक अद्वितीय त्रुटि प्रोफ़ाइल है कि टैग के माध्यम से लक्षण वर्णन किया जा सकता है उत्पन्न. टैग वर्णों की एक अक्षरांकीय स्ट्रिंग पढ़ता है की एक सेट (अधोडैस संप्रतीक "_" पार्सिंग के मुद्दों के लिए नहीं किया जाना चाहिए) भेद किया है. अलग टैग गठबंधन पढ़ने विभिन्न flowcells या मशीन रन पर उत्पन्न फ़ाइलों के लिए इस्तेमाल किया जाना चाहिए. टैग निम्न कमांड के साथ शामिल RAPGAP_alignment_tagger.pl का उपयोग कर जोड़ा जा सकता है: . RAPGAP_alignment_tagger.pl / [निरपेक्ष फ़ाइल] [टैग]> [टैग फ़ाइल निरपेक्ष] इस बिंदु के बाद गठबंधनएक ही कई अलग flowcells पर उत्पन्न पुस्तकालय से फाइल उनके संबंधित टैग के रूप में साथ संयुक्त किया जा सकते हैं और उन्हें अलग रखना होगा. त्रुटि मॉडल पीढ़ी: जैसा कि ऊपर उल्लेख किया है, प्रत्येक मशीन चलाने अनुक्रमण त्रुटि है कि सही संस्करण फोन करने के लिए विशेषता की जरूरत है की एक अद्वितीय प्रोफ़ाइल उत्पन्न करता है. प्रत्येक मशीन चलाने के लिए इन त्रुटियों मॉडल, एक आंतरिक नियंत्रण अनुक्रम भिन्नता से रहित हो जाता अनुक्रम प्रत्येक जमा नमूना पुस्तकालय में शामिल है. गठबंधन टैग फ़ाइल से, एक त्रुटि मॉडल फ़ाइल नकारात्मक नियंत्रण संदर्भ अनुक्रम के साथ शामिल उपकरण EMGENERATOR4 के का उपयोग करते हुए उत्पन्न किया जा सकता है. सभी नकारात्मक नियंत्रण अनुक्रम या वैकल्पिक रूप से इस्तेमाल किया जा सकता है यह केवल एक सबसेट, 5 'और 3' इनपुट में अधिकांश कुर्सियां ​​द्वारा निर्दिष्ट. अद्वितीय पढ़ता है और pseudocounts हमेशा इस्तेमाल किया जाना चाहिए: ./EMGENERATOR4 [निरपेक्ष टैग फ़ाइल] [नकारात्मक नियंत्रण अनुक्रम] [आउटपुट फ़ाइल नाम] [5 नकारात्मक नियंत्रण के सबसे आधार के लिए इस्तेमाल किया जा] 3 [अधिकांश के आधारनकारात्मक नियंत्रण करने के लिए इस्तेमाल किया जा] [अद्वितीय शामिल केवल पढ़ता है? Y =] [संरेखण cutoff के संपादन] [pseudocounts के दर्ज करें? Y =] EMGENERATOR4 उपकरण 3 फ़ाइलें आउटपुट फ़ाइल नाम _1 _0, या _2 द्वारा बाद पैरामीटर के रूप में नाम उत्पन्न होगा. इन फ़ाइलों 0, 1 और 2 क्रम त्रुटि क्रमशः मॉडल के अनुरूप किरच के साथ फोन संस्करण के लिए, 2 क्रम त्रुटि मॉडल हमेशा इस्तेमाल किया जाना चाहिए. एक रन की त्रुटि दर प्रोफ़ाइल दृश्यमान करने के लिए, error_model_tabler_v4.pl 0 क्रम त्रुटि मॉडल फ़ाइल (चित्रा 4) पर एक पीडीएफ त्रुटि साजिश उत्पन्न किया जा सकता है: ./error_model_tabler_v4.pl [त्रुटि मॉडल 0 क्रम फ़ाइल] [आउटपुट फ़ाइल का नाम] साजिश फ़ाइल रन विशिष्ट त्रुटि के रुझान का पता चलता है और पढ़ने के लिए विश्लेषण है, जो अगले भाग में समझाया जाता है के लिए इस्तेमाल किया जा अड्डों में से एक अधिकतम संख्या का अनुमान किया जा सकता है. 4. दुर्लभ प्रकार का उपयोग कर पता लगाने किरच Variant callinकिरच से छ: विश्लेषण में पहला कदम गठबंधन त्रुटि मॉडल और संदर्भ अनुक्रम का उपयोग कर फ़ाइल पर किरच उपकरण को चलाने के लिए है. ऐसा करने के लिए आदेश है: ./SPLINTER6r [निरपेक्ष टैग फ़ाइल] [FASTA फ़ाइल] [2 क्रम त्रुटि मॉडल फ़ाइल] [की संख्या अड्डों पढ़ने के लिए इस्तेमाल किया जा] [अड्डों या चक्र को बाहर रखा जा पढ़ने के] [पी – मूल्य cutoff. -1.301 =] [अद्वितीय उपयोग पढ़ता Y =] [संरेखण cutoff के संपादन] [उपलब्ध विकल्पों में से पूल आकार] [पूर्ण कवरेज प्रिंट किनारा प्रति Y =]> [किरच फ़ाइल] पढ़ने के लिए इस्तेमाल किया जा अड्डों की संख्या में बदलता है और प्रत्येक रन के हिसाब से मूल्यांकन किया जाना चाहिए. हम आम तौर पर पढ़ने के लिए पहली 2/3rds का उपयोग कर के रूप में वे उच्चतम गुणवत्ता डेटा (पहले 24 एक 36bp पढ़ने के लंबे समय के ठिकानों उदाहरण के लिए, पढ़ने) का प्रतिनिधित्व करते हैं. एकल पढ़ा अड्डों विश्लेषण से बाहर रखा जा सकता है अगर खराब हो (एक अल्पविराम या एन 5,7,11 जैसे या अलग) पाया गया है. cutoff के पी – मूल्य तय कर कैसे कठोर संस्करण बुला विश्लेषण होने जा रहा है. हम और न हीमैली -1.301 की एक न्यूनतम cutoff (एक पी के मूल्य के लिए इसी ≤ log10 पैमाने में 0.05) की अनुमति से विश्लेषण शुरू करते हैं. पूल आकार विकल्प एल्गोरिदम "संकेत करने वाली शोर मामूली एलील कि वास्तविक पूल में एक एलील की तुलना में कम आवृत्तियों के साथ संभावित वेरिएंट को नष्ट करने के द्वारा भेदभाव का अनुकूलन. 50 व्यक्तियों की एक पूल में उदाहरण के लिए, सबसे कम मनाया संस्करण को 0.01 आवृत्ति या 1 100 alleles में उम्मीद की जा सकती है. इस प्रकार, पूल आकार विकल्प निकटतम मूल्य है कि प्रयोग में विश्लेषण alleles की वास्तविक संख्या से अधिक है करने के लिए सेट किया जाना चाहिए (यानी अगर 40 लोगों का सर्वेक्षण कर रहे हैं, हम 80 alleles की उम्मीद तो निकटतम विकल्प 100 के एक पूल का आकार होगा) . <आवृत्तियों 0.01 पर बुलाया वेरिएंट तो शोर के रूप में नजरअंदाज कर दिया जाएगा. इस फ़ाइल में सभी हिट है कि सांख्यिकीय नमूना भर में महत्वपूर्ण हैं, संस्करण की स्थिति का वर्णन, संस्करण का प्रकार, डीएनए भूग्रस्त प्रति पी मूल्य, प्रकार की आवृत्ति और डीएनए भूग्रस्त प्रति कुल कवरेज (के साथ, देता है <stronछ> 2 तालिका). बुलाया वेरिएंट के लिए सामान्य कवरेज: नमूना भर में कवरेज के उतार चढ़ाव नकली हिट उत्पन्न कर सकते हैं. यह के रूप में splinter_filter_v3.pl स्क्रिप्ट को लागू करने के द्वारा सही किया जा सकता है: ./splinter_filter_v3.pl किरच [फ़ाइल] [सूची फ़ाइल] [तंगी]> [किरच सामान्यीकृत फ़ाइल] जहां सूची फ़ाइल एक टैब – सीमांकित फ़ाइल के रूप में सकारात्मक नियंत्रण हिट की एक सूची है. पहली क्षेत्र ब्याज की amplicon इंगित करता है, जबकि दूसरे क्षेत्र में स्थिति जिसमें उत्परिवर्तन वर्तमान है इंगित करता है. एन इंगित करता है कि अनुक्रम के बाकी किसी भी उत्परिवर्तन शामिल नहीं करता है. इष्टतम पी मूल्य थ्रेसहोल्ड सकारात्मक नियंत्रण डेटा का उपयोग कर निर्धारण: सामान्य बनाने के बाद, सकारात्मक नियंत्रण का विश्लेषण और एक विशेष नमूना विश्लेषण की संवेदनशीलता और विशिष्टता को अधिकतम करने के लिए अपरिहार्य है. यह इष्टतम पी मूल्य सूचना का उपयोग कर cutoff खोजने के द्वारा प्राप्त किया जा सकता हैसकारात्मक नियंत्रण से tion. सबसे अधिक संभावना है, -1.301 की प्रारंभिक पी – मूल्य पर्याप्त कठोर नहीं हो सकता है, अगर ऐसा है, जो सकारात्मक या नकारात्मक नियंत्रण से झूठी सकारात्मक के फोन में परिणाम होगा. हर किरच विश्लेषण प्रत्येक तथाकथित संस्करण के लिए वास्तविक पी मूल्य दिखा (तालिका 2 पर 5 कॉलम और 6), जो एक प्राथमिकताओं भविष्यवाणी नहीं किया जा सकता है. हालांकि, पूरे विश्लेषण का उपयोग करके ज्ञात सच सकारात्मक आधार पदों के लिए प्रारंभिक उत्पादन पर कम से कम पी मूल्य कड़े प्रदर्शित दोहराया जा सकता है. यह सब सच सकारात्मक बनाए रखने जबकि अधिकांश को छोड़कर, अगर सब नहीं है, झूठी सकारात्मक और वे आमतौर पर बहुत कम महत्वपूर्ण पी मूल्यों सच सकारात्मक की तुलना में सेवा करेंगे. इस प्रक्रिया को स्वचालित, cutoff_tester.pl इस्तेमाल किया जा सकता है cutoff_tester.pl एक किरच उत्पादन फ़ाइल और सामान्य बनाने के लिए इस्तेमाल एक के रूप में एक टैब – सीमांकित फ़ाइल के रूप में सकारात्मक नियंत्रण हिट की एक सूची की आवश्यकता है: /. Cutoff_tester.pl किरच [फिल्टरएड फ़ाइल] [सूची फ़ाइल] जिसके परिणामस्वरूप उत्पादन cutoffs कि उत्तरोत्तर इष्टतम तक पहुँचने (3 टेबल देखें) की एक सूची होगा. प्रारूप है: अधिकतम संवेदनशीलता और विशिष्टता से दूरी [] [संवेदनशीलता] [विशिष्टता] [cutoff] उदाहरण के लिए: 7.76946294170104e-07 1 0.999118554429264 -16.1019999999967 अंतिम पंक्ति चलाने के लिए सबसे इष्टतम cutoff का प्रतिनिधित्व करता है और इसलिए डेटा विश्लेषण के लिए इस्तेमाल किया जा सकता है. इष्टतम परिणाम और 1 की संवेदनशीलता विशिष्टता हासिल है. मामले में इस परिणाम तक पहुँच नहीं है, किरच विश्लेषण शामिल की संख्या पढ़ने के अड्डों तक सबसे इष्टतम स्थिति हासिल की है बदल द्वारा दोहराया जा सकता है. अंतिम संस्करण फ़िल्टरिंग अंतिम cutoff cutoff_cut.pl स्क्रिप्ट का उपयोग कर डेटा है, जो इष्टतम cutoff के नीचे हिट से किरच उत्पादन फ़ाइल फ़िल्टर करने के लिए लागू किया जा सकता है, Cutoff_cut.pl / [किरच फ़िल्टर फ़ाइल] [cutoff]> किरच [अंतिमफ़ाइल] इस कदम अंतिम किरच उत्पादन फ़ाइल, जो SNPs और Indels के नमूने में मौजूद शामिल होंगे उत्पन्न होगा. कृपया ध्यान दें कि सम्मिलन के लिए उत्पादन प्रतिस्थापन या विलोपन (तालिका 2) के लिए की तुलना में थोड़ा अलग है. 5. प्रतिनिधि परिणाम हम 947 व्यक्तियों की आबादी जमा और अनुक्रमण के लिए 20 केबी से अधिक लक्षित है. हम दुर्लभ वेरिएंट का पता लगाने के लिए किरच हमारे मानक प्रोटोकॉल के बाद लागू. प्रत्येक व्यक्ति पहले से जीनोटाइपिंग था जीनोम विस्तृत सरणी जीनोटाइपिंग द्वारा प्रदर्शन किया. टैग की जीनोटाइपिंग और उपन्यास नमूना जमा में कहा जाता है वेरिएंट के बीच क़बूल उत्कृष्ट (चित्रा 6). तीन वेरिएंट, जिनमें से दो (rs3822343 और rs3776110) की जनसंख्या में दुर्लभ थे, डी Novo की अनुक्रमण परिणाम से बुलाया गया और व्यक्ति pyrosequencing द्वारा मान्य किया गया. पूल में मामूली एलील आवृत्तियों (MAF) MAF के समान थे dbSNP निर्माण 129 में सूचना दी. Pyrosequencing और जमा अनुक्रमण के बीच MAF क़बूल उत्कृष्ट था (तालिका 3). टेबल सकारात्मक नियंत्रण के लिए 1. डीएनए oligonucleotide दृश्यों. प्रत्येक अनुक्रम डीएनए एक टुकड़ा या तो दो प्रतिस्थापन या एक प्रविष्टि और विलोपन एक जंगली प्रकार संदर्भ से भिन्न होते हैं. यहां क्लिक करें बड़ी छवि को देखने . तालिका 2 किरच उत्पादन का उदाहरण है. पहले दो पंक्तियों को एक प्रतिस्थापन या एक विलोपन (नीले हैडर) के लिए मानक किरच उत्पादन का प्रतिनिधित्व करते हैं. अंतिम पंक्ति एक प्रविष्टि (बैंगनी हैडर) के लिए मानक किरच उत्पादन का प्रतिनिधित्व करता है.rget => "_blank" बड़ी छवि देखने के लिए यहाँ क्लिक करें. तालिका 3. पांच जाना जाता है और तीन उपन्यास वेरिएंट बड़ी आबादी से पहचान की गई और व्यक्ति जीनोटाइपिंग द्वारा मान्य है. व्यक्तिगत सत्यापन (1-3 पंक्तियाँ) pyrosequencing, TaqMan परख (4-6 पंक्तियाँ) या सेंगर अनुक्रमण (7,8 पंक्तियों) द्वारा किया गया था. के एलील आवृत्तियों की एक व्यापक रेंज है और MAF साथ पांच पदों <1%, सहित के लिए जमा अनुक्रमण एलील आवृत्ति आकलन और व्यक्तिगत जीनोटाइपिंग के बीच क़बूल मजबूत था. एक तारांकन (*) से चिह्नित पदों पर पहले की रिपोर्ट 9 डेटा से अनुकूलित कर रहे हैं. चित्रा 1 जमा डीएनए अनुक्रमण और किरच विश्लेषण सिंहावलोकन. रोगी डीएनए जमा हैऔर चयनित loci में परिलक्षित. अंतिम पीसीआर उत्पादों के साथ equimolar अनुपात में एक सकारात्मक और नकारात्मक नियंत्रण के साथ जमा कर रहे हैं. जमा मिश्रण तो अनुक्रम और परिणामस्वरूप पढ़ता वापस अपने संदर्भ के लिए मैप किया जाता है. से प्रतिचित्रित नकारात्मक नियंत्रण पढ़ता है एक त्रुटि रन विशिष्ट मॉडल उत्पन्न करने के लिए उपयोग किया जाता है. किरच तो त्रुटि मॉडल और सकारात्मक नियंत्रण से जानकारी को शामिल करके दुर्लभ SNPs और indels के पता लगाने के लिए इस्तेमाल किया जा सकता है. [Vallania FLM एट अल, 2010 शोध जीनोम से अनुकूलित] बड़ी छवि को देखने के लिए यहां क्लिक करें . चित्रा 2. जमा पीसीआर amplicon बंधाव और sonication. बंधाव और पुस्तकालय तैयारी प्रोटोकॉल में यादृच्छिक विखंडन कदम के एक प्रदर्शन के रूप में, pUC19 वेक्टर enzymatically 2 लेन में दिखाया टुकड़े को पचा किया गया था. ये टुकड़े नॉरमा थेअणु संख्या के द्वारा lized विशेषांक, संयुक्त और बेतरतीब ढंग से 1.7 ऊपर कदम के अनुसार ligated. परिणामस्वरूप बड़े concatamers 3 लेन में दिखाया जाता है. ligated concatamers समान रूप से विभाजित और sonication के अधीन थे के रूप में 1.8 से ऊपर कदम में वर्णित है. प्रत्येक तकनीकी दोहराने के लिए डीएनए टुकड़े के परिणामस्वरूप धब्बा गलियों 4 और 5 में दिखाया जाता है. कोष्ठक आकार सीमा की जेल निष्कर्षण और अनुक्रमण पुस्तकालय रचना के लिए इस्तेमाल किया पर प्रकाश डाला गया. चित्रा 3 एक जमा नमूने में एक एकल एलील के लिए कवरेज के एक समारोह के रूप में परिशुद्धता. सटीकता एक रिसीवर ऑपरेटर (आरओसी) वक्र है, जो 1.0 से 0.5 (यादृच्छिक) (पूर्ण शुद्धता) पर्वतमाला की वक्र (नीलामी) के तहत क्षेत्र के रूप में अनुमान लगाया गया है. नीलामी एलील प्रति कवरेज के एक समारोह के रूप में 500, 200, और 1000 alleles (ए) के पूल में एक उत्परिवर्ती alleles का पता लगाने के लिए साजिश रची है. नीलामी substitutions के सम्मिलन, और घ के लिए एक समारोह कुल कवरेज के रूप में प्लॉट किए जाते है(बी) eletions. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित]. चित्रा 4. त्रुटि प्लॉट किसी भी स्थिति में गलत आधार को शामिल करने की संभावना को दर्शाता है. त्रुटि प्रोफ़ाइल पढ़ने के अनुक्रमण के 3 'के अंत की ओर एक बढ़ती हुई प्रवृत्ति के साथ कम त्रुटि दर को दर्शाता है. विशेष रूप से, अलग संदर्भ न्यूक्लीओटाइड्स अलग त्रुटि संभावनाओं (उदाहरण के लिए एक संदर्भ के रूप में एक जी सी दिया शामिल करने की संभावना देखते हैं) प्रदर्शित करते हैं. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित]. चित्रा 5 किरच की स्थिति है कि एलील प्रति 25 गुना से अधिक से अधिक कवरेज के लिए एलील आवृत्ति का आकलन करने में शुद्धता. कक्ष एक, चित्रा 3 ≥ कवरेज 25 गुना के साथ एकल संस्करण का पता लगाने के लिए इष्टतम संवेदनशीलता दिखाने में परिणाम के आधार पर एकजमा डीएनए एलील एलील GWAS परिणामों से बहुत ही उच्च सहसंबंध (नि. = .999) में मापा गिनती के साथ किरच से अनुमान लगाया आवृत्तियों के बीच तुलना. [Vallania FLM एट अल, जीनोम 2010 शोध से अनुकूलित]. चित्रा 6 एलील 974 व्यक्तियों के जमा अनुक्रमण से किरच अनुमान की तुलना में GWAS द्वारा मापा आवृत्तियों के बीच तुलना करें. वहाँ 19 genotyped loci और अनुक्रम क्षेत्रों के बीच तुलना के लिए आम पदों पर थे. परिणामस्वरूप सहसंबंध बहुत उच्च (नि. ०.९९,५३८ =). बड़ा आंकड़ा देखने के लिए यहाँ क्लिक करें

Discussion

वहाँ बढ़ती सबूत है कि घटनाओं और आम, जटिल phenotypes और 8 मोटापा, hypercholesterolemia 4, 7, उच्च रक्तचाप और दूसरों जैसे रोगों का उपचार प्रतिक्रिया दुर्लभ भिन्नता के व्यक्तिगत प्रोफाइल के द्वारा संचालित किया जा सकता है. रास्ते जीन और जहां इन वेरिएंट प्रभावित आबादी में कुल गहरा नैदानिक ​​और चिकित्सीय निहितार्थ हो जाएगा, लेकिन प्रभावित व्यक्तियों को अलग – अलग विश्लेषण की पहचान का समय हो और निषेधात्मक लागत कर सकते हैं. जनसंख्या आधारित विश्लेषण कई loci में आनुवंशिक भिन्नता सर्वेक्षण के लिए एक अधिक कुशल तरीका प्रदान करता है.

हम एक उपन्यास जमा डीएनए अनुक्रमण प्रोटोकॉल आबादी में आनुवंशिक परिवर्तन की इस प्रकार की पहचान करने के लिए डिज़ाइन किरच सॉफ्टवेयर पैकेज के साथ जोड़ा प्रस्तुत करते हैं. हम की पहचान करने और बढ़ाता 947 व्यक्तियों की एक बड़ी आबादी जमा भीतर मामूली alleles कि थे दुर्लभ वेरिएंट सहित, में इस पद्धति की सटीकता का प्रदर्शनजमा अनुक्रमण से नए सिरे से कहा जाता है और व्यक्ति pyrosequencing द्वारा मान्य है. हमारी रणनीति मुख्य रूप से एक सकारात्मक का समावेश है और हर प्रयोग के भीतर एक नकारात्मक नियंत्रण के अन्य प्रोटोकॉल से अलग है. यह किरच बहुत उच्च सटीकता और अन्य एक दृष्टिकोण की तुलना में शक्ति प्राप्त करने के लिए अनुमति देता है. एलील प्रति 25 गुना के इष्टतम कवरेज पूल के आकार के स्वतंत्र रूप से तय हो गई है, बड़े पूल के विश्लेषण इस आवश्यकता के रूप में पूल के आकार के साथ ही तराजू रैखिक संभव बना रही है. हमारा दृष्टिकोण बहुत लचीला है और ब्याज की किसी भी फेनोटाइप लेकिन यह भी नमूने, मिश्रित सेल आबादी और ट्यूमर बायोप्सी जैसे कि स्वाभाविक रूप से विषम रहे हैं लागू किया जा सकता है. Exome या जीनोम के रूप में बड़े लक्ष्य क्षेत्रों से जमा अनुक्रमण में बढ़ती रुचि को देखते हुए, हमारे पुस्तकालय प्रस्तुत करने का और किरच विश्लेषण कस्टम पर कब्जा और पूरे exome अनुक्रमण के साथ संगत है, लेकिन किरच पैकेज में संरेखण उपयोगिता के लिए तैयार नहीं था बड़ासंदर्भ दृश्यों. इसलिए, हम सफलतापूर्वक गतिशील प्रोग्रामिंग एलाइनर के उपयोग किया है, जीनोम चौड़ा जमा नमूना (रामोस एट अल., प्रस्तुत) से बुला संस्करण के बाद संरेखण के लिए, Novoalign. इस प्रकार, हमारे जमा अनुक्रमण रणनीति को सफलतापूर्वक लक्ष्य अनुक्रम की बढ़ती मात्रा के साथ एक बड़ा पूल के लिए पैमाने पर कर सकते हैं.

Disclosures

The authors have nothing to disclose.

Acknowledgements

इस काम के बच्चों के डिस्कवरी संस्थान MC-II 2006-1 अनुदान (RDM और टेड), NIH Epigenetics रोडमैप [1R01DA025744-01 और 3R01DA025744-02S1] अनुदान (RDM और FLMV), U01AG023746 (अनुसूचित जाति), Saigh द्वारा समर्थित किया गया फाउंडेशन (FLMV और टेड), 1K08CA140720-01A1 और एलेक्स नींबू पानी "एक" पुरस्कार समर्थन (टेड) खड़े हो जाओ. हम जीनोमिक विश्लेषण के साथ मदद के लिए वाशिंगटन विश्वविद्यालय के मेडिसिन स्कूल में जेनेटिक्स विभाग में जीनोम प्रौद्योगिकी प्रवेश केंद्र धन्यवाद. केंद्र आंशिक रूप से अनुसंधान संसाधन के लिए NationalCenter (NCRR), स्वास्थ्य (NIH) के राष्ट्रीय संस्थानों के एक घटक से NCI कैंसर केंद्र सहायता अनुदान Siteman कैंसर केंद्र CA91842 p30 द्वारा और आईसीटी / सीटीएसए अनुदान द्वारा UL1RR024992 # समर्थित है, और मेडिकल रिसर्च के लिए NIH रोडमैप. इस प्रकाशन केवल लेखकों की ज़िम्मेदारी है और NCRR या एनआईएच की आधिकारिक दृश्य जरूरी नहीं प्रतिनिधित्व करते हैं.

Materials

Reagent Name Company Catalogue Number Section
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).
check_url/kr/3943?article_type=t

Play Video

Cite This Article
Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

View Video