Nästa generations sekvensering (NGS) är ett kraftfullt verktyg för genomisk karakterisering som begränsas av den höga felprocenten av plattformen (~0.5–2.0%). Vi beskriver våra metoder för fel-korrigerade sekvensering som tillåter oss att undanröja NGS felprocenten och upptäcka mutationer på variant allel fraktioner lika sällsynt som 0,0001.
Konventionella nästa generations sekvensering tekniker (NGS) tillåtit för enorma genomisk karakterisering för över ett decennium. NGS har särskilt använts för att analysera spectrumen av klonala mutationer i malignitet. Men långt effektivare än traditionella Sanger metoder, NGS kämpar med att identifiera sällsynta klonal och subclonal mutationer på grund av dess hög felfrekvens på ~0.5–2.0%. Sålunda, standard NGS har en detektionsgräns för mutationer som är > 0,02 variant allel bråkdel (VAF). Medan den kliniska signifikansen för mutationer denna sällsynta hos patienter utan känd sjukdom förblir oklart, patienter behandlas för leukemi har avsevärt förbättrat resultat när kvarvarande sjukdom är < 0,0001 av flödescytometri. För att mildra denna tingsliga bakgrund av NGS, har många metoder utvecklats. Här beskriver vi en metod för fel-korrigerade DNA och RNA sekvensering (ECS), som innebär taggning enskilda molekyler med både en 16 bp slumpmässiga för felkorrigering och en 8 bp patientspecifika index för multiplexering. Vår metod kan upptäcka och spåra klonal mutationer på variant allel fraktioner (VAFs) två tiopotenser lägre än detektionsgränsen för NGS och lika sällsynt som 0,0001 VAF.
Som vi ålder, exponering till mutagena ämnen och stokastiska fel under celldelning resulterar i ansamling av somatiska avvikelser i genomet, och detta ligger till grund för grundläggande patogenesen av elakartad omformning, neuro-developmental sjukdomar, pediatric störningar och normalt åldrande1,2. Somatiska mutationer med sjukdom-driving potential är viktiga diagnostiska och prognostiska biomarkörer för tidig upptäckt och risk management3,4,5. För att bättre förstå fysiologiska clonogenesis, är som kommer att informera kliniska och forskning beslut, exakt kvantifiering och karakterisering av dessa mutationer av primär betydelse. Nästa generations sekvensering (NGS) används för att studera klonal mutationer i heterogena DNA-prover; NGS är dock begränsad till att identifiera mutationer på > 0,02 variant allel bråkdel (VAF) — på grund av den inneboende fel-0,5 – 2,0% av sekvensering plattformar6,7,8. Som ett resultat, spåra diagnostiskt och prognostiskt betydande somatisk varianter på lägre VAF kan inte uppnås med hjälp av standard NGS.
Nyligen har olika metoder utvecklats för att kringgå felprocenten NGS8,9,10,11. Dessa metoder använder molekylär taggning, som gör det möjligt för felkorrigering efter sekvensering. Varje molekyl eller genomisk fragment i sekvensering biblioteket är Taggad med en random unika molekylära identifierare (UMI) som är specifik för den molekylen. UMIs är byggda av permutationer av en sträng av randomiserade nukleotider (8 – 16 N). En andra prov-specifika streckkod är också integrerad i arbetsflödet som möjliggör multiplexing flera prover i samma NGS sekvensering kör. PCR-amplifiering utförs på molekylärt märkta biblioteket och därefter biblioteket skickas för sekvensering. Under bibliotek beredning förväntas det att fel kommer att slumpmässigt introduceras till genomisk fragmentet under PCR-amplifiering och sekvensering8. Ta bort slumpmässiga sekvensering fel, är rå sekvensering läsningar grupperade enligt UMI. Artefakter från sekvensering förväntas inte vara närvarande i alla läser med samma UMI på samma genomiska position stokastiska pågrund av introduktion, en sann variant kommer vara troget förstärks och sekvenserade i alla läser som delar samma UMI. Artefakter är bioinformatically bort. Här, vi beskriver tre metoder för fel-korrigerade sekvensering (ECS) optimerad i laboratorium för DNA att identifiera enda nukleotid varianter (SNVs) och små införande-borttagningar (Indels) och RNA att underlätta kvantifiering av genuttryck nedan den NGS feltröskelvärdet.
Den första metoden beskrivs ett sätt att leta efter sällsynta somatiska händelsen med gen specifika primers designad av forskare. Innan biblioteket förberedelse, bör forskare utforma grundfärger att rikta fragment av intresse. Vi använde den webb-app Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Amplikoner av 200 – 250 bp är idealiska för polymeraskedjereaktion (PCR) som dessa kommer, när UMIs har införlivats, generera överlappande Parade-end läsningar med 150 bp Parade-end läser. De optimala primer design villkor som används är: Minimum primer storlek = 19; Optimal primer storlek = 25; Maximala primer storlek = 30; Minsta Tm = 64 ° C; Optimal Tm = 70 ° C; Maximala Tm = 74 ° C; Maximala Tm skillnaden = 5 ° C; Minimihalt av GC = 45; Maximihalten GC = 80; Nummer att återvända = 20; Maximalt 3′ slutet stabilitet = 100.
I metod 2 beskriver vi en metod som kombinerar protokollet ECS-DNA med Illumina kemi till undersökning för klonal SNVs och små Indels lika sällsynt som 0,0001 VAF använder kommersiellt tillgängliga gen paneler som innehåller hundratals amplikoner. Vi har använt TruSight myeloisk sekvensering panelen (Illumina) för våra experiment och utformade en expanderad panel att inkludera ytterligare gener av intresse för pediatric myeloiska sjukdomar. Dessa paneler har inte erbjudit unika molekylära identifierare (UMIs) som skulle underlätta felkorrigering, så vi har lagt vår egen adapter strategi till dessa paneler. ECS bör fungera lika bra med någon av andra paneler som utformats för att berika för gener associerade med olika sjukdomar. Efter DNA isolering och efterföljande kvantifieringen från vävnad eller prov av intresse, det rekommenderas att ha minst 500 ng av lagret DNA per exemplar. Vi rutinmässigt göra en enda sekvensering bibliotek med 250 ng DNA för att fånga så mycket unika genomisk fragment som möjligt för nedströms läser de-duplicering och VAF beräkning. Ett valfritt replikera sekvensering bibliotek kan göras med återstående 250 ng DNA. Vi gör alltid två replikera bibliotek per prov, och vi anser endast dessa händelser upptäcks självständigt i båda replikat som sant positiva. Vi har också genomfört en genomisk position-specifika binomial fel modell för att öka noggrannheten i variant ringer4,13.
Slutligen beskriver vi en metod som koppling ECS till RNA-sekvensering för avskrift kvantifiering med off-the-shelf QIAseq riktade RNA paneler (Qiagen). UMIs krävs för de-duplicering och felkorrigering har införlivats i kits och forskare kan göra bibliotek efter tillverkarens rekommendationer. Bioinformatically, forskare kan följa rörledningen beskrivs för ECS-DNA, som kommer att förklaras i detalj i avsnittet protokoll.
Här visar vi en svit av fel-korrigerade sekvensering protokoll som enkelt kan implementeras för att studera mutationer med låg VAFs vid olika sjukdomar. Den viktigaste faktorn är införlivandet av UMIs med varje molekyl innan sekvensering som de aktivera felkorrigering av raw läser. Metoderna som beskrivs här tillåter forskare att införliva anpassade UMIs både kommersiellt tillgängliga gen paneler och egendesignade gen-specifika oligos.
NGS standardprotokoll utesluter detektion av mutationer med VAF under 2% på grund av sekvensering felprocenten, och detta begränsar tillämpningen av NGS i studier där detektion av sällsynta varianter är avgörande. Genom att kringgå standard NGS felprocenten, möjliggör ECS känslig detektion av dessa råa varianter. Detektion av patogena mutationer när dessa mutationer uppstår först (därför med låg VAF) är exempelvis nödvändigt att informera tidigt ingripande av sjukdom14,15. I leukemi forskning, detektion av minimal kvarvarande sjukdom (kvarstående leukemic celler efter behandling) informerar riskstratifiering och kunde användas för att informera behandlingsalternativ på ett sätt som binära flödet flödescytometrisk bedömningar inte kan. ECS är dessutom tillämplig att upptäcka cirkulerande tumör-nukleinsyra och utvärdera metastatisk potential i solid tumör patienter genom att utvärdera för närvaro/frånvaro samt variant bördan av vissa mutationer som är kännetecken för primärt tumör16.
Som visat i tabell 1, beror har befogenhet att använda binomialfördelningen-baserade position-specifika fel modell för att kalla varianter på antalet sekvenserade bibliotek samt djupet av sekvensering används för att bygga den fel modellen. Robustheten av fel modellen ökar med högre antal prover och mer sekvensering djup. Det rekommenderas att använda minst 10 sekvenserade prover med ett genomsnitt på fel-korrigerade Läs täckning av 3000 x per prov för att bygga en fel profil för varje prov. Position-specifika tillvägagångssättet är liknande till MAGERI, men istället för att använda en aggregerad felprocent för alla sex olika substitution typer (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, vi modell varje substitution oberoende vid varje position. Exempelvis en felfrekvens på C > T vid en viss genomisk position skiljer sig från en annan position. Vårt arbetssätt tar också hänsyn till en sekvensering batch effekt, eftersom bas substitution-grad som observerats i en sekvensering kör kan skilja sig från en annan körning. Därför är det viktigt att modellera varje position för alla substitution typer speciellt när prover från olika sekvensering körningar sammanförs för att bygga modellen.
En viktig faktor när du utformar ett ECS experiment är den önska påvisbara gränsen. Skönheten i NGS studier är att de enkelt kan skalas upp i form av gener/mål av intresse, påvisbara gränsen (dikteras av djup av sekvensering) och antalet individer som efterfrågas. Om forskarna är intresserad att hitta sällsynta mutationer i två amplikoner med ett upptäckt tröskelvärde på 0,0001, kan de till exempel pool maximally 75 prover i en enda sekvensering köras med MiSeq V2 kemi som utgångar upp till 15 miljoner läsningar (2 amplikoner * 10 000 molekyler * 10 läser för felkorrigering * 75 prover = 15 miljoner sekvensering läsningar). Forskare kan variera antalet molekyler gå in sekvensering eller antalet poolade prover i en enda sekvensering kör för att justera den påvisbara gränsen. I våra studier syftar vi till att hitta mutationer med ett tröskelvärde för detektion av 0,0001 VAF (1:10 000) med hjälp av Illumina gen panelen. Vi använder rutinmässigt 250 ng av start DNA för att säkerställa att tillräcklig molekyler fångas för att uppnå den ovan nämnda påvisbara gränsen. Forskare kan välja för att börja med lägre mängd DNA (50 ng rekommenderas) om önskad detektionsgränsen är > 0,001 VAF.
UMIs läggs på i5 indexen, måste sekvensering inställningar följaktligen ändras. Till exempel använde vi 16 N UMIs och sekvensering inställningarna var 2 x 144 Parade slutet läsningar, 8 cykler av Index 1 och 16 cykler av index 2 i motsats till vanliga 8 cykler av Index 2. Ökningen i Index 2 cykel kompenseras av en minskning av det totala antalet cykler som tilldelats läser. Om forskare väljer för att använda 12N UMIs10,17, bör inställningarna ändras till 12 behandlingscykler om Index 2.
UMI-baserade sekvensering metoden är optimerad för att korrigera för sekvensering fel. Det återstår suboptimal i hanteringen av PCR-jackpotting, som är en fråga för alla förstärkning-baserad metod. Vi spelade rundor efter sekvensering och post-bioinformatik validering med ddPCR och vi upptäcka knappast eventuella falsklarm på grund av PCR-jackpotting. Det rekommenderas dock att forskare genomföra experiment med HiFi-polymeras för att säkerställa låg förstärkning fel.
The authors have nothing to disclose.
Vi tackar deltagarna i barnens Oncology Group AAML1531 studie och sjuksköterskors hälsa studera för deras bidrag i form av patientprover. Detta arbete finansierades av National Institutes of Health (UM1 CA186107, RO1 CA49449 och RO1 CA149445), barnens Discovery Institute i Washington University och St. Louis Children’s Hospital (MC-II-2015-461) och Eli Seth Matthews leukemi Foundation.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |