Neste generasjons sekvensering (NGS) er et kraftig verktøy for genomisk karakteristikk som er begrenset av høy feilrate av plattformen (~0.5–2.0%). Vi beskrive våre metoder for feil-korrigert sekvensering som tillater oss å obviate NGS feilrate og oppdage mutasjoner på variant allelet fraksjoner så sjeldent som 0,0001.
Konvensjonelle neste generasjons sekvensering teknikker (NGS) har tillatt for enorme genomisk karakteristikk for over et tiår. Spesielt har NGS blitt brukt til å analysere spekteret av klonal mutasjoner i kreft. Men langt mer effektiv enn tradisjonelle Sanger metoder, NGS sliter med identifisere sjeldne klonal og subclonal mutasjoner på grunn av sin høye feil på ~0.5–2.0%. Dermed standard NGS har en grense for påvisning mutasjoner som > 0.02 variant allelet brøkdel (VAF). Mens den klinisk betydningen for mutasjoner denne sjeldne hos pasienter uten kjent sykdom er fortsatt uklart, pasienter som behandles for leukemi har forbedret resultatene når gjenværende sykdom er < 0,0001 av flowcytometri. For å løse denne artefactual bakgrunnen NGS, har mange metoder blitt utviklet. Her beskriver vi en metode for feil-korrigert DNA og RNA sekvensering (ECS), som innebærer merking molekyler med både en 16 bp tilfeldig indeks for feilkorrigering og en 8 bp pasient-spesifikke indeks for multiplexing. Vår metode kan registrere og spore klonal mutasjoner i variant allelet brøker (VAFs) to størrelsesordener lavere enn grense for NGS påvisning og så sjeldent som 0.0001 VAF.
Som vi alder, eksponering for mutagener og Stokastisk feil under celledeling føre til opphopning av somatiske avvik i genomet, og dette ligger under grunnleggende patogenesen av malign transformasjon, Nevro-utviklingsmessige sykdommer pediatric lidelser og normal aldring1,2. Somatiske mutasjoner med sykdom-kjøring potensial er viktig diagnostiske og prognostiske biomarkers for tidlig deteksjon og risk management3,4,5. For å bedre forstå fysiologiske clonogenesis, er som vil informere kliniske og beslutninger, nøyaktig kvantifisering og karakteristikk av disse mutasjonene av primær betydning. Neste generasjons sekvensering (NGS) brukes for å studere klonal mutasjoner i heterogene DNA-prøver; NGS er imidlertid begrenset å identifisere mutasjoner på > 0.02 variant allelet brøkdel (VAF), på grunn av den iboende feil 0,5-2.0% av sekvensering plattformer6,7,8. Som et resultat, diagnostically og prognostically betydelig somatiske varianter på lavere VAF kan ikke oppnås ved hjelp av standard NGS.
Nylig har ulike metoder blitt utviklet for å omgå feilrate NGS8,9,10,11. Disse metodene benytter molekylær merking, som gjør at feilretting etter sekvensering. Hvert molekyl eller genomisk fragment i sekvensering biblioteket er merket med en tilfeldig unik molekylær identifikator (UMI) som gjelder for molekylet. UMIs er konstruert av permutasjoner av en rekke randomisert nukleotider (8-16 N). En andre prøve-spesifikke strekkode er også integrert i arbeidsflyten som muliggjør multipleksing flere eksempler i den samme NGS sekvensering kjøre. PCR forsterkning utføres på molecularly merket biblioteket, og deretter biblioteket sendes for sekvenser. Under bibliotek forberedelse forventes det at feil vil bli tilfeldig introdusert til genomisk fragment PCR forsterkning og sekvensering8. Hvis du vil fjerne tilfeldige sekvenser feil, er rå sekvensering leser gruppert etter UMI. Gjenstander fra sekvensering forventes ikke å være tilstede i alle leser med samme UMI i samme genomisk posisjon grunn Stokastisk introduksjon, mens en ekte variant vil være trofast forsterket og sekvensert i alle leser som deler samme UMI. Gjenstandene er bioinformatically fjernet. Her beskriver vi tre metoder av feil-korrigert sekvensering (ECS) optimalisert i laboratoriet for DNA å identifisere single nukleotid varianter (SNVs) og liten innsetting-slettinger (indeler) og RNA å lette kvantifisering av genuttrykk under den NGS feilterskel.
Den første metoden beskriver en måte å se på sjeldne somatiske hendelse bruker genet bestemt primere designet av forskere. Før biblioteket forberedelse, bør forskere utforme primere målrette fragmenter av interesse. Vi brukte web-app-Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicons av 200-250 bp er ideelle for polymerasekjedereaksjons (PCR) som dette vil, når UMIs er innarbeidet, generere overlappende sammen-end leser med 150 bp sammen-end leser. Optimal primer design betingelsene brukes er: primer minimumsstørrelse = 19; Optimal primer størrelse = 25; Maksimal primer størrelse = 30; Minimum Tm = 64 ° c. Optimal Tm = 70 ° C; Maksimal Tm = 74 ° c. Maksimal forskjell som Tm = 5 ° C; Minimum GC innhold = 45; Maksimal GC innhold = 80; Å gå tilbake = 20; Maksimalt 3′ slutten stabilitet = 100.
I metode 2 beskriver vi en metode kombinere ECS-DNA protokollen med Illumina kjemi undersøkelse for klonal SNVs og små indeler så sjeldent som 0.0001 VAF bruke kommersielt tilgjengelige genet paneler med hundrevis av amplicons. Vi har brukt TruSight myelogen sekvensering panelet (Illumina) til våre eksperimentet og utviklet en utvidet panel med flere gener av interesse for pediatric myelogen sykdommer. Disse panelene har ikke tilbudt unike molekylær identifikatorer (UMIs) som vil lette feiloppretting, så har vi lagt vår egen kort strategi til disse panelene. ECS skal fungere like bra med noen av andre paneler designet for å berike for gener forbundet med ulike sykdommer. Etter DNA isolasjon og påfølgende kvantifisering fra vev eller utvalg av interesse, er det anbefalt å ha minst 500 ng aksjer DNA per prøven. Vi rutinemessig gjøre et enkelt sekvensering bibliotek med 250 ng DNA for å fange så mye unike genomisk fragment som mulig for nedstrøms leser de-duplisering og VAF beregning. En valgfri Repliker sekvensering biblioteket kan gjøres med den gjenværende 250 ng DNA. Vi gjør alltid to Repliker bibliotek per prøven, og vi ser bare de hendelsene oppdaget uavhengig i begge gjentak som sanne positive. Vi har også gjennomført en genomisk posisjon binomiske feil modell for å øke nøyaktigheten av variant ringer4,13.
Til slutt, vi beskriver en metode koble ECS til RNA sekvenser for transkripsjon kvantifisering av sokkel QIAseq målrettet RNA paneler (Qiagen). UMIs kreves for de-duplisering og feilretting er innarbeidet i settene, og forskere kan gjøre biblioteker etter produsentens anbefalinger. Bioinformatically, forskerne kan følge rørledningen skissert for ECS-DNA, som vil bli forklart i detalj i delen PROTOKOLLEN.
Her viser vi en rekke feil-korrigert sekvensering protokoller som lett kan implementeres for å studere mutasjoner med lav VAFs i ulike sykdommer. Den viktigste faktoren er inkorporering av UMIs med hvert molekyl før sekvenser som de aktiver feilretting i rå lyder. Metodene som er beskrevet her kan forskere å innlemme tilpassede UMIs både kommersielt tilgjengelig genet paneler og egenutviklede gen-spesifikke oligos.
NGS standardprotokoll utelukker påvisning av mutasjoner med VAF under 2% på grunn av feil sekvensering, og dette begrenser anvendelsen av NGS i studier hvor påvisning av sjeldne varianter er avgjørende. Ved å omgå NGS feil standardsatsen, kan ECS følsom påvisning av disse rå varianter. For eksempel er oppdagelsen av patogene mutasjoner når disse mutasjoner oppstår først (derfor å ha lav VAF) viktig å informere tidlig intervensjon av sykdom14,15. I leukemi forskning, gjenkjenning av minimal gjenværende sykdom (gjenværende leukemic celler etter behandling) informerer risiko lagdeling og kan brukes til å informere behandlingstilbud på en måte som binære strømmen cytometric vurderinger ikke. I tillegg gjelder ECS å oppdage sirkulerende svulst nukleinsyre og evaluere metastatisk potensial i solid tumor pasienter ved å vurdere for tilstedeværelse/fravær som variant byrden av visse mutasjoner som kjennetegner primært svulst16.
Som vist i tabell 1, avhenger kraften i å bruke binomisk fordeling-baserte posisjon-spesifikke feil modell for å ringe varianter i stor grad på antall sekvensert biblioteker samt dybden av sekvensering brukes til å bygge feil modell. Robust feil modell øker med høyere antall prøver og mer sekvensering dybde. Det anbefales å bruke minst 10 sekvensert prøver med en gjennomsnittlig feil-korrigert Les dekning av 3000 x per prøve for å bygge en feil profil for hvert utvalg. Posisjon-spesifikk tilnærming ligner MAGERI, men i stedet for en samlet feilrate for alle seks forskjellige substitusjon (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)13, vi modell hver substitusjon uavhengig på hver posisjon. For eksempel en feilrate på C > T på en gitt genomisk posisjon er forskjellig fra en annen plassering. Vår tilnærming tar også hensyn en sekvensering satsvise effekt, som base substitusjon hastigheten i en sekvensering løpe kan være forskjellig fra en annen kjører. Derfor er det viktig å modellere hver posisjon for alle substitusjon særlig når prøver fra ulike sekvensering kjører er felles for å bygge modell.
En viktig faktor når du utformer en ECS eksperimentet er ønsket oppdagelsen terskelen. Fine med NGS studier er at de kan enkelt skaleres i gener/mål av interesse, oppdagelsen terskelen (diktert av dybdeskarphet sekvensering) og antall personer spørres. For eksempel Hvis forskerne er interessert å finne sjeldne mutasjoner i to amplicons med en gjenkjenning terskel for 0,0001, kan de pool maksimalt 75 prøvene i en enkelt sekvensering bruker MiSeq V2 kjemi som produserer opptil 15 millioner leser (2 amplicons * 10.000 molekyler * 10 leser for feilkorrigering * 75 prøver = 15 millioner sekvensering leser). Forskere kan variere antallet molekyler går inn sekvensering eller antall grupperte prøvene i en enkelt sekvensering kjøre justere oppdagelsen terskelen. I våre studier, vi som mål å finne mutasjoner med en gjenkjenning terskel av 0.0001 VAF (1:10, 000) i Illumina gen-panelet. Vi rutinemessig bruk 250 ng Start DNA for å sikre at tilstrekkelig molekyler er tatt for å oppnå nevnte oppdagelsen terskelen. Forskere kan velge for å starte med lavere mengde DNA (50 ng anbefales) hvis ønsket oppdagelsen grensen er > 0,001 VAF.
Som UMIs legges på i5 indeksene, må sekvensering innstillingene endres tilsvarende. For eksempel vi brukte 16 N UMIs, og innstillingen sekvensering var 2 x 144 sammenkoblede slutten leser, 8 sykluser av indeks 1 og 16 sykluser av indeksen 2 i motsetning til vanlige 8 sykluser av indeks 2. Økningen i indeksen 2 syklus er kompensert av en nedgang i antall sykluser tilordnet lest. Hvis forskerne velger for å bruke 12N UMIs10,17, bør innstillingene endres til 12 sykluser av indeks 2.
Denne UMI-baserte sekvensering metoden er optimalisert for å korrigere sekvensering feil. Det gjenstår suboptimal i håndteringen av PCR jackpotting, som er et problem for alle forsterkning-basert metode. Vi utførte runder etter sekvensering og post-bioinformatikk validering bruker ddPCR, og vi nesten ikke føle noen falske positiver på grunn av PCR jackpotting. Likevel er det anbefalt at forskere gjennomføre eksperimenter med Hi-Fi polymerase for å sikre lav forsterkning feil.
The authors have nothing to disclose.
Vi takker deltakerne i barnas onkologi Group AAML1531 studier og sykepleiere Health Study for deres bidrag i form av pasientprøvene. Dette arbeidet ble finansiert av National Institutes of Health (UM1 CA186107, RO1 CA49449 og RO1 CA149445), Children’s Discovery Institute of Washington University og St. Louis Children’s Hospital (MC-II-2015-461) og Eli Seth Matthews leukemi stiftelsen.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |