Rare Event Detection Using Error-corrected DNA and RNA Sequencing

Wing H. Wong; R. Spencer Tong; Andrew L. Young; Todd E. Druley

doi:10.3791/57509

JoVE Journal > Genetics

Genetics

Sjelden hendelse gjenkjenning feil-korrigert DNA og RNA sekvensering

Published: August 03, 2018

doi:

10.3791/57509

Wing H. Wong*^1,2, R. Spencer Tong*^1,2, Andrew L. Young², Todd E. Druley²

¹Department of Pediatrics, Division of Hematology and Oncology,Washington University School of Medicine, ²Center for Genome Sciences and Systems Biology,Washington University School of Medicine

Summary

Neste generasjons sekvensering (NGS) er et kraftig verktøy for genomisk karakteristikk som er begrenset av høy feilrate av plattformen (~0.5–2.0%). Vi beskrive våre metoder for feil-korrigert sekvensering som tillater oss å obviate NGS feilrate og oppdage mutasjoner på variant allelet fraksjoner så sjeldent som 0,0001.

Abstract

Konvensjonelle neste generasjons sekvensering teknikker (NGS) har tillatt for enorme genomisk karakteristikk for over et tiår. Spesielt har NGS blitt brukt til å analysere spekteret av klonal mutasjoner i kreft. Men langt mer effektiv enn tradisjonelle Sanger metoder, NGS sliter med identifisere sjeldne klonal og subclonal mutasjoner på grunn av sin høye feil på ~0.5–2.0%. Dermed standard NGS har en grense for påvisning mutasjoner som > 0.02 variant allelet brøkdel (VAF). Mens den klinisk betydningen for mutasjoner denne sjeldne hos pasienter uten kjent sykdom er fortsatt uklart, pasienter som behandles for leukemi har forbedret resultatene når gjenværende sykdom er < 0,0001 av flowcytometri. For å løse denne artefactual bakgrunnen NGS, har mange metoder blitt utviklet. Her beskriver vi en metode for feil-korrigert DNA og RNA sekvensering (ECS), som innebærer merking molekyler med både en 16 bp tilfeldig indeks for feilkorrigering og en 8 bp pasient-spesifikke indeks for multiplexing. Vår metode kan registrere og spore klonal mutasjoner i variant allelet brøker (VAFs) to størrelsesordener lavere enn grense for NGS påvisning og så sjeldent som 0.0001 VAF.

Introduction

Som vi alder, eksponering for mutagener og Stokastisk feil under celledeling føre til opphopning av somatiske avvik i genomet, og dette ligger under grunnleggende patogenesen av malign transformasjon, Nevro-utviklingsmessige sykdommer pediatric lidelser og normal aldring¹^,². Somatiske mutasjoner med sykdom-kjøring potensial er viktig diagnostiske og prognostiske biomarkers for tidlig deteksjon og risk management³^,⁴^,⁵. For å bedre forstå fysiologiske clonogenesis, er som vil informere kliniske og beslutninger, nøyaktig kvantifisering og karakteristikk av disse mutasjonene av primær betydning. Neste generasjons sekvensering (NGS) brukes for å studere klonal mutasjoner i heterogene DNA-prøver; NGS er imidlertid begrenset å identifisere mutasjoner på > 0.02 variant allelet brøkdel (VAF), på grunn av den iboende feil 0,5-2.0% av sekvensering plattformer⁶^,⁷^,⁸. Som et resultat, diagnostically og prognostically betydelig somatiske varianter på lavere VAF kan ikke oppnås ved hjelp av standard NGS.

Nylig har ulike metoder blitt utviklet for å omgå feilrate NGS⁸^,⁹^,¹⁰^,¹¹. Disse metodene benytter molekylær merking, som gjør at feilretting etter sekvensering. Hvert molekyl eller genomisk fragment i sekvensering biblioteket er merket med en tilfeldig unik molekylær identifikator (UMI) som gjelder for molekylet. UMIs er konstruert av permutasjoner av en rekke randomisert nukleotider (8-16 N). En andre prøve-spesifikke strekkode er også integrert i arbeidsflyten som muliggjør multipleksing flere eksempler i den samme NGS sekvensering kjøre. PCR forsterkning utføres på molecularly merket biblioteket, og deretter biblioteket sendes for sekvenser. Under bibliotek forberedelse forventes det at feil vil bli tilfeldig introdusert til genomisk fragment PCR forsterkning og sekvensering⁸. Hvis du vil fjerne tilfeldige sekvenser feil, er rå sekvensering leser gruppert etter UMI. Gjenstander fra sekvensering forventes ikke å være tilstede i alle leser med samme UMI i samme genomisk posisjon grunn Stokastisk introduksjon, mens en ekte variant vil være trofast forsterket og sekvensert i alle leser som deler samme UMI. Gjenstandene er bioinformatically fjernet. Her beskriver vi tre metoder av feil-korrigert sekvensering (ECS) optimalisert i laboratoriet for DNA å identifisere single nukleotid varianter (SNVs) og liten innsetting-slettinger (indeler) og RNA å lette kvantifisering av genuttrykk under den NGS feilterskel.

Den første metoden beskriver en måte å se på sjeldne somatiske hendelse bruker genet bestemt primere designet av forskere. Før biblioteket forberedelse, bør forskere utforme primere målrette fragmenter av interesse. Vi brukte web-app-Primer3 (http://bioinfo.ut.ee/primer3-0.4.0/). Amplicons av 200-250 bp er ideelle for polymerasekjedereaksjons (PCR) som dette vil, når UMIs er innarbeidet, generere overlappende sammen-end leser med 150 bp sammen-end leser. Optimal primer design betingelsene brukes er: primer minimumsstørrelse = 19; Optimal primer størrelse = 25; Maksimal primer størrelse = 30; Minimum Tm = 64 ° c. Optimal Tm = 70 ° C; Maksimal Tm = 74 ° c. Maksimal forskjell som Tm = 5 ° C; Minimum GC innhold = 45; Maksimal GC innhold = 80; Å gå tilbake = 20; Maksimalt 3′ slutten stabilitet = 100.

I metode 2 beskriver vi en metode kombinere ECS-DNA protokollen med Illumina kjemi undersøkelse for klonal SNVs og små indeler så sjeldent som 0.0001 VAF bruke kommersielt tilgjengelige genet paneler med hundrevis av amplicons. Vi har brukt TruSight myelogen sekvensering panelet (Illumina) til våre eksperimentet og utviklet en utvidet panel med flere gener av interesse for pediatric myelogen sykdommer. Disse panelene har ikke tilbudt unike molekylær identifikatorer (UMIs) som vil lette feiloppretting, så har vi lagt vår egen kort strategi til disse panelene. ECS skal fungere like bra med noen av andre paneler designet for å berike for gener forbundet med ulike sykdommer. Etter DNA isolasjon og påfølgende kvantifisering fra vev eller utvalg av interesse, er det anbefalt å ha minst 500 ng aksjer DNA per prøven. Vi rutinemessig gjøre et enkelt sekvensering bibliotek med 250 ng DNA for å fange så mye unike genomisk fragment som mulig for nedstrøms leser de-duplisering og VAF beregning. En valgfri Repliker sekvensering biblioteket kan gjøres med den gjenværende 250 ng DNA. Vi gjør alltid to Repliker bibliotek per prøven, og vi ser bare de hendelsene oppdaget uavhengig i begge gjentak som sanne positive. Vi har også gjennomført en genomisk posisjon binomiske feil modell for å øke nøyaktigheten av variant ringer⁴^,¹³.

Til slutt, vi beskriver en metode koble ECS til RNA sekvenser for transkripsjon kvantifisering av sokkel QIAseq målrettet RNA paneler (Qiagen). UMIs kreves for de-duplisering og feilretting er innarbeidet i settene, og forskere kan gjøre biblioteker etter produsentens anbefalinger. Bioinformatically, forskerne kan følge rørledningen skissert for ECS-DNA, som vil bli forklart i detalj i delen PROTOKOLLEN.

Protocol

1. rettet feil-korrigert sekvenser for DNA PCR forsterkning av genomisk fragmenter av interesse. Bruk en naturtro DNA polymerase for å forsterke amplicons (Materialer tabell, vare 1). Forsterke PCR reaksjon med følgende i en termisk cycler: 30 s på 98 ° c. 18-40 sykluser av 10 s på 98 ° C, 30 s 66 ° c, og 30 s ved 72 ° c. 2 min ved 72 ° C; Hold på 4 ° C. Rense PCR produktene med spinn perler (Materialer tabell, vare 2). Legge til PCR reaksjonen til perlene i 1: 1,8 forholdet (PCR reaksjon volum: perle volum) i henhold til produsentens protokollen. Elute med 20 µL av ddH2O. Kvantifisere konsentrasjon av DNA (Materialer tabell, punkt 3) for å bestemme endelige konsentrasjon av DNA. Kjøre en aliquot av DNA på en 2% agarose gel (Materialer tabell, vare 4) å bekrefte størrelsen på amplicons.Merk: Alternativt forskere kan velge for å utføre en Bioanalyzer analyse på PCR-produkter for å finne størrelsen på forsterket genomisk fragmenter og konsentrasjonen av produktene. Sekvensering kortet annealing Få i7 adaptere (Materialer tabell, vare 5). Bruke dem som de er gitt for fremgangsmåten. Kjøpe 16N i5 adaptere kommersielt med følgende oligo sekvens (materialer tabell element 6): AATGATACGGCGACCACCGAGATCTACAC(N1:25252525)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1)(N1) (N1) ACACTCTTTCCCTACACGACGCTCTTCCGATCTMerk: 16N i5 kortene erstatte standard i5 kortene og de adaptere med en streng med 16 tilfeldige-nukleotid å lette ECS. Gjør 16N i5 kortet fungerende løsning: 40 µL av 100 µM 16N i5 kortet lager, 10 µL TE bufferen og 10 µL av 500 µM NaCl løsning. Aliquot 7.5 µL av i5 arbeider løsningen i trinn 1.2.3 i separate PCR brønner. Legge til 5 µL av prøve-spesifikke i7 adapter i tilsvarende brønner. Ruge på 95 ° C i 5 min og Avkjøl med 1 ° C hver 30 s til 4 ° C i en termisk cycler. Hold på 4 ° C. Slutten-reparasjon og dA tailing bibliotekerMerk: Parallelt med kortet annealing, en kan utføre slutten reparasjon og dA tailing på PCR-amplicons fra trinn 1.1. Etter at disse trinnene utføres ligation av glødet kort fra trinn 1.2 på slutten reparert og dA-tailed PCR amplicons. Etter kort ligation er ECS biblioteket byggingen fullført. Begynn med minst 1 µg starter DNA (minimum ~ 200 ng) Utføre slutten-reparasjon og dA-hale på amplicons (Materialer tabell, artikkel 7). Legg 3.0 µL slutten Prep enzym mix og 6.5 µL slutten reparasjon bufferen. Ruge blandingen i 30 min ved 20 ° C, deretter i 30 minutter til 65 ° C og holde på 4 ° C. Utfør ligation glødet kortene (Materialer tabell, element-8). Legge til 2,5 µL av glødet kortene fra trinn 2, 15 µL av Blunt/TA Ligase Mastermix og 1 µL av Ligation enhancer. Inkuber blandingen i 15 min ved 20 ° C, så i 15 min på 37 ° C. Rydde opp biblioteker med magnetiske perler (materialer tabellen vare 2): legge til PCR reaksjonen til perler i endret 1: 0,75 forholdet (PCR reaksjon volum: magnetisk perle volum): Pipetter 62.6 µL av magnetiske perle løsning i den 83.5 µL PCR produkter fra trinn 1.2.7. Overføre blandingen til en 1,5 mL lav bindende rør. Bland godt av pipettering opp og ned minst 10 ganger. La blandingen stå ved romtemperatur i 5 minutter. Sett røret på en magnetisk holder. Inkuber i 2 minutter ved romtemperatur eller til nedbryting er klart. Fjerne nedbryting. Vask perler med 200 µL av 70% etanol. Inkuber til 30 s. Fjern etanol. Gjenta etanol wash trinn én gang. Air-Dry perler. Elute med 20 µL av ddH2O.Merk: Denne endringen PCR reaksjon på magnetiske perle forholdet fjernes fortrinnsvis DNA fragmenter som er mindre enn 200 bp. Kvantifisering av slippverktøy digital PCRMerk: Presis mutasjon kvantifisering krever strenge observans antall molekyler av hvert bibliotek som er lastet inn sequenceren. For å oppnå dette, kvantifisere antallet molekyler for personlige biblioteker per volum utføres med QX200 slippverktøy digital PCR (ddPCR) plattform-kvantitative PCR er et alternativ. Etter ddPCR analyse angir er avlesning antallet molekyler per µL per bibliotek. Fortynne ECS biblioteker 1:1,000 trinnvis fortynne med en faktor på 10 i PCR strip-rør. Forberede den følgende mastermix ddPCR i 1,5 mL tube: 10 µL PCR mix (Materialer tabell, punkt 9), 0,2 µL av P5 Primer, 0,2 µL av P7 Primer, 5 µL av ECS renset opp produktet fra trinn 1.4.1., og 4,5 µL ddH2O. Aliquot 20 µL av mastermix i hver prøve også sørge for det er multiplum av 8. Aliquot 70 µL slippverktøy generasjon olje (Materialer tabell, vare 10) i hver oljebrønn. Dekk kassetten med en Gummipakning. Gjøre slippverktøyet bruke slippverktøy generator (Materialer tabell, element 11). Bruker en flerkanals pipette, laste dråper generert i trinn 1.4.4 i et PCR plate å sikre pipettering av utvalget er gjort langsomt over en 5 sekunder å unngå klipping DNA. Forsterke signalet i dråpene 40 sirkelstrukturer i en termisk cycler bruker følgende: 5 min på 95 ° C; 40 sykluser av 30 s på 95 ° C, 1 min på 63 ° c. 5 min på 4 ° C, 5 min på 90 ° c. Hold på 4 ° C. Forberede ddPCR mal slippverktøy leser maskin (Materialer tabell, element 11). Sikre spesifikasjon for parametere for Absolutt kvantifisering og bruk av den QX200 ddPCR Eva Green Supermix. Når ddPCR analysen er fullført, må du angi samme splittende terskelverdien over alle prøvene. Bruker er konsentrasjon avlesning fra QX200 slippverktøy leseren, aliquot riktige volumet å innføre ønsket antall molekyler i senere trinn. PCR forsterkning av bibliotekene for sekvensering Forberede den følgende mastermix for ønsket antall molekyler fra trinn 1.4.9: 25 µL av Q5 Mastermix (Materialer tabell, vare 1), 2,5 µL av P5 Primer (10 µM), 2,5 µL av P7 Primer (10 µM), X µL av DNA, 20-X µL ddH2O. Forsterke bibliotekene fra trinn 1.5.1 i en termisk cycler bruker følgende: 30 s på 98 ° c. 20 sykluser av 10 s på 98 ° C, 30 s på 63 ° C, 30 s ved 72 ° c. 2 min ved 72 ° C; Hold på 4 ° C. Rydde opp biblioteker med magnetiske perler (materialer tabell, vare 2): legge til PCR reaksjonen til magnetiske perler i en modifisert 1: 0,75 forholdet (PCR reaksjon volum: magnetisk perle volum). Pipetter 37,5 µL av magnetiske perle løsning i 50 µL PCR produktene fra trinn 1.5.2. Overføre blandingen til en 1,5 mL lav bindende rør. Bland godt av pipettering opp og ned minst 10 ganger. La blandingen stå ved romtemperatur i 5 minutter. Sett røret på en magnetisk holder. Inkuber i 2 minutter ved romtemperatur eller til nedbryting er klart. Fjerne nedbryting. Vask perler med 200 µL av 70% etanol. Inkuber til 30 s. Fjern etanol. Gjenta etanol wash trinn én gang. Air-Dry perler. Elute med 20 µL av ddH2O. Kjøre en aliquot av DNA på en 2% agarose gel å bekrefte størrelsen på amplicons. Kvantifisere konsentrasjon av DNA (Materialer tabell, punkt 3) for å bestemme konsentrasjonen av separate ECS bibliotekene. Basseng bibliotekene i ekvimolare beløp.Merk: For eksempel forskere kan samle åtte biblioteker i en ekvimolare gruppe4 med 4 millioner starter molekyler for sekvensering bruk en sekvensering plattform som produserer opptil 400 millioner leser. Conservatively, anbefales det å bruke et gjennomsnitt på ti lese rådata for feilkorrigering per molekyler. Dette ville ta opp 360 millioner leser (4 millioner molekyler * 8 biblioteker * 10 leser til feilretting). Med 4 millioner unike molekyler per bibliotek, kan forskere forvente å få en teoretisk betyr konsensus lese dekning av 7042 x per amplicon (4 millioner/568 amplicons gen-panelet). Kvantifisere konsentrasjon av DNA (Materialer tabell, punkt 3) for å bestemme konsentrasjonen av grupperte ECS-biblioteket. Sende gruppert ECS biblioteket på omtrent 4 nM. Gi følgende sekvensering innstillinger Illumina sekvensering plattformer (MiSeq, HiSeq eller NextSeq): 2 x 144 sammen-end leser, 8 sykluser indeks 1 og 16 sykluser indeks 2. 2. gen paneler med feil-korrigert sekvensering av DNA Blanding av oligos fra gene panelerMerk: I dette trinnet bygge en sekvensering biblioteker bruker en modifisert Illumina TruSight eller TruSeq-protokollen for å innlemme UMIs (Materialer tabell, artikkel 17). Hybridize oligos på genomisk fragment etter produsentens protokoll. Bruk 250 ng DNA (eller noen ønsket antall starter materiale). Fjerne ubundet oligos etter produsentens protokoll. Utføre utvidelse-ligatur etter produsentens protokoll.Merk: Endringer til produsentens protokollen begynner nedenfor. Innlemmelse av i5 og i7-kort via PCR Forberede PCR-mastermix av pipettering følgende reagenser i en tube med passende volumstørrelsen: 37,5 µL av Q5 Mastermix (Materialer tabell, vare 1), 6 µL av 10 µM 16N i5 adaptere (i metode 1, trinn 1.2.2), 6 µL av i7 adaptere (bruk forskjellige i7 adaptere for separate prøver for multiplexing), og 22 µL av utvidelsen-ligatur løsning med perler fra trinn 2.1.3.Merk: Q5 Mastermix erstatter polymerase mastermix levert av Illumina. Q5 polymerase forsterker genomisk fragmentet med høyere kvalitet og færre introdusert feil. Kjør PCR-programmet på en termisk cycler bruker følgende parametere: 30 s på 98 ° C, 4-6 sykluser av 10 s på 98 ° C, 30 s på 66 ° C, 30 s ved 72 ° c. 2 min ved 72 ° C, og hold deretter på 4 ° C.Merk: Antall sykluser, avhenger av panelet størrelsen. Fra vår erfaring er en 4-syklus PCR tilstrekkelig dersom gene panelet har ca 1500 forskjellige par genet bestemte oligos, mens et panel med 500-600 par oligos krever 6 sykluser av PCR. Rydde opp PCR reaksjoner med magnetiske perler (materialer tabell, vare 2): legge til PCR reaksjonen til magnetiske perler i en endret 1 PCR reaksjon: 0,75 magnetiske perle forholdet: Pipetter 56.25 µL av magnetiske perle løsning i 75 µL PCR produkter fra trinn 2.2.2. Overføre blandingen til en 1,5 mL lav bindende rør. Bland godt av pipettering opp og ned minst 10 ganger. La blandingen stå ved romtemperatur i 5 minutter. Sett røret på en magnetisk holder. Inkuber i 2 minutter ved romtemperatur eller til nedbryting er klart. Fjerne nedbryting. Vask perler med 200 µL av 70% etanol. Inkuber til 30 s. Fjern etanol. Gjenta etanol wash trinn én gang. Air-Dry perler. Elute med 20 µL av ddH2O. Kvantifisere biblioteker med QX200 ddPCR plattform. Følg trinn 1.4 i metode 1.Merk: 4 millioner molekyler var normalisert per eksempel biblioteket4 i representant resultatet (figur 2) for å få en teoretisk betyr 7,042 entydig indeksert molekyler (4 millioner delt 568 gen-spesifikk oligos). Forsterke og normalisere biblioteker for sekvenser. Forsterke ønsket antall molekyler med den følgende mastermix for den endelige PCR totalt 50 µL: 25 µL av Q5 Mastermix, 2 µL av P5 Primer (1 µM), 2 µL av P7 Primer (1 µM), og 21 µL av DNA molekyler. Kjør PCR-programmet på en termisk cycler med følgende parameter: 30 s på 98 ° c. 16 sykluser av 10 s på 98 ° C, 30 s på 66 ° C, 30 s ved 72 ° c. 2 min ved 72 ° C; Hold på 4 ° C. Rydde opp sekvensering biblioteker med magnetiske perler (Materialer tabell, vare 2): legge til PCR reaksjonen til magnetiske perler i en endret 1 PCR reaksjon: 0,75 magnetiske perle forholdet: Pipetter 37,5 µL av magnetiske perle løsning i 50 µL PCR produktene fra trinn 2.4.2. Overføre blandingen til en 1,5 mL lav bindende rør. Bland godt av pipettering opp og ned minst 10 ganger. La blandingen stå ved romtemperatur i 5 minutter. Sett røret på en magnetisk holder. Inkuber i 2 minutter ved romtemperatur eller til nedbryting er klart. Fjerne nedbryting. Vask perler med 200 µL av 70% etanol. Inkuber til 30 s. Fjern etanol. Gjenta etanol wash trinn én gang. Air-Dry perler. Elute med 20 µL av ddH2O. Kjøre en aliquot elut DNA (~ 3 µL) på en 2% agarose gel å bekrefte størrelsen på amplicons. Kvantifisere konsentrasjon av DNA (Materialer tabell, punkt 3) for å bestemme konsentrasjonen av separate ECS bibliotekene. Basseng bibliotekene i ekvimolare beløp. Se metode 1 trinn 1.5.6. og også diskusjon mer om pooling. Sende gruppert ECS biblioteket på omtrent 4 nM. Gi følgende sekvensering innstillinger Illumina sekvensering plattformer (MiSeq, HiSeq eller NextSeq): 2 x 144 sammen-end leser, 8 sykluser indeks 1 og 16 sykluser indeks 2. ECS Bioinformatic behandling og analyse Få den prøve-demultiplexed lest fra sequenceren eller utføre demultiplexing av rå sekvens leser inn forskjellige prøver med i7 kortet sekvenser bioinformatically med et egendefinert skript. Klippe av de første 30 nukleotider i hver demultiplexed Les å fjerne oligo sekvenser fra gene-panelet. Juster leser som deler de samme UMIs til hverandre for å danne Les familier.Merk: Forskere kan bruke UMI-aware programvare MAGERI13 trekke ut Les familier. Ingen hamming avstand var tillatt i UMI sekvensen i dette eksperimentet å øke spesifisiteten av metoden. Utføre de-duplisering og feil-rettelsen bruker følgende anbefalte parametere. Bruk ≥5 lese par i samme lese familie. Minst tre Les par anbefales. Sammenligne nukleotid på hver posisjon på tvers av alle leser i samme Les familie, og generere en konsensus nukleotid hvis det er minst 90% overensstemmelse blant lest for den bestemte nukleotid. Kall en N hvis mindre enn 90% avtale for nukleotid posisjon. Forkaste konsensus leser som har > 10% av det totale antallet konsensus nukleotider Innkalling N. Justere alle beholdt konsensus leser lokalt for å enten hg19 eller hg38 menneskelige referanse genomet bruker forskerens foretrukne aligner(s) som Bowtie2 og BWA. Prosessen linje leser med Mpileup med parameterne-BQ0-d 10,000,000,000,000 fjerne dekning terskler for å sikre et riktig pileup utgang uansett VAF. Filtrere ut posisjoner med mindre enn 1000 x konsensus lese dekning.Merk: Forskeren bestemmer den minste dekningen for hver nucleotide posisjon vilkårlig, det anbefales å ha minst 500 x konsensus lese dekning for nedstrøms. Bruk BINOM for å ringe varianter single nukleotid (SNPer) i beholdes dataene fra trinn 2.5.7 med følgende parametere. Binomisk statistikken baseres på en genomisk posisjon feil modell. Hver genomisk posisjon er modellert uavhengig etter summere ut feilrater av alle prøver for denne bestemte posisjonen. Følgende eksempel:Sannsynligheten for nukleotid profil på en gitt genomisk posisjon, p∑ Variant RF2 ∑ totale alger= 26/255505= 0.000101759Binomisk sannsynligheten for 24 variant alger av 35911 totale alger, P(X ≥ x) i eksemplet K= 1 – binomial(24, 35911, 0.000101759)= 2.26485E-13Merk: Genomisk kor spørres, vil det være tre mulige mutational endringer (dvs.A > T, A > C, A > G), og hver ville være representert som bakgrunn gjenstand. Somatiske hendelser som er vesentlig forskjellig fra bakgrunnen etter Bonferroni korreksjon beholdes. I eksemplet vist i tabell 1antall tester utført var 11, derfor en Bonferroni rettet p-verdi ≤0.00454545 (0,05/11) måtte ringe en hendelse som statistisk signifikant. Somatiske hendelser er må finnes i begge gjentak fra samme prøven; ellers ser dem som falske positiver. Tabell 1: Eksempel demonstrere måten å konstruere en posisjon binomiske feil modell. 3. feil-korrigert sekvensering av RNA I tillegg til vurdering for mutasjoner på DNA nivå, integrere ECS med ulike målrettet RNA sekvensering paneler å oppdage sjeldne eller lav overflod transkripsjon på RNA nivå. Ved å kombinere ECS med sokkel Qiagen RNA sekvensering paneler, viste vi digitalt kvantifiseringen av genuttrykk for utskrifter med så få som ti kopier uten behov for normalisering mot en housekeeping genet. UMIs kreves for feilkorrigering har blitt integrert i panelet. Utføre totale RNA utvinning (Materialer tabell, vare 20). Utføre ECS-RNA biblioteket forberedelse i henhold til produsentens protokollen (Materialer tabell, element 19). Utføre bioinformatikk rørledning etter trinn 2.5.1–2.5.6. Metoden 2 beskrevet i forrige avsnitt. Etter trinn 2.5.6 representerer antall justert konsensus leser per genet uttrykk genet uten behov for genet lengde normalisering.

Representative Results

Med Targeted Error-Corrected sekvensering for DNA, har vi utført et bevis på prinsippet eksperiment fortynne mutant pasienten DNA i kommersielle genomisk DNA. Pasienten hadde en mutasjon i GATA1 (chrX:48650264, C > G) med opprinnelige VAF av 0,19. I figur 1 viser vi at ECS er kvantitative til et 1:10,000 for single nukleotid varianten. Figur 1: fortynning serie GATA1 SNV demonstrere at ECS er kvantitative til nivået av 1:10,000. Klikk her for å se en større versjon av dette tallet. Vi viser også at ECS-DNA pålitelig oppdager sjeldne klonal mutasjoner i gener recurrently i voksen akutt myelogen leukemi (AML) i friske eldre individer4. Vi fikk buffy pels prøver fra 20 friske individer i Sykepleiers Health studie banked omtrent ~ 10 år fra hverandre. Vi brukte ECS-DNA panelet protokollen på disse prøvene. For dette eksperimentet, vi tilpasset Illumina TruSight myelogen sekvensering panelet som består av 568 amplicons (mer om genet listen på https://www.illumina.com/products/by-type/clinical-research-products/trusight-myeloid.html) og i rekkefølge 80 biblioteker fra 20 personer (2 samlinger på forskjellige tidspunkt, 2 gjentak per person per tid punkt) bruker Illumina NextSeq-plattformen, som gjennomsnittlig 47,7 millioner sammen-end lyder og gjennomsnittlig 3,4 millioner feil-korrigert konsensus sekvenser per bibliotek4. Mener nukleotid dekning per bibliotek var omtrent 6000 x (3,4 millioner delt 568). For hver prøve bygget vi en posisjon feil profil bruke sekvensert biblioteker som ikke er fra samme eksempel. Vi fant 109 klonal somatiske mutasjoner som var tilstede i begge gjenskapninger av minst én samling tidspunkt. Disse mutasjonene har VAF fra 0.0003-0.1451. Vi valgte 21 mutasjoner med kjente kosmiske representasjoner, og validert alle 21 mutasjoner i en eller to samling tid punkt ved hjelp av ddPCR (n = 34, figur 2, tilpasset fra unge et al. 20164). Figur 2: mutasjoner identifisert av ECS ble bekreftet via ddPCR med svært overensstemmende VAFs. (n = 34, endret fra unge et al. 20164). Klikk her for å se en større versjon av dette tallet. Med hensyn til feil-korrigert uttrykk nivå med ECS-RNA-protokollen, tilpasset vi en genet panelet bruker QIAseq kjemi som består av 416 gener kjent for å være assosiert med ulike kreftformer (tilpasset fra QIAseq menneskelige kreft Transcriptome panelet), og vi forsterket det oftest uttrykt ekson med et gitt (Gene liste i supplerende materiale 1). Vi sekvensielt bibliotekene bruker Illumina MiSeq plattformen i sammen-end format som ga gjennomsnittlig 8,3 millioner leser per bibliotek, og vi klarte å fange et gjennomsnitt på 0.417 millioner feil-korrigert konsensus sekvenser. Vi viste at uttrykket nivået av lav overflod transkripsjon (< 1000 transkripsjon teller i 50 ng av totalt) er svært reproduserbar mellom replikat (datapunktet n = 300, Figur 3). Validering av ddPCR (seks valgte gener varierende grad av uttrykk) viste at uttrykket nivået av gener hadde blitt riktig fanget av ECS protokollen uten behov for normalisering. Figur 3: topp, korrelasjon av transkripsjon teller av ECS-RNA mellom av samme prøven (n = 300). Bunnen, transkripsjon teller identifisert av ECS ble bekreftet av ddPCR (n = 6). Klikk her for å se en større versjon av dette tallet.

Discussion

Her viser vi en rekke feil-korrigert sekvensering protokoller som lett kan implementeres for å studere mutasjoner med lav VAFs i ulike sykdommer. Den viktigste faktoren er inkorporering av UMIs med hvert molekyl før sekvenser som de aktiver feilretting i rå lyder. Metodene som er beskrevet her kan forskere å innlemme tilpassede UMIs både kommersielt tilgjengelig genet paneler og egenutviklede gen-spesifikke oligos.

NGS standardprotokoll utelukker påvisning av mutasjoner med VAF under 2% på grunn av feil sekvensering, og dette begrenser anvendelsen av NGS i studier hvor påvisning av sjeldne varianter er avgjørende. Ved å omgå NGS feil standardsatsen, kan ECS følsom påvisning av disse rå varianter. For eksempel er oppdagelsen av patogene mutasjoner når disse mutasjoner oppstår først (derfor å ha lav VAF) viktig å informere tidlig intervensjon av sykdom¹⁴^,¹⁵. I leukemi forskning, gjenkjenning av minimal gjenværende sykdom (gjenværende leukemic celler etter behandling) informerer risiko lagdeling og kan brukes til å informere behandlingstilbud på en måte som binære strømmen cytometric vurderinger ikke. I tillegg gjelder ECS å oppdage sirkulerende svulst nukleinsyre og evaluere metastatisk potensial i solid tumor pasienter ved å vurdere for tilstedeværelse/fravær som variant byrden av visse mutasjoner som kjennetegner primært svulst¹⁶.

Som vist i tabell 1, avhenger kraften i å bruke binomisk fordeling-baserte posisjon-spesifikke feil modell for å ringe varianter i stor grad på antall sekvensert biblioteker samt dybden av sekvensering brukes til å bygge feil modell. Robust feil modell øker med høyere antall prøver og mer sekvensering dybde. Det anbefales å bruke minst 10 sekvensert prøver med en gjennomsnittlig feil-korrigert Les dekning av 3000 x per prøve for å bygge en feil profil for hvert utvalg. Posisjon-spesifikk tilnærming ligner MAGERI, men i stedet for en samlet feilrate for alle seks forskjellige substitusjon (A > C/T > G, A > G/T > C, A > T/T > A, C > A/G > T, C > G/G > C C > T/G > A)¹³, vi modell hver substitusjon uavhengig på hver posisjon. For eksempel en feilrate på C > T på en gitt genomisk posisjon er forskjellig fra en annen plassering. Vår tilnærming tar også hensyn en sekvensering satsvise effekt, som base substitusjon hastigheten i en sekvensering løpe kan være forskjellig fra en annen kjører. Derfor er det viktig å modellere hver posisjon for alle substitusjon særlig når prøver fra ulike sekvensering kjører er felles for å bygge modell.

En viktig faktor når du utformer en ECS eksperimentet er ønsket oppdagelsen terskelen. Fine med NGS studier er at de kan enkelt skaleres i gener/mål av interesse, oppdagelsen terskelen (diktert av dybdeskarphet sekvensering) og antall personer spørres. For eksempel Hvis forskerne er interessert å finne sjeldne mutasjoner i to amplicons med en gjenkjenning terskel for 0,0001, kan de pool maksimalt 75 prøvene i en enkelt sekvensering bruker MiSeq V2 kjemi som produserer opptil 15 millioner leser (2 amplicons * 10.000 molekyler * 10 leser for feilkorrigering * 75 prøver = 15 millioner sekvensering leser). Forskere kan variere antallet molekyler går inn sekvensering eller antall grupperte prøvene i en enkelt sekvensering kjøre justere oppdagelsen terskelen. I våre studier, vi som mål å finne mutasjoner med en gjenkjenning terskel av 0.0001 VAF (1:10, 000) i Illumina gen-panelet. Vi rutinemessig bruk 250 ng Start DNA for å sikre at tilstrekkelig molekyler er tatt for å oppnå nevnte oppdagelsen terskelen. Forskere kan velge for å starte med lavere mengde DNA (50 ng anbefales) hvis ønsket oppdagelsen grensen er > 0,001 VAF.

Som UMIs legges på i5 indeksene, må sekvensering innstillingene endres tilsvarende. For eksempel vi brukte 16 N UMIs, og innstillingen sekvensering var 2 x 144 sammenkoblede slutten leser, 8 sykluser av indeks 1 og 16 sykluser av indeksen 2 i motsetning til vanlige 8 sykluser av indeks 2. Økningen i indeksen 2 syklus er kompensert av en nedgang i antall sykluser tilordnet lest. Hvis forskerne velger for å bruke 12N UMIs¹⁰^,¹⁷, bør innstillingene endres til 12 sykluser av indeks 2.

Denne UMI-baserte sekvensering metoden er optimalisert for å korrigere sekvensering feil. Det gjenstår suboptimal i håndteringen av PCR jackpotting, som er et problem for alle forsterkning-basert metode. Vi utførte runder etter sekvensering og post-bioinformatikk validering bruker ddPCR, og vi nesten ikke føle noen falske positiver på grunn av PCR jackpotting. Likevel er det anbefalt at forskere gjennomføre eksperimenter med Hi-Fi polymerase for å sikre lav forsterkning feil.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Vi takker deltakerne i barnas onkologi Group AAML1531 studier og sykepleiere Health Study for deres bidrag i form av pasientprøvene. Dette arbeidet ble finansiert av National Institutes of Health (UM1 CA186107, RO1 CA49449 og RO1 CA149445), Children’s Discovery Institute of Washington University og St. Louis Children’s Hospital (MC-II-2015-461) og Eli Seth Matthews leukemi stiftelsen.

Materials

Q5 High Fidelity Hot Start Master Mix	New England BioLabs	M0492S
Agencourt AMPure XP	Beckman Coulter	A63880
Qubit dsDNA HS Assay Kit	Thermo Fisher Scientific	Q32854
SYBR Safe DNA Gel Stain	Thermo Fisher Scientific	S33102
Truseq Custom Amplicon Index Kit	Illumina	FC-130-1003
UMI i5 adapter sequences	Integrated DNA Technologies	–
NEBNext Ultra End Repair/dA-Tailing Module	New England BioLabs	E7442S
NEBNext Ultra II Ligation Module	New England BioLabs	E7595S
QX200 ddPCR EvaGreen Supermix	Bio-Rad	1864034
QX200 Droplet Generation Oil for EvaGreen	Bio-Rad	1864005
QX200 Droplet Digital PCR System	Bio-Rad	1864001
ddPCR 96-Well Plates	Bio-Rad	12001925
DG8 Cartridges for QX200/QX100 Droplet Generator	Bio-Rad	1864008
DG8 Gaskets for QX200/QX100 Droplet Generator	Bio-Rad	1863009
Bioanalyzer	Agilent Genomics	G2939BA
TapeStation	Agilent Genomics	G2991AA
TruSight Myeloid Sequencing Panel	Illumina	FC-130-1010
Bowtie 2	Johns Hopkins University	–
Customized QIAseq Targeted RNA Panel	Qiagen	–
Rneasy Plus Mini Kit (50)	Qiagen	74134

References

Hoang, M. L., et al. Genome-wide quantification of rare somatic mutations in normal tissues using massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 113, 9846-9851 (2016).
O’Roak, B. J., et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature. 485, 246-250 (2012).
Young, A. L., et al. Quantifying ultra-rare pre-leukemic clones via targeted error-corrected sequencing. Leukemia. 29 (7), 1608-1611 (2015).
Young, A. L., Challen, G. A., Birmann, B. M., Druley, T. E. Clonal hematopoiesis harbouring AML-associated mutations is ubiquitous in healthy adults. NatureCommunications. 7, 12484 (2016).
Patel, J. P., et al. Prognostic relevance of integrated genetic profiling in acute myeloid leukemia. New England Journal of Medicine. 366, 1079-1089 (2012).
Shendure, J., Ji, H. Next-generation DNA sequencing. Nature Biotechnology. 26 (10), 1135-1145 (2008).
Kohlmann, A., et al. Monitoring of residual disease by next-generation deep-sequencing of RUNX1 mutations can identify acute myeloid leukemia patients with resistant disease. Leukemia. 28, 129-137 (2014).
Luthra, R., et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring. Haematologica. 99, 465-473 (2014).
Kinde, I., Wu, J., Papadopoulos, N., Kinzler, K. W., Vogelstein, B. Detection and quantification of rare mutations with massively parallel sequencing. Proceedings of the National Academy of Sciences USA. 108 (23), 9530-9535 (2011).
Schmitt, M., et al. Detection of ultra-rare mutations by next-generation sequencing. Proceedings of the National Academy of Sciences USA. 109 (36), 14508-14513 (2012).
Vander Heiden, J. A., et al. pRESTO: a toolkit for processing high-throughput sequencing raw reads of lymphocyte receptor repertoires. Bioinformatics. 30 (13), 1930-1932 (2014).
Newman, A. M., et al. Integrated digital error suppression for improved detection of circulating tumor DNA. NatureBiotechnology. 34, 547-555 (2016).
Shugay, M., et al. MAGERI: Computational pipeline for molecular-barcoded targeted resequencing. PLOSComputationalBiology. 13 (5), e1005480 (2017).
Wong, T. N., et al. Role of TP53 mutations in the origin and evolution of therapy-related acute myeloid leukaemia. Nature. 518, 552-555 (2014).
Krimmel, J. D., et al. Ultra-deep sequencing detects ovarian cancer cells in peritoneal fluid and reveals somatic TP53 mutations in noncancerous tissues. Proceedings of the National Academy of Sciences USA. 113 (21), 6005-6010 (2016).
Phallen, J., et al. Direct detection of early-stage cancers using circulating tumor DNA. ScienceTranslationalMedicine. 9, eaan2415 (2017).
Egorov, E. S., et al. Quantitative profiling of immune repertoires for minor lymphocyte counts using unique molecular identifiers. The Journal of Immunology. 194 (12), 6155-6163 (2015).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wong, W. H., Tong, R. S., Young, A. L., Druley, T. E. Rare Event Detection Using Error-corrected DNA and RNA Sequencing. J. Vis. Exp. (138), e57509, doi:10.3791/57509 (2018).

Sjelden hendelse gjenkjenning feil-korrigert DNA og RNA sekvensering

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Sjelden hendelse gjenkjenning feil-korrigert DNA og RNA sekvensering

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below