Her præsenterer vi en bioinformatisk tilgang og analyser til at identificere line-1 udtryk på søgsmåls specifikke niveau.
Lange INterspersed elementer-1 (LINEs/L1s) er gentagne elementer, der kan kopiere og tilfældigt indsætte i genomet resulterer i genomisk ustabilitet og mutagenese. Forståelse af udtryks mønstrene for L1 loci på det individuelle niveau vil give et indblik i dette mutagene Elements biologi. Dette autonome element udgør en betydelig del af det menneskelige genom med over 500.000 eksemplarer, selv om 99% er afkortet og defekt. Deres mange og dominerende antal defekte kopier gør det imidlertid vanskeligt at identificere autentisk L1s fra L1-relaterede sekvenser udtrykt som en del af andre gener. Det er også udfordrende at finde ud af, hvilke specifikke L1 søgsmåls der udtrykkes på grund af elementernes repetitive karakter. Overvinde disse udfordringer, præsenterer vi en RNA-SEQ af Bioinformatik tilgang til at identificere L1 udtryk på søgsmåls specifikke niveau. Sammenfattende indsamler vi cytoplasmatiske RNA, vælger for polyadenylerede udskrifter og udnytter streng specifikke RNA-SEQ-analyser til entydigt at kort læse til L1 loci i det humane reference genom. Vi justerer visuelt hver L1-søgsmåls med unikt kortlagte læsninger for at bekræfte transkription fra sin egen promotor og justere kort læste udskrifter for at tage højde for hver enkelt L1 søgsmåls ‘ mappabilitet. Denne tilgang blev anvendt til en prostata tumor cellelinje, DU145, for at demonstrere muligheden for denne protokol til at detektere udtryk fra et lille antal af den fulde længde L1 elementer.
Retrotransposons er gentagne DNA-elementer, der kan “hoppe” i genomet i en kopi-og-pasta mekanisme via RNA-mellemprodukter. En delmængde af retrotransposons er kendt som Long INterspersed elementer-1 (LINEs/L1s) og udgør en sjettedel af det menneskelige genom med over 500, 0000 eksemplarer1. På trods af deres overflod, de fleste af disse kopier er defekte og forkortet med kun en anslået 80-120 L1 elementer menes at være aktiv2. En fuld-længde L1 er omkring 6 KB i længden med 5 ‘ og 3 ‘ uoversat regioner, en intern promotor og tilhørende anti-sense promotor, to ikke-overlappende åbne-læsning frames (orfs), og et signal og polya hale3,4,5 . Hos mennesker består L1s af underfamilier, der er kendetegnet ved evolutionær alder, hvor ældre familier har akkumuleret mere unikke sekvens mutationer over tid sammenlignet med denyngste underfamilie, L1HS. L1s er de eneste autonome, humane retrotransposoner og deres Orf’er koder en omvendt transkriptase, endonuklease og Rnp’er med RNA-binding og chaperone aktiviteter, der kræves for at retrotransponere og indsætte i genomet i en proces, der betegnes som målprimet omvendt transskription8,9,10,11,12.
Efter montering af L1s er blevet rapporteret at forårsage menneskelige kimcelle sygdomme ved en række mekanismer, herunder mutationer mutagenese, mål-site sletninger, og omordning13,14,15, 16. for nylig har det været en hypotese, at L1s kan spille en rolle i oncogenesis og/eller tumorprogression som øget ekspression og indsættelse hændelser af dette mutagene element er blevet observeret i en række af epitel kræft17,18 . Det anslås, at der er en ny L1 indsættelse i hver 200 fødsler19. Derfor er det bydende nødvendigt at bedre at forstå biologi af aktivt at udtrykke L1s. Den repetitive karakter og overflod af defekte eksemplarer findes i udskrifter af andre gener har gjort dette niveau af analyse udfordrende.
Heldigvis, med fremkomsten af høj gennemløb sekvensering teknologier, er der gjort fremskridt at analysere ud og identificere autentisk udtrykke L1s på locus-specifikke niveau. Der er forskellige filosofier om, hvordan man bedst kan identificere udtrykte L1s ved hjælp af RNA næste generations sekventering. Der er kun blevet foreslået to fornuftige tilgange til kortlægning af L1-udskrifter på det locus-specifikke niveau. Man fokuserer kun på den potentielle transskription, der læser gennem L1 polyadenyleringsignalet og i flankerende sekvenser20. Vores tilgang udnytter små sekvens forskelle mellem L1 elementer og kun kort disse RNA-SEQ læser, der unikt kort til en søgsmåls21. Begge disse metoder har begrænsninger med hensyn til kvantitering af transskription niveauer. Kvantitation kan muligvis forbedres ved at tilføje en korrektion for den “unikke mappabilitet” for hver L1 søgsmåls21, eller ved at bruge mere komplekse algoritmer, der videredistribuerer de multi-kortlagte læsninger, som ikke kunne knyttes entydigt til en specifik søgsmåls22. Her vil vi detalje i en trin-for-trin måde RNA udvinding og næste generations sekventering og bioinformatik protokol til at identificere udtrykte L1 elementer på locus-specifikke niveau. Vores tilgang tager maksimal fordel af vores viden om biologi funktionelle L1 elementer. Dette omfatter at vide, at funktionelle L1-elementer skal genereres fra L1-promotoren, initieret i begyndelsen af L1-elementet, skal oversættes i cytoplasma, og at deres udskrifter skal være co-lineær med genomet. Kort, vi indsamler friske, cytoplasmatiske RNA, vælge for polyadenylerede udskrifter, og udnytte streng-specifikke RNA-SEQ analyser til unikt kortlæser til L1 loci i det menneskelige reference genom. Disse justerede læser derefter stadig kræver omfattende manuel curation for at afgøre, om udskrift læser stammer fra L1-promotoren før udpegning af en søgsmåls som en autentisk udtrykt L1. Vi anvender denne tilgang på DU145 prostata tumor cellelinje prøve for at demonstrere, hvordan det identificerer en relativt få aktivt transskriberet L1 medlemmer fra massen af inaktive kopier.
L1 aktivitet har vist sig at forårsage genetiske skader og ustabilitet, der bidrager til sygdom27,28,29. Af de ca 5.000 fuld længde L1 eksemplarer, kun et par dusin evolutionært unge L1s tegner for størstedelen af tilbagevirkende kraft2. Men, der er tegn på, at selv nogle ældre, retrotranspositionelt-incompentent L1s stadig i stand til at producere DNA skadelige proteiner30. For fuldt ud at værdsætte L1s rolle i genomisk ustabilitet og sygdom skal L1-ekspression på det locus-specifikke niveau forstås. Den høje baggrund for L1-relaterede sekvenser, der er indarbejdet i andre RNA’er, der ikke er relateret til L1-retrotransponering, udgør imidlertid en betydelig udfordring i fortolkningen af autentisk L1-udtryk. En anden udfordring i at identificere og derfor forstå udtryks mønstre af individuelle L1 loci opstår på grund af deres repetitive karakter, der ikke tillader mange korte læse sekvenser til at kortlægge til en enkelt unik locus. For at overvinde disse udfordringer udviklede vi den ovenfor beskrevne tilgang til identificering af individuelle L1 loci ved hjælp af RNA-SEQ-data.
Vores tilgang filtrerer det høje niveau (over 99%) af transkriptional støj genereret fra L1-sekvenser, der ikke er relateret til L1-retrotransponering, ved at tage en række skridt. Det første skridt indebærer forberedelse af cytoplasmatiske RNA. Ved at vælge for cytoplasmatiske RNA er L1-relaterede læsninger, der findes inden for udtrykt intronic mRNA i kernen, betydeligt udtømt. I sekvensering bibliotek forberedelse, et andet skridt til at reducere transkriptional støjrelateret til L1s omfatter udvælgelsen af polyadenylerede udskrifter. Dette fjerner L1-relateret transskription støj fundet i ikke-mRNA arter. Et andet trin omfatter streng specifik sekvensering for at identificere og eliminere antisense L1-relaterede udskrifter. Brugen af en anmærkning for fuld længde L1s med funktionelle promotionsområder ved identificering af antallet af RNA-SEQ-udskrifter, der knyttes til L1s, eliminerer også baggrundsstøj, der ellers stammer fra afkortet L1s. Endelig er det sidste kritiske skridt i elimineringen af transkriptionelle støj fra L1-sekvenser, der ikke er relateret til L1-retrotransponering, manuel curation af fuld længde L1s identificeret til at have kortlagt RNA-SEQ-udskrifter. Den manuelle curation involverer visualisering af hver bioinformatisk identificeret-til-være-udtrykte L1 søgsmåls i forbindelse med det omgivende genomiske miljø for at bekræfte, at udtrykket stammer fra L1-promotoren. Denne tilgang blev anvendt til DU145, en prostata tumor cellelinje. Selv med alle de forberedelses relaterede skridt, der er taget for at reducere baggrundsstøjen, blev ca. 50% af L1 loci identificeret som bioinformatisk i DU145 blevet afvist som L1 baggrundsstøj fra andre transskriptionelle kilder (figur 4). understreger den stringens, der kræves for at producere pålidelige resultater. Denne tilgang ved hjælp af manuel curation er arbejdskraftintensiv, men nødvendig i udviklingen af denne pipeline til at evaluere og forstå det genomiske miljø omkring en fuld længde L1. De næste skridt omfatter at reducere mængden af nødvendige manuel kurering ved at automatisere nogle af de curation regler, men på grund af stadig ikke helt kendt karakter af genomisk udtryk, un-kommenteret kilder til udtryk i reference genomet, regioner i lav mappabilitet, og selv komplicerende faktorer, der er involveret i opbygningen af et reference genom er det ikke muligt fuldt ud at automatisere L1-curation på dette tidspunkt.
Den anden udfordring i at identificere udtryk for individuelle L1 loci med sekventering relaterer til kortlægningen af gentagne L1-udskrifter. I denne justerings strategi kræves det, at en udskrift skal tilpasse sig entydigt og samlinetil reference genomet for at blive kortlagt. Ved at vælge for parrede-end-sekvenser, der kort er overensstemmende, øges mængden af udskrifter, der entydigt tilpasser sig til L1 loci, der findes i reference genomet. Denne unikke kortlægnings strategi giver tillid til kaldelsen af læser kortlægning specifikt til en enkelt L1 locus, selv om det potentielt undervurderer udtryks mængden af hver identificeret-til-være-autentisk udtrykt, gentagende L1. Til omtrent korrekt for denne undervurdering, en “mappability” score for hver L1 søgsmåls baseret på dens mappabilitet blev udviklet og anvendt til antallet af unikt kortlagt udskrift aflæsninger (figur 6). Det er af den opfattelse, at mappabilitet ideelt set skal være scoret til fuld dækning læser på tværs af fuld længde L1 i henhold til den matchede WGS prøve. Her bruger vi WGS af HeLa celler til at bestemme mappability snesevis af hver L1 loci for at puste eller deflatere læser kortlægning til L1 loci i DU145 prostata tumorcellelinjer. Denne mappability beregning er en grov korrektion score, men den valgte ‘ komplet dækning mappability ‘ af 400 læsninger blev bestemt med den dynamiske karakter af tumorcellelinjer i tankerne. Det kan observeres i supplerende figur 1, at der er et par L1 loci med Hela WGS med ekstremt stort antal kortlagt læser. Disse sandsynligvis kommer fra duplikerede kromosom sekvenser inden HeLa, der ikke er inden for reference genomet, hvilket er grunden til disse loci ikke blev valgt til at være repræsentative for fuldstændig mappability dækning. I stedet blev det fastslået, at gennemsnittet af 100% læse dækning sker omkring 400 læser i henhold til supplerende figur 1 og blev derefter antaget, at dette gennemsnit gælder for DU145 tumor prostata cellelinje samt.
Denne tilpasningsstrategi med 100-200 BP læser fra RNA-SEQ-teknologien vælger også fortrinsvis for evolutionært ældre L1s inden for reference genomet som ældre L1s har akkumuleret over tid unikke mutationer, der gør dem mere mappable. Denne tilgang har derfor begrænset følsomhed, når det kommer til at identificere den yngste af L1s samt ikke-reference, polymorfe L1s. For at identificere den yngste af L1s, foreslår vi at bruge 5 ‘ RACE udvalg af L1 udskrifter og sekventering teknologi som PacBio, der gør brug af længere læser21. Dette giver mulighed for mere unik kortlægning og derfor sikker identifikation af de udtrykte, unge L1s. ved hjælp af RNA-SEQ-og PacBio-tilgange kan sammenføre til en mere omfattende liste over autentisk udtrykte L1s. For at identificere autentisk udtrykt polymorfe L1s, omfatter de første næste trin opførelse og indsættelse af polymorfe sekvenser i reference genomet.
De biologiske og tekniske udfordringer i at studere gentagne sekvenser er store, men med ovenstående strenge procedure for at fjerne transkriptionelle støj af L1-sekvenser un-relateret til retrogennemførelse ved hjælp af RNA-sekvensering teknologi, begynder vi at støvtætte gennem de store niveauer af transskriptional baggrundsstøj og være til trygt og stringent at identificere L1 udtryks mønstre og kvantitet på det individuelle søgsmåls niveau.
The authors have nothing to disclose.
Vi vil gerne takke Dr. Yan DONG for DU145 prostata tumorceller. Vi vil gerne takke Dr. Nathan Ungerleider for hans vejledning og Råd i at skabe supercomputer scripts. Noget af dette arbejde blev finansieret af NIH Grants R01 GM121812 til PD, R01 AG057597 til VPB, og 5TL1TR001418 til TK. Vi vil også gerne anerkende støtte fra Cancer Crusaders og Tulane Cancer Center Bioinformatics Core.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |