Här presenterar vi en Bioinformatisk strategi och analyser för att identifiera LINE-1 uttryck på Locus specifika nivå.
Långa varvat element-1 (LINEs/L1s) är repetitiva element som kan kopiera och slumpmässigt infoga i genomet resulterar i genomisk instabilitet och mutesis. Förstå uttrycks mönstren för L1 loci på individ nivå kommer att låna ut till förståelsen av biologi av denna mutagena element. Detta autonoma elementet utgör en betydande del av den mänskliga arvs massan med över 500 000 kopior, men 99% är trunkerad och defekt. Emellertid, deras överflöd och dominerande antal defekta kopior gör det svårt att identifiera autentiskt uttryckt L1s från L1-relaterade sekvenser uttrycks som en del av andra gener. Det är också utmanande att identifiera vilken specifik L1-Locus uttrycks på grund av den repetitiva karaktären av elementen. Genom att övervinna dessa utmaningar presenterar vi ett RNA-seq bioinformatiskt förhållnings sätt för att identifiera L1-uttryck på Locus specifika nivå. Sammanfattnings vis samlar vi in cytoplasmatiska RNA, väljer för polyadenylerade transkriptioner och använder strandspecifika RNA-seq-analyser för att unikt kartlägga läsningar till L1 loci i människans referensgenomet. Vi visuellt komminister varje L1 Locus med unikt kartlagda läsningar för att bekräfta transkription från sin egen promotor och justera mappade avskrift läsningar att redogöra för mappability av varje enskild L1 Locus. Detta tillvägagångs sätt tillämpades på en prostata tumör cellinjen, DU145, att demonstrera förmågan hos detta protokoll för att upptäcka uttryck från ett litet antal av ful längds L1 element.
Retrotransposons är repetitiva DNA-element som kan “hoppa” i genomet i en mekanism för att kopiera och klistra in via RNA-intermediärer. En delmängd av retrotransposons är känd som long varvat Elements-1 (LINEs/L1s) och utgör en sjättedel av människans arvs massa med över 500, 0000 exemplar1. Trots deras överflöd, de flesta av dessa kopior är defekta och trunkeras med endast en beräknad 80-120 L1 element tros vara aktiv2. En ful längds L1 är ungefär 6 KB lång med 5 ‘ och 3 ‘ oöversatta regioner, en intern promotor och tillhör ande anti-Sense promotor, två icke-överlappande Open-Reading ramar (ORFS), och en signal och Polya svans3,4,5 . Hos människor, L1s består av under familjer kännetecknas av evolutionär ålder med de äldre familjerna har samlat mer unika sekvens mutationer över tiden jämfört med den yngsta under familjen, L1HS6,7. L1s är de enda autonoma, mänskliga retrotransposons och deras ORFS koda en omvänd transkriptase, endonuclease, och rnps med RNA-bindande och förkläde verksamhet som krävs för att retrotransponera och infoga i genomet i en process som kallas målprimade omvänd transkription8,9,10,11,12.
Retrotransponering av L1s har rapporter ATS orsaka humana köns celler-sjukdomar genom en mängd olika mekanismer, inklusive insertionella mutesis, borttagningar av mål platser och omordningar13,14,15, 16. nyligen har det varit en hypotes om att L1s kan spela en roll i onkogenes och/eller tumör progression som ökat uttryck och införande händelser av detta mutagena element har observerats i en mängd epitelial cancer17,18 . Det uppskattas att det finns en ny L1 insättning i varje 200 födda19. Därför är det absolut nödvändigt att bättre förstå biologin av aktivt uttrycka L1s. Den repetitiva karaktären och förekomsten av defekta kopior som hittats inom transkriptioner av andra gener har gjort denna analys nivå utmanande.
Lyckligt vis, med tillkomsten av hög genom strömning sekvenserings teknik, har framsteg gjorts för att tolka ut och identifiera autentiskt uttrycka L1s på Locus-specifik nivå. Det finns olika filosofier om hur man bäst identifiera uttryckte L1s med hjälp av RNA nästa generations sekvensering. Det har bara funnits två rimliga metoder som föreslagits för mappning av L1-utskrifter på den Locus-specifika nivån. En fokuserar endast på den potentiella transkription som läser genom L1 polyadenylering signalen och i kompletterande sekvenser20. Vårt tillvägagångs sätt drar nytta av små sekvensskillnader mellan L1 element och bara kartor de RNA-seq läser att unikt karta till en Locus21. Båda dessa metoder har begränsningar när det gäller kvantitering av avskrift nivåer. Kvantitation kan förbättras potentiellt genom att lägga till en korrigering för “unika mappability” av varje L1 Locus21, eller med hjälp av mer komplexa algoritmer som omfördela flera mappade läsningar som inte kunde unikt mappas till en specifik Locus22. Här kommer vi att detaljerat i ett steg-för-steg sätt RNA utvinning och nästa generations sekvensering och bioinformatik protokoll för att identifiera uttryckta L1 element på Locus-specifik nivå. Vår strategi tar maximal nytta av vår kunskap om biologi funktionella L1 element. Detta inkluderar att veta att funktionella L1 element måste genereras från L1 Promotorn, initieras i början av L1 elementet, måste översättas i cytoplasman och att deras avskrifter bör vara co-linjär med genomet. Kortfattat samlar vi in färskt, cytoplasmiskt RNA, väljer för polyadenylerade transkriptioner och använder strandspecifika RNA-seq-analyser för att unikt kartlägga läsningar till L1 loci i människans referensgenomet. Dessa justerade läsningar sedan fortfarande kräver omfattande manuell Curation för att avgöra om utskriften läser kommer från L1 Promotorn innan utse en Locus som en autentiskt uttryckt L1. Vi tillämpar denna metod på DU145 prostata tumör cellinjen provet för att visa hur det identifierar en relativt få aktivt transkriberat L1 medlemmar från massan av inaktiva kopior.
L1-aktivitet har visat sig orsaka genetisk skada och instabilitet som bidrar till sjukdomen27,28,29. Av de cirka 5 000 ful längds L1 kopior, endast ett fåtal dussin evolutionärt unga L1s står för majoriteten av retroinförlivande verksamhet2. Det finns dock belägg för att även vissa äldre, retrotranspositionally-incompentent L1s fortfarande kan producera DNA skadliga proteiner30. För att till fullo förstå L1s roll i genomisk instabilitet och sjukdom måste L1-uttryck på den Locus-specifika nivån förstås. Men den höga bakgrunden av L1-relaterade sekvenser som ingår i andra RNAs utan samband med L1-retroinförlivandet utgör en betydande utmaning vid tolkningen av autentiskt L1-uttryck. En annan utmaning i att identifiera och därmed förstå uttrycks mönster av enskilda L1 loci uppstår på grund av deras repetitiva karaktär som inte tillåter många korta läsa sekvenser för att mappa till en enda unik Locus. För att övervinna dessa utmaningar utvecklade vi den ovan beskrivna metoden för att identifiera uttryck för enskilda L1 loci med hjälp av RNA-seq data.
Vårt tillvägagångs sätt filtrerar den höga nivån (över 99%) av transkriptionella buller som genereras från L1 sekvenser som inte är relaterade till L1 retroinförlivande genom att ta ett antal steg. Det första steget innebär beredning av cytoplasmatiska RNA. Genom att välja för cytoplasmatiska RNA, L1-relaterade läsningar Funna inom uttryckta intronic mRNA i kärnan är signifikant uttömda. I ordningsföljd biblioteket förberedelse, ett annat steg vidtas för att minska transkriptionella buller samband med L1s inkluderar urvalet av polyadenylerade utskrifter. Detta tar bort L1-relaterade transkription brus som finns i icke-mRNA arter. Ett annat steg inkluderar programspecifik sekvensering för att identifiera och eliminera antisense L1-relaterade utskrifter. Användningen av en anteckning för ful längds L1s med funktionella promotor regioner när man identifierar antalet RNA-seq-utskrifter som mappas till L1s eliminerar också bakgrunds brus som annars kommer från trunkerad L1s. Slutligen, det sista kritiska steget för att eliminera transkriptionella buller av L1 sekvenser utan samband med L1 retroinförlivande är den manuella Curation av ful längds L1s identifieras ha kartlagt RNA-seq avskrifter. Den manuella curationen innebär visualisering av varje bioinformatiskt identifierad-att-vara-uttryckt L1 Locus i samband med dess omgivande genomisk miljö för att bekräfta att uttrycket härstammar från L1 Promotorn. Detta tillvägagångs sätt tillämpades på DU145, en prostata tumör cellinjen. Även med alla förberedande åtgärder som vidtagits för att minska bakgrunds bullret, var cirka 50% av L1 loci identifierade bioinformatiskt i DU145 förkastas som L1 bakgrunds brus från andra transkriptionella källor (figur 4), betona den noggrannhet som krävs för att producera pålitliga resultat. Detta tillvägagångs sätt med manuell Curation är arbets intensiva, men nödvändigt i utvecklingen av denna pipeline för att utvärdera och förstå genomisk miljö kring en ful längds L1. Nästa steg är att minska mängden nödvändig manuell kurering genom att automatisera några av de Curation regler, men på grund av den fortfarande inte helt känd karaktär genomiskt uttryck, un-kommenterad källor till uttryck i referensgenomet, regioner med låg mappability, och även komplicerande faktorer som är inblandade i byggandet av en referens genomet är det inte möjligt att helt automatisera L1 Curation vid denna tid.
Den andra utmaningen när det gäller att identifiera uttryck för enskilda L1 loci med sekvensering avser kart läggningen av repetitiva L1-utskrifter. I denna inriktnings strategi krävs det att en transkription måste justeras unikt och samlinjärt med referengenomet för att kunna kartläggas. Genom att välja för parad-end sekvenser som mappas concordantly, mängden utskrifter som unikt anpassa sig till L1 loci finns i referens genomet ökar. Denna unika kart läggning strategi ger förtroende för anrop av läser mappning specifikt till en enda L1 Locus, även om det potentiellt unders katta uttrycket kvantitet av varje identifierad-till-vara-authentically uttryckt, repetitiva L1. För att ungefär korrekt för denna underskattning, en “mappability” poäng för varje L1 Locus baserat på dess mappability utvecklades och tillämpas på antalet unikt kartlagd avskrift läsningar (figur 6). Det är att notera att idealiskt, mappability bör poängsättas till full täckning läser över ful längds L1 enligt matchade WGS provet. Här använder vi WGS av HeLa celler för att bestämma mappability betyg för varje L1 loci för att blåsa eller tömma läser mappning till L1 loci i DU145 prostata tumör cellinjer. Denna mappability beräkning är en rå korrigering poäng, men den valda “fullständig täckning mappability” av 400 läsningar bestämdes med den dynamiska karaktären av tumör cellinjer i åtanke. Det kan observeras i kompletterande figur 1, att det finns några L1 loci med hela WGS med extremt stort antal mappade läsningar. Dessa sannolikt kommer från duplicerade kromosom sekvenser inom HeLa som inte är inom referengenomet, vilket är varför de loci inte valdes att vara representativ för fullständig mappability täckning. Istället var det fastställt att genomsnittet av 100% läsa täckning sker runt 400 läser enligt kompletterande figur 1 och antogs då att detta genomsnitt gäller för DU145 tumör prostata cell linje också.
Denna anpassning strategi med 100-200 BP läser från RNA-seq-teknik också företrädes vis väljer för evolutionärt äldre L1s inom referens genomet som äldre L1s har ackumulerats med tiden unika mutationer som gör dem mer mappnings bar. Detta tillvägagångs sätt har därför begränsad känslighet när det gäller att identifiera de yngsta av L1s samt icke-referens, polymorfa L1s. För att identifiera den yngsta av L1s, föreslår vi att använda 5 ‘ RACE urval av L1 utskrifter och sekvenserings teknik som PacBio som använder sig av längre läsningar21. Detta möjliggör en mer unik kart läggning och därmed säker identifiering av de uttryckta, unga L1s. med hjälp av RNA-seq och PacBio metoder tillsammans kan leda till en mer omfattande lista över autentiskt uttryckt L1s. För att identifiera autentiskt uttryckt polymorfa L1s, de första nästa steg inkluderar konstruktion och införande av polymorfa sekvenser i referengenomet.
De biologiska och tekniska utmaningarna i att studera upprepade sekvenser är stora, men med ovanstående rigorösa förfarande för att ta bort transkriptionella buller av L1 sekvenser FN-relaterade till retroinförlivande med RNA-sekvenserings teknik, börjar vi att sålla igenom de stora nivåerna av transkriptionella bakgrunds ljud och att man tryggt och strikt identifierar mönster och mängd för L1-uttryck på den individuella Locus-nivån.
The authors have nothing to disclose.
Vi vill tacka Dr Yan Dong för DU145 prostata tumör celler. Vi vill tacka Dr Nathan Ungerleider för hans vägledning och råd i att skapa superdator skript. En del av detta arbete finansierades av NIH Grants r01 GM121812 till PD, r01 AG057597 till VPB, och 5TL1TR001418 till TK. Vi skulle också vilja erkänna stöd från cancer Crusaders och Tulane Cancer Center bioinformatik core.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |