June 24th, 2021
Alternatieve splicing (AS) en alternatieve polyadenylation (APA) vergroten de diversiteit van transcriptisovormen en hun producten. Hier beschrijven we bioinformatische protocollen om bulk RNA-seq en 3'-eindsequencingtests te analyseren om AS en APA te detecteren en te visualiseren, variërend tussen experimentele omstandigheden.
Dit protocol biedt een uitgebreid inzicht in genisovormen die worden gegenereerd door alternatieve splicing en polyadenylation door een stapsgewijze workflow te bieden om differentiële splicing-sites, differentieel tot expressie gebrachte exonen en poly (A) -sites te identificeren. Het belangrijkste voordeel van dit protocol is dat het zowel exon-gebaseerde als event-gebaseerde methoden evalueert voor het bestuderen van alternatieve splicing. Het past ook een exon-gebaseerde methode toe om alternatieve polyadenylering te bestuderen.
De R Markdown-bestanden met de codes en opmerkingen voor AS- en AP-analyse zijn verstrekt. Het is raadzaam om de stappen in het R Markdown-bestand te volgen en de notitie voor elke stap zorgvuldig te bereiken. Als u differentiële splicing wilt identificeren met diffSplice van limma, volgt u het R-notebookbestand.
Bereid de invoerbestanden voor zoals beschreven in het tekstmanuscript. Zorg ervoor dat de stappen één tot en met drie in het manuscript achtereenvolgens zijn gevolgd om invoerbestanden voor te bereiden voordat u verder gaat. Begin met het laden van de benodigde bibliotheken.
Als u niet-specifieke filtering wilt uitvoeren, haalt u eerst de matrix van eerder verkregen leestellingen uit en maakt u een lijst met functies met de functie DGEList uit het edgeR-pakket, waarbij rijen genen vertegenwoordigen en kolommen monsters vertegenwoordigen. Transformeer vervolgens de gegevens van onbewerkte schaal naar tellingen per miljoen met behulp van de CPM-functie van het edgeR-pakket en bewaar exonen met tellingen groter dan een instelbare drempel. Deze dataset bevat zes voorbeelden.
Daarom is de CPM ingesteld op meer dan één en ten minste drie van de zes monsters. Normaliseer de tellingen in monsters met de functie calcNormFactors uit het edgeR-pakket met behulp van bijgesneden gemiddelde van M-waarden. Deze functie berekent schaalfactoren om de bibliotheekgrootte aan te passen.
Gebruik de eerder gegenereerde voorbeeldtabel om de ontwerpmatrix te maken om de experimentele omstandigheden voor elk monster te definiëren. Voer de voomfunctie van het limma-pakket uit om RNA-sequencinggegevens te verwerken om de variantie te schatten. Deze functie genereert precisiegewichten om te corrigeren voor Poisson-tellingsruis en transformeert de exon-niveautellingen naar log twee tellingen per miljoen of logCPM.
Voer de lmfit-functie uit om lineaire modellen aan te passen aan de expressiegegevens voor elk exon. Voer vervolgens de functie eBayes uit om empirische statistieken te berekenen voor het aangepaste model om differentiële exonexpressie te detecteren. Definieer een contrastmatrix voor de experimentele vergelijkingen van belang.
Gebruik de contrasten. fit-functie om coëfficiënten en standaardfouten voor elk paar vergelijkingen te verkrijgen. Voer diffSplice uit op het aangepaste model om de verschillen in exongebruik van genen tussen wild type en knock-out te testen.
Verken de best gerangschikte resultaten met behulp van de topSplice-functie waarbij een test gelijk aan t een rangschikking van AS-exonen geeft en een test gelijk aan simes een rangorde van genen geeft. Voer de functie plotSplice uit om de resultaten te plotten. Door het gen van belang in het gen ID-argument te plaatsen, tonen de rode punten de differentieel tot expressie gebrachte exonen.
Genereer een vulkaanplot met behulp van EnhancedVolcano bioconductor-pakket om de differentieel tot expressie gebrachte exonen tentoon te stellen. Als u rMATS wilt gebruiken, moet u ervoor zorgen dat de nieuwste versie van rMATS versie 4.1.1 is geïnstalleerd met conda of GitHub in de werkmap. Ga naar de map met bam-bestanden die zijn verkregen na toewijzing.
Bereid tekstbestanden voor zoals vereist door rMATS voor de twee voorwaarden voor het kopiëren van de naam van bam-bestanden en hun pad gescheiden door een komma. Voer rma's uit. py met behulp van de twee gegenereerde invoer tekstbestanden die het pad van de bam-bestanden en de annotatie beschrijven.
gtf-bestand dat eerder is verkregen. Dit genereert een uitvoermap rmats_out met tekstbestanden die statistieken beschrijven, waaronder P-waarden en inclusieniveaus voor elke splicinggebeurtenis afzonderlijk. Gebruik de bioconductorpakket maser om de rMATS-resultaten te verkennen.
Laad de junction- en exon-tellingen tekstbestanden met de extensie JCEC in het maser-object en neem ten minste vijf gemiddelde reads per splicinggebeurtenis op om het resultaat te filteren op basis van dekking. Om de rMATS-resultaten te visualiseren, voert u eerst de topEvents-functie uit het maserpakket uit en selecteert u de significante splicinggebeurtenissen met een false discovery rate van 10% en een minimale verandering van 10% in procent gesplitst in of PSI. Controleer de gengebeurtenissen op individuele genen van belang en plot PSI-waarden voor elke splicinggebeurtenis van dat gen.
Genereer een vulkaanplot door het gebeurtenistype op te geven. Gebruik de resultaten van splicinggebeurtenissen die zijn verkregen met rMATS in de vorm van tekstbestanden om sashimi-plots te genereren met behulp van het rmats2sashimiplot-pakket. De sashimi-plot toont een overgeslagen exongebeurtenis in het Wnk1-gen.
Elke rij vertegenwoordigt een RNA-seq-monster, drie replica's van wild type en Mbnl1 knock-out. De hoogte toont de leesdekking in RPKM en de verbindingsbogen geven junction reads over exonen weer. Het onderste deel toont geannoteerde genmodel alternatieve isovormen.
Een substantiële vouwverandering en sterk statistisch bewijs van echte verschillen kunnen worden waargenomen in de genen die zich bevinden in de kwadranten linksboven of rechts van de vulkaanplots verkregen met behulp van diffSplice en DEXSeq. Een cassette-exon bleek te variëren tussen verschillende omstandigheden voor het gen Wnk1. De differentiële exon-gebruiksplot toonde bewijs van differentiële splicing op vijf exon-locaties in de buurt van Wnk1.6.45, waarbij de exonen in roze werden gemarkeerd en waarschijnlijk werden uitgesplitst in Mbnl1 knock-outmonsters in vergelijking met wild type.
De vulkaanplot van genen die als alternatief gesplitst zijn, hielp om onderscheid te maken tussen de genen die werden uitgesloten van het wilde type en die welke waren opgenomen in het wilde type. De soorten splicinggebeurtenissen SE, A5SS, A3SS, MXE en RI werden gevisualiseerd met behulp van sashimi-plots van de belangrijkste genen van die gebeurtenissen. De differentiële APA-activiteit in drie primaire onvertaalde gebieden van genen werd waargenomen met behulp van vulkaanplots.
De significant differentiële pa-sitegebruiksresultaten verkregen uit verschillende pijplijnen werden gevisualiseerd met behulp van event plot. Een significante distale tot proximale verschuiving van pa-sitegebruik bij dubbele knock-outs kan worden waargenomen in zowel genen FOSL1 als papola. De gemiddelde dekking in flankerende gebieden verankerd op bekende PA-splitsingsplaatsen op genoombreed niveau werd bepaald met behulp van een diagnostische plot.
Zorg ervoor dat de parameters zoals transspecifieke informatie en meervoudige overlap toestaan correct worden gebruikt bij het genereren van telstatistieken. Lineaire modelaanpassing en het genereren van contrastparen is belangrijk voor een goede vergelijking. Voor rMATS moet u ervoor zorgen dat alle parameters correct zijn ingesteld op basis van uw gegevens voordat u de opdracht uitvoert.
De genen verkregen uit differentiële splicingactiviteit kunnen worden gebruikt om gensetverrijkingsanalyse uit te voeren. Een andere tool genaamd MISO kan worden gebruikt voor verdere op gebeurtenissen gebaseerde analyse.
View the full transcript and gain access to thousands of scientific videos
Deze studie behandelt de complexiteit van alternatieve splicing (AS) en alternatieve polyadenylering (APA) in de regulatie van genexpressie. Met behulp van bioinformaticaprotocollen om RNA-sequencingdata te analyseren, benadrukt het onderzoek de voordelen van zowel exon-gebaseerde als event-gebaseerde methoden voor het detecteren en visualiseren van alternatieve splicing en polyadenylering onder verschillende experimentele omstandigheden.