Het hier ingediende protocol verklaart de volledige in silico-pijplijn die nodig is om circRNA’s te voorspellen en functioneel te karakteriseren uit RNA-sequencing transcriptoomgegevens die gastheer-pathogeeninteracties bestuderen.
Circulaire RNA’s (circRNA’s) zijn een klasse van niet-coderende RNA’s die worden gevormd via back-splicing. Deze circRNA’s worden voornamelijk bestudeerd voor hun rol als regulatoren van verschillende biologische processen. Met name opkomend bewijs toont aan dat gastheer circRNA’s differentieel tot expressie kunnen worden gebracht (DE) bij infectie met pathogenen (bijv. Influenza en coronavirussen), wat een rol suggereert voor circRNA’s bij het reguleren van aangeboren immuunresponsen van de gastheer. Onderzoek naar de rol van circRNA’s tijdens pathogene infecties wordt echter beperkt door de kennis en vaardigheden die nodig zijn om de noodzakelijke bioinformatische analyse uit te voeren om DE-circRNA’s te identificeren uit RNA-sequencing (RNA-seq) -gegevens. Bioinformatica voorspelling en identificatie van circRNA’s is cruciaal voor elke verificatie, en functionele studies met behulp van kostbare en tijdrovende wet-lab technieken. Om dit probleem op te lossen, wordt in dit manuscript een stapsgewijs protocol van in silico-voorspelling en karakterisering van circRNA’s met behulp van RNA-seq-gegevens verstrekt. Het protocol kan worden onderverdeeld in vier stappen: 1) Voorspelling en kwantificering van DE-circRNA’s via de CIRIquant-pijplijn; 2) Annotatie via circBase en karakterisering van DE circRNA’s; 3) CircRNA-miRNA interactie voorspelling via Circr pijplijn; 4) functionele verrijkingsanalyse van circRNA-oudergenen met behulp van Gene Ontology (GO) en Kyoto Encyclopedia of Genes and Genomes (KEGG). Deze pijplijn zal nuttig zijn bij het stimuleren van toekomstig in vitro en in vivo onderzoek om de rol van circRNA’s in gastheer-pathogeen interacties verder te ontrafelen.
Gastheer-pathogeen interacties vertegenwoordigen een complex samenspel tussen de pathogenen en gastheerorganismen, dat de aangeboren immuunresponsen van de gastheren veroorzaakt die uiteindelijk resulteren in de verwijdering van binnendringende pathogenen 1,2. Tijdens pathogene infecties wordt een groot aantal immuungenen van de gastheer gereguleerd om de replicatie en afgifte van pathogenen te remmen. Gemeenschappelijke interferon-gestimuleerde genen (ISG’s) gereguleerd op pathogene infecties omvatten bijvoorbeeld ADAR1, IFIT1, IFIT2, IFIT3, ISG20, RIG-I en OASL 3,4. Naast eiwitcoderende genen hebben studies ook gemeld dat niet-coderende RNA’s zoals lange niet-coderende RNA’s (lncRNA’s), microRNA’s (miRNA’s) en circulaire RNA’s (circRNA’s) ook een rol spelen en gelijktijdig worden gereguleerd tijdens pathogene infecties 5,6,7. In tegenstelling tot eiwitcoderende genen die voornamelijk coderen voor eiwitten als functionele moleculen, is het bekend dat niet-coderende RNA’s (ncRNA’s) functioneren als regulatoren van genen op transcriptionele en post-transcriptionele niveaus. Studies met de deelname van niet-coderende RNA’s, met name circRNA’s, bij het reguleren van de immuungenen van de gastheren zijn echter niet goed gerapporteerd in vergelijking met de eiwitcoderende genen.
CircRNA’s worden op grote schaal gekenmerkt door hun covalent gesloten continue lusstructuur, die wordt gegenereerd door een niet-canoniek splicingproces dat back-splicing8 wordt genoemd. Het proces van back-splicing, in tegenstelling tot het splicingproces van verwante lineaire RNA’s, omvat de ligatie van de downstream donorplaats naar de upstream acceptorplaats, waardoor een cirkelvormige structuur wordt gevormd. Momenteel zijn drie verschillende back-splicing mechanismen voor de biogenese van circRNA’s voorgesteld. Dit zijn RNA binding protein (RBP) gemedieerde circularisatie9,10, intron-pairing-gedreven circularisatie 11 en lariat-gedreven circularisatie12,13,14. Aangezien circRNA’s end-to-end verbonden zijn in een cirkelvormige structuur, hebben ze de neiging om van nature resistent te zijn tegen normale exonuclease-verteringen en worden ze daarom als stabieler beschouwd dan hun lineaire tegenhangers15. Een ander gemeenschappelijk kenmerk van circRNA’s omvat de cel- of weefseltypespecifieke expressie in gastheren16.
Zoals geïmpliceerd door hun unieke structuur en cel- of weefselspecifieke expressie, is ontdekt dat circRNA’s belangrijke biologische functies in cellen spelen. Tot op heden is een van de prominente functies van circRNA’s hun rol als microRNA (miRNA) sponzen17,18. Deze regulerende rol van circRNA’s vindt plaats door de complementaire binding van circRNA-nucleotiden met het zaadgebied van miRNA’s. Een dergelijke circRNA-miRNA-interactie remt de normale regulerende functies van de miRNA’s op doel-mRNA’s, waardoor de expressie van genenwordt gereguleerd 19,20. Bovendien is ook bekend dat circRNA’s genexpressie reguleren door interactie met RNA-bindende eiwitten (RBP’s) en het vormen van RNA-eiwitcomplexen21. Hoewel circRNA’s worden geclassificeerd als niet-coderende RNA’s, zijn er ook aanwijzingen dat circRNA’s kunnen fungeren als sjablonen voor eiwittranslatie22,23,24.
Onlangs is aangetoond dat circRNA’s een cruciale rol spelen bij het reguleren van de gastheer-pathogeen interacties, met name tussen de gastheren en virussen. Over het algemeen wordt aangenomen dat gastheercircRNA’s helpen bij het reguleren van de immuunresponsen van de gastheer om de binnendringende pathogenen te elimineren. Een voorbeeld van circRNA dat immuunresponsen van de gastheer bevordert, is circRNA_0082633, gerapporteerd door Guo et al.25. Dit circRNA verbetert type I interferon (IFN) signalering in A549-cellen, wat helpt om influenzavirusreplicatiete onderdrukken 25. Bovendien rapporteerden Qu et al. ook een humaan intronisch circRNA, circRNA AIVR genaamd, dat de immuniteit bevordert door de expressie van CREB-bindend eiwit (CREBBP), een signaaltransducer van IFN-β26,27, te reguleren. Er bestaan echter ook circRNA’s waarvan bekend is dat ze de pathogenese van ziekte bij infectie bevorderen. Yu et al. rapporteerden bijvoorbeeld onlangs de rol die een circRNA uit het GATA-zinkvingerdomein met het 2A-gen (circGATAD2A) speelt bij het bevorderen van de replicatie van het H1N1-virus door de remming van autofagie van de gastheercel28.
Om circRNA’s effectief te bestuderen, wordt meestal een genoombreed circRNA-voorspellingsalgoritme geïmplementeerd, gevolgd door een in silico-karakterisering van de voorspelde circRNA-kandidaten voordat functionele studies kunnen worden uitgevoerd. Een dergelijke bioinformatica-benadering om circRNA’s te voorspellen en te karakteriseren is minder kostbaar en tijdsefficiënter. Het helpt om het aantal kandidaten dat functioneel moet worden bestudeerd te verfijnen en kan mogelijk leiden tot nieuwe bevindingen. Hier bieden we een gedetailleerd op bioinformatica gebaseerd protocol voor de in silico-identificatie , karakterisering en functionele annotatie van circRNA’s tijdens de gastheer-pathogeen interacties. Het protocol omvat de identificatie en kwantificering van circRNA’s uit RNA-sequencing datasets, annotatie via circBase en de karakterisering van de circRNA-kandidaten in termen van circRNA-typen, aantal overlappende genen en voorspelde circRNA-miRNA-interacties. Deze studie biedt ook de functionele annotatie van de circRNA-oudergenen via Gene Ontology (GO) en de Kyoto Encyclopedia of Genes and Genomes (KEGG) verrijkingsanalyse.
Om het nut van dit protocol te illustreren, werd RNA-seq van influenza A-virus-geïnfecteerde menselijke macrofaagcellen als voorbeeld gebruikt. CircRNA’s die functioneren als potentiële miRNA-sponzen in gastheer-pathogeen interacties en hun GO- en KEGG-functionele verrijking binnen een gastheer werden onderzocht. Hoewel er verschillende circRNA-tools online beschikbaar zijn, is elk van hen een op zichzelf staand pakket dat niet met elkaar communiceert. Hier hebben we enkele van de tools samengesteld die nodig zijn voor…
The authors have nothing to disclose.
De auteur wil Tan Ke En en Dr. Cameron Bracken bedanken voor hun kritische beoordeling van dit manuscript. Dit werk werd ondersteund door subsidies van Fundamental Research Grant Scheme (FRGS/1/2020/SKK0/UM/02/15) en University of Malaya High Impact Research Grant (UM. C/625/1/HIR/MOE/CHAN/02/07).
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |