Hierin presenteren we een nieuwe en volledig geautomatiseerde miRNA-pijplijn, mirMachine die 1) bekende en nieuwe miRNA’s nauwkeuriger kan identificeren en 2) volledig geautomatiseerd en vrij beschikbaar is. Gebruikers kunnen nu een kort indieningsscript uitvoeren om de volledig geautomatiseerde mirMachine-pijplijn uit te voeren.
Van verschillende soorten niet-coderende RNA’s zijn microRNA’s (miRNA’s) het afgelopen decennium aantoonbaar in de schijnwerpers geweest. Als post-transcriptionele regulatoren van genexpressie spelen miRNA’s een sleutelrol in verschillende cellulaire routes, waaronder zowel ontwikkeling als reactie op a / biotische stress, zoals droogte en ziekten. Het hebben van hoogwaardige referentiegenoomsequenties maakte identificatie en annotatie van miRNA’s in verschillende plantensoorten mogelijk, waar miRNA-sequenties sterk geconserveerd zijn. Aangezien computationele miRNA-identificatie- en annotatieprocessen meestal foutgevoelige processen zijn, verhogen op homologie gebaseerde voorspellingen de voorspellingsnauwkeurigheid. We hebben de miRNA-annotatiepijplijn, SUmir, in het afgelopen decennium ontwikkeld en verbeterd, die sindsdien voor verschillende plantengenomen is gebruikt.
Deze studie presenteert een volledig geautomatiseerde, nieuwe miRNA-pijplijn, mirMachine (miRNA Machine), door (i) een extra filterstap toe te voegen aan de secundaire structuurvoorspellingen, (ii) deze volledig geautomatiseerd te maken en (iii) nieuwe opties te introduceren om bekend miRNA te voorspellen op basis van homologie of nieuwe miRNA’s op basis van kleine RNA-sequencing-reads met behulp van de vorige pijplijn. De nieuwe miRNA-pijplijn, mirMachine, werd getest met behulp van The Arabidopsis Information Resource, TAIR10, release van het Arabidopsis-genoom en het International Wheat Genome Sequencing Consortium (IWGSC) tarwereferentiegenoom v2.
Vooruitgang in sequencingtechnologieën van de volgende generatie heeft het begrip van RNA-structuren en regulerende elementen verbreed, waardoor functioneel belangrijke niet-coderende RNA’s (ncRNA’s) zijn onthuld. Onder verschillende soorten ncRNA’s vormen microRNA’s (miRNA’s) een fundamentele regelgevende klasse van kleine RNA’s met een lengte tussen 19 en 24 nucleotiden in planten 1,2. Sinds de ontdekking van het eerste miRNA in de nematode Caenorhabditis elegans3 zijn de aanwezigheid en de functies van miRNA’s uitgebreid bestudeerd in dierlijke en plantaardige genomen en 4,5,6. miRNA’s functioneren door mRNA’s te richten op splitsing of translationele repressie7. Accumulerend bewijs heeft ook aangetoond dat miRNA’s betrokken zijn bij een breed scala aan biologische processen in planten, waaronder groei en ontwikkeling8, zelfbiogenese9 en verschillende biotische en abiotische stressreacties10.
In fabrieken worden miRNA’s in eerste instantie verwerkt uit lange primaire transcripties die pri-miRNA’s11 worden genoemd. Deze pri-miRNA’s gegenereerd door RNA polymerase II in de kern zijn lange transcripten die een onvolmaakte terugvouwstructuur vormen12. De pri-miRNA’s ondergaan later een splitsingsproces om endogene enkelstrengs (ss) haarspeldbochtenvoorlopers van miRNA’s te produceren die pre-miRNA’s11 worden genoemd. Het pre-miRNA vormt een haarspeldachtige structuur waarin een enkele streng zich vouwt tot een dubbelstrengsstructuur om een miRNA-duplex (miRNA/miRNA*)13 te verwijderen. Dicer-achtig eiwit snijdt beide strengen van de miRNA/miRNA* duplex, waardoor 2-nucleotide 3′-overhangen14,15 overblijft. De miRNA-duplex wordt gemethyleerd in de kern, wat het 3′-uiteinde van het miRNA beschermt tegen afbraak en uridyleringsactiviteit16,17. Een helicase lost de gemethyleerde miRNA-duplex na export af en stelt het volwassen miRNA bloot aan het RNA-geïnduceerde silencing complex (RISC) in het cytosol18. Eén streng van de duplex is volwassen miRNA opgenomen in RISC, terwijl de andere streng, miRNA*, wordt afgebroken. Het miRNA-RISC-complex bindt aan de doelsequentie, wat leidt tot mRNA-afbraak in geval van volledige complementariteit of translationele repressie in geval van gedeeltelijke complementariteit13.
Op basis van de expressie- en biogenesekenmerken zijn richtlijnen voor miRNA-annotatie beschreven15,19. Met de gedefinieerde richtlijnen ontwikkelden Lucas en Budak de SUmir-pijplijn om een homologie uit te voeren op basis van silico miRNA-identificatie in planten9. De SUmir-pijplijn bestond uit twee scripts: SUmirFind en SUmirFold. SUmirFind voert gelijkeniszoekopdrachten uit met bekende miRNA-datasets via national center for biotechnology information (NCBI) Basic Local Alignment Search tool (BLAST) screening met aangepaste parameters om hits met slechts 2 of minder mismatches op te nemen en om bias naar kortere hits (blastn-short -ungapped -penalty -1 -reward 1) te voorkomen. SUmirFold evalueert de secundaire structuur van de vermeende miRNA-sequenties van BLAST20-resultaten met behulp van UNAfold21. SUmirFold onderscheidt miRNA’s van kleine storende RNA’s door de identificatie van de kenmerken van de haarspeldstructuur. Bovendien onderscheidt het miRNA’s van andere ssRNA’s zoals tRNA en rRNA door de parameters, de minimale energie-index > 0,67 en het GC-gehalte van 24-71%. Deze pijplijn is onlangs bijgewerkt door twee extra stappen toe te voegen om (i) de gevoeligheid te verhogen, (ii) de annotatienauwkeurigheid te verhogen en (iii) de genomische verdeling van de voorspelde miRNA-genente bieden 22. Gezien de hoge conservering van plant miRNA-sequenties23, was deze pijplijn oorspronkelijk ontworpen voor homologie-gebaseerde miRNA-voorspelling. Nieuwe miRNA’s konden echter niet nauwkeurig worden geïdentificeerd met deze bioinformatica-analyse, omdat het sterk afhankelijk was van sequentiebehoud van miRNA’s tussen nauw verwante soorten.
Dit artikel presenteert een nieuwe en volledig geautomatiseerde miRNA-pijplijn, mirMachine die 1) bekende en nieuwe miRNA’s nauwkeuriger kan identificeren (de pijplijn maakt nu bijvoorbeeld gebruik van op sRNA-seq gebaseerde nieuwe miRNA-voorspellingen en op homologie gebaseerde miRNA-identificatie) en 2) is volledig geautomatiseerd en vrij beschikbaar. De outputs omvatten ook de genomische verdelingen van de voorspelde miRNA’s. mirMachine werd getest op zowel homologie-gebaseerde als sRNA-seq-gebaseerde voorspellingen in tarwe en Arabidopsis genomen. Hoewel unafold in eerste instantie werd uitgebracht als vrije software, werd het in het laatste decennium een commerciële software. Met deze upgrade is de secundaire structuurvoorspellingstool overgeschakeld van UNAfold naar RNAfold, zodat mirMachine vrij beschikbaar kan zijn. Gebruikers kunnen nu een kort indieningsscript uitvoeren om de volledig geautomatiseerde mirMachine-pijplijn uit te voeren (voorbeelden worden gegeven op https://github.com/hbusra/mirMachine.git).
Onze miRNA-pijplijn, SUmir, is het afgelopen decennium gebruikt voor de identificatie van veel miRNA’s van planten. Hier ontwikkelden we een nieuwe, volledig geautomatiseerde en vrij beschikbare miRNA-identificatie- en annotatiepijplijn, mirMachine. Bovendien waren een aantal miRNA-identificatiepijplijnen, waaronder, maar niet beperkt tot de vorige pijplijn, afhankelijk van UNAfold-software21, die in de loop van de tijd een commerciële software werd, hoewel deze ooit vrij beschikbaar was. Deze ni…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |