Häri presenterar vi en ny och helautomatisk miRNA-pipeline, mirMachine som 1) kan identifiera kända och nya miRNA mer exakt och 2) är helt automatiserad och fritt tillgänglig. Användare kan nu köra ett kort överföringsskript för att köra den helautomatiska mirMachine-pipelinen.
Av olika typer av icke-kodande RNA har mikroRNA (miRNA) utan tvekan varit i rampljuset under det senaste decenniet. Som post-transkriptionella regulatorer av genuttryck spelar miRNA nyckelroller i olika cellulära vägar, inklusive både utveckling och svar på a / biotisk stress, såsom torka och sjukdomar. Att ha högkvalitativa referensgenomsekvenser möjliggjorde identifiering och annotering av miRNA i flera växtarter, där miRNA-sekvenser är mycket bevarade. Eftersom beräknings-miRNA-identifierings- och annoteringsprocesser mestadels är felbenägna processer, ökar homologibaserade förutsägelser förutsägelsenoggrannheten. Vi utvecklade och har förbättrat miRNA-annoteringspipelinen, SUmir, under det senaste decenniet, som har använts för flera växtgenom sedan dess.
Denna studie presenterar en helt automatiserad, ny miRNA-pipeline, mirMachine (miRNA Machine), genom att (i) lägga till ytterligare ett filtreringssteg på de sekundära strukturförutsägelserna, (ii) göra den helt automatiserad och (iii) introducera nya alternativ för att förutsäga antingen känt miRNA baserat på homologi eller nya miRNA baserat på små RNA-sekvenseringsläsningar med den tidigare pipelinen. Den nya miRNA-pipelinen, mirMachine, testades med hjälp av Arabidopsis Information Resource, TAIR10, frisättning av Arabidopsis-genomet och International Wheat Genome Sequencing Consortium (IWGSC) vetereferensgenom v2.
Framsteg inom nästa generations sekvenseringsteknik har breddat förståelsen för RNA-strukturer och reglerande element och avslöjat funktionellt viktiga icke-kodande RNA (ncRNA). Bland olika typer av ncRNA utgör mikroRNA (miRNA) en grundläggande regleringsklass av små RNA med en längd mellan 19 och 24 nukleotider i växter 1,2. Sedan upptäckten av det första miRNA i nematoden Caenorhabditis elegans3 har närvaron och funktionerna hos miRNA studerats omfattande i djur- och växtgenom samt 4,5,6. miRNA fungerar genom att rikta in sig på mRNA för klyvning eller translationellt förtryck7. Ackumulerande bevis har också visat att miRNA är involverade i ett brett spektrum av biologiska processer i växter inklusive tillväxt och utveckling8, självbiogenes9 och flera biotiska och abiotiska stressreaktioner10.
I växter bearbetas miRNA initialt från långa primära transkript som kallas pri-miRNA11. Dessa pri-miRNA som genereras av RNA-polymeras II inuti kärnan är långa transkript som bildar en ofullkomlig vikningsstruktur12. Pri-miRNA genomgår senare en klyvningsprocess för att producera endogena enkelsträngade (ss) hårnålsprekursorer av miRNA som kallas pre-miRNA11. Pre-miRNA bildar en hårnålsliknande struktur där en enda sträng viks in i en dubbelsträngad struktur för att skära ut en miRNA-duplex (miRNA / miRNA *)13. Dicer-liknande protein skär båda strängarna i miRNA / miRNA * duplex och lämnar 2-nukleotid 3′-överhäng14,15. MiRNA-duplexen metyleras inuti kärnan, vilket skyddar 3′-änden av miRNA från nedbrytning och uridyleringsaktivitet16,17. Ett helicase varvar ner den metylerade miRNA-duplexen efter export och utsätter det mogna miRNA för det RNA-inducerade tystnadskomplexet (RISC) i cytosolen18. En sträng i duplexen är moget miRNA införlivat i RISC , medan den andra strängen, miRNA *, bryts ned. MiRNA-RISC-komplexet binder till målsekvensen vilket leder till antingen mRNA-nedbrytning vid full komplementaritet eller translationell repression vid partiell komplementaritet13.
Baserat på uttrycks- och biogenesfunktionerna har riktlinjer för miRNA-annotering beskrivits15,19. Med de definierade riktlinjerna utvecklade Lucas och Budak SUmir-rörledningen för att utföra en homologibaserad in silico miRNA-identifiering i växter9. SUmir-pipelinen bestod av två skript: SUmirFind och SUmirFold. SUmirFind utför likhetssökningar mot kända miRNA-dataset genom National Center for Biotechnology Information (NCBI) Basic Local Alignment Search tool (BLAST) screening med modifierade parametrar för att inkludera träffar med endast 2 eller färre felmatchningar och för att undvika partiskhet mot kortare träffar (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold utvärderar den sekundära strukturen för de förmodade miRNA-sekvenserna från BLAST20-resultat med hjälp av UNAfold21. SUmirFold skiljer miRNA från små störande RNA genom identifiering av egenskaperna hos hårnålsstrukturen. Dessutom skiljer det miRNA från andra ssRNA såsom tRNA och rRNA med parametrarna, minsta viktenergiindex > 0,67 och GC-innehåll på 24-71%. Denna pipeline har nyligen uppdaterats genom att lägga till ytterligare två steg för att (i) öka känsligheten, (ii) öka annoteringsnoggrannheten och (iii) tillhandahålla genomisk fördelning av de förutsagda miRNA-generna22. Med tanke på det höga bevarandet av växt-miRNA-sekvenser23 var denna pipeline ursprungligen utformad för homologibaserad miRNA-förutsägelse. Nya miRNA kunde dock inte identifieras exakt med denna bioinformatiska analys eftersom den starkt förlitade sig på sekvensbevarande av miRNA mellan närbesläktade arter.
Detta dokument presenterar en ny och helautomatisk miRNA-pipeline, mirMachine som 1) kan identifiera kända och nya miRNA mer exakt (till exempel använder rörledningen nu sRNA-seq-baserade nya miRNA-förutsägelser samt homologibaserad miRNA-identifiering) och 2) är helt automatiserad och fritt tillgänglig. Resultaten har också inkluderat de genomiska fördelningarna av de förutsagda miRNA: erna. mirMachine testades för både homologibaserade och sRNA-seq-baserade förutsägelser i vete- och Arabidopsis-genom . Även om UNAfold ursprungligen släpptes som fri programvara, blev UNAfold en kommersiell programvara under det senaste decenniet. Med denna uppgradering byttes det sekundära strukturförutsägelseverktyget från UNAfold till RNAfold så att mirMachine kan vara fritt tillgängligt. Användare kan nu köra ett kort överföringsskript för att köra den helautomatiska mirMachine-pipelinen (exempel finns på https://github.com/hbusra/mirMachine.git).
Vår miRNA-pipeline, SUmir, har använts för identifiering av många växt-miRNA under det senaste decenniet. Här utvecklade vi en ny, helt automatiserad och fritt tillgänglig miRNA-identifierings- och annoteringspipeline, mirMachine. Dessutom var ett antal miRNA-identifieringsrörledningar inklusive, men inte begränsat till den tidigare rörledningen, beroende av UNAfold-programvara21, som med tiden blev en kommersiell programvara, även om den en gång var fritt tillgänglig. Denna nya och h…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |