Qui, presentiamo una nuova pipeline di miRNA completamente automatizzata, mirMachine che 1) può identificare i miRNA noti e nuovi in modo più accurato e 2) è completamente automatizzata e liberamente disponibile. Gli utenti possono ora eseguire un breve script di invio per eseguire la pipeline mirMachine completamente automatizzata.
Di diversi tipi di RNA non codificanti, i microRNA (miRNA) sono stati probabilmente sotto i riflettori nell’ultimo decennio. Come regolatori post-trascrizionali dell’espressione genica, i miRNA svolgono ruoli chiave in vari percorsi cellulari, tra cui sia lo sviluppo che la risposta allo stress biotico, come la siccità e le malattie. Avere sequenze genomiche di riferimento di alta qualità ha permesso l’identificazione e l’annotazione dei miRNA in diverse specie di piante, dove le sequenze di miRNA sono altamente conservate. Poiché i processi di identificazione e annotazione dei miRNA computazionali sono per lo più processi soggetti a errori, le previsioni basate sull’omologia aumentano l’accuratezza della previsione. Abbiamo sviluppato e migliorato la pipeline di annotazione dei miRNA, SUmir, nell’ultimo decennio, che è stata utilizzata per diversi genomi vegetali da allora.
Questo studio presenta una nuova pipeline di miRNA completamente automatizzata, mirMachine (miRNA Machine), (i) aggiungendo un ulteriore passo di filtraggio sulle previsioni della struttura secondaria, (ii) rendendolo completamente automatizzato e (iii) introducendo nuove opzioni per prevedere miRNA noti basati sull’omologia o nuovi miRNA basati su piccole letture di sequenziamento dell’RNA utilizzando la pipeline precedente. La nuova pipeline di miRNA, mirMachine, è stata testata utilizzando The Arabidopsis Information Resource, TAIR10, rilascio del genoma di Arabidopsis e il genoma di riferimento del grano v2 dell’International Wheat Genome Sequencing Consortium (IWGSC).
I progressi nelle tecnologie di sequenziamento di prossima generazione hanno ampliato la comprensione delle strutture dell’RNA e degli elementi regolatori, rivelando RNA non codificanti (ncRNA) funzionalmente importanti. Tra i diversi tipi di ncRNA, i microRNA (miRNA) costituiscono una classe regolatrice fondamentale di piccoli RNA con una lunghezza compresa tra 19 e 24 nucleotidi nelle piante 1,2. Dalla scoperta del primo miRNA nel nematode Caenorhabditis elegans3, la presenza e le funzioni dei miRNA sono state ampiamente studiate anche nei genomi animali e vegetali 4,5,6. I miRNA funzionano prendendo di mira gli mRNA per la scissione o la repressione traslazionale7. Prove crescenti hanno anche dimostrato che i miRNA sono coinvolti in una vasta gamma di processi biologici nelle piante, tra cui crescita e sviluppo8, autobiogenesi9 e diverse risposte allo stress biotico e abiotico10.
Nelle piante, i miRNA vengono inizialmente elaborati da lunghi trascritti primari chiamati pri-miRNA11. Questi pri-miRNA generati dalla RNA polimerasi II all’interno del nucleo sono lunghi trascritti che formano una struttura di ripiegamento imperfetta12. I pri-miRNA subiscono successivamente un processo di scissione per produrre precursori endogeni a forcina a singolo filamento (ss) di miRNA chiamati pre-miRNA11. Il pre-miRNA forma una struttura simile a una forcina in cui un singolo filamento si piega in una struttura a doppio filamento per asportare un duplex di miRNA (miRNA / miRNA *)13. La proteina dicer-like taglia entrambi i filamenti del duplex miRNA/miRNA*, lasciando 2-nucleotide 3′-oversporgenze14,15. Il duplex del miRNA è metilato all’interno del nucleo, che protegge l’estremità 3′ del miRNA dalla degradazione e dall’attività di uridilazione16,17. Un’elicasi svolge il duplex di miRNA metilato dopo l’esportazione ed espone il miRNA maturo al complesso di silenziamento indotto da RNA (RISC) nel citosol18. Un filamento del duplex è costituito da miRNA maturi incorporati in RISC, mentre l’altro filamento, miRNA*, è degradato. Il complesso miRNA-RISC si lega alla sequenza bersaglio portando alla degradazione dell’mRNA in caso di piena complementarità o alla repressione traslazionale in caso di complementarità parziale13.
Sulla base delle caratteristiche di espressione e biogenesi, sono state descritte le linee guida per l’annotazione dei miRNA15,19. Con le linee guida definite, Lucas e Budak hanno sviluppato la pipeline SUmir per eseguire un’identificazione basata sull’omologia in silico dei miRNA nelle piante9. La pipeline SUmir era composta da due script: SUmirFind e SUmirFold. SUmirFind esegue ricerche di somiglianza con set di dati miRNA noti attraverso lo screening BLAST (Basic Local Alignment Search) del National Center for Biotechnology Information (NCBI) con parametri modificati per includere hit con solo 2 o meno disallineamenti ed evitare pregiudizi verso hit più brevi (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold valuta la struttura secondaria delle sequenze di miRNA putativi dai risultati di BLAST20 utilizzando UNAfold21. SUmirFold differenzia i miRNA dai piccoli RNA interferenti identificando le caratteristiche della struttura della forcina. Inoltre, differenzia i miRNA da altri ssRNA come tRNA e rRNA in base ai parametri, all’indice minimo di energia di piegatura > 0,67 e al contenuto di GC del 24-71%. Questa pipeline è stata recentemente aggiornata aggiungendo due passaggi aggiuntivi per (i) aumentare la sensibilità, (ii) aumentare l’accuratezza delle annotazioni e (iii) fornire la distribuzione genomica dei geni miRNA previsti22. Data l’elevata conservazione delle sequenze di miRNA vegetali23, questa pipeline è stata originariamente progettata per la previsione dei miRNA basata sull’omologia. I nuovi miRNA, tuttavia, non potevano essere identificati con precisione con questa analisi bioinformatica poiché si basava fortemente sulla conservazione della sequenza dei miRNA tra specie strettamente correlate.
Questo articolo presenta una nuova pipeline di miRNA completamente automatizzata, mirMachine che 1) può identificare i miRNA noti e nuovi in modo più accurato (ad esempio, la pipeline ora utilizza nuove previsioni di miRNA basate su sRNA e identificazione di miRNA basata sull’omologia) e 2) è completamente automatizzata e liberamente disponibile. I risultati hanno incluso anche le distribuzioni genomiche dei miRNA previsti. mirMachine è stato testato sia per le previsioni basate sull’omologia che su quelle basate su sRNA-seq nei genomi del grano e dell’Arabidopsis . Sebbene inizialmente rilasciato come software libero, UNAfold è diventato un software commerciale nell’ultimo decennio. Con questo aggiornamento, lo strumento di previsione della struttura secondaria è stato commutato da UNAfold a RNAfold in modo che mirMachine possa essere liberamente disponibile. Gli utenti possono ora eseguire un breve script di invio per eseguire la pipeline mirMachine completamente automatizzata (esempi sono forniti in https://github.com/hbusra/mirMachine.git).
La nostra pipeline di miRNA, SUmir, è stata utilizzata per l’identificazione di molti miRNA vegetali nell’ultimo decennio. Qui, abbiamo sviluppato una nuova pipeline di identificazione e annotazione dei miRNA completamente automatizzata e disponibile gratuitamente, mirMachine. Inoltre, un certo numero di pipeline di identificazione dei miRNA, tra cui, ma non solo, la pipeline precedente, dipendevano dal software UNAfold21, che è diventato un software commerciale nel tempo, sebbene una volta foss…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |