Hier stellen wir eine neue und vollautomatische miRNA-Pipeline vor, mirMachine, die 1) bekannte und neuartige miRNAs genauer identifizieren kann und 2) vollautomatisch und frei verfügbar ist. Benutzer können nun ein kurzes Einreichungsskript ausführen, um die vollautomatische mirMachine-Pipeline auszuführen.
Von verschiedenen Arten von nicht-kodierenden RNAs standen microRNAs (miRNAs) in den letzten zehn Jahren wohl im Rampenlicht. Als posttranskriptionelle Regulatoren der Genexpression spielen miRNAs eine Schlüsselrolle in verschiedenen zellulären Signalwegen, einschließlich der Entwicklung und Reaktion auf a/biotischen Stress wie Dürre und Krankheiten. Qualitativ hochwertige Referenzgenomsequenzen ermöglichten die Identifizierung und Annotation von miRNAs in mehreren Pflanzenarten, bei denen miRNA-Sequenzen hochkonserviert sind. Da computergestützte miRNA-Identifikations- und Annotationsprozesse meist fehleranfällige Prozesse sind, erhöhen homologiebasierte Vorhersagen die Vorhersagegenauigkeit. Wir haben in den letzten zehn Jahren die miRNA-Annotationspipeline SUmir entwickelt und verbessert, die seitdem für mehrere Pflanzengenome verwendet wurde.
Diese Studie stellt eine vollautomatische, neue miRNA-Pipeline, mirMachine (miRNA Machine), vor, indem (i) ein zusätzlicher Filterschritt zu den Sekundärstrukturvorhersagen hinzugefügt wird, (ii) sie vollständig automatisiert wird und (iii) neue Optionen eingeführt werden, um entweder bekannte miRNA basierend auf Homologie oder neuartige miRNAs basierend auf kleinen RNA-Sequenzierungslesevorgängen unter Verwendung der vorherigen Pipeline vorherzusagen. Die neue miRNA-Pipeline, mirMachine, wurde mit The Arabidopsis Information Resource, TAIR10, der Veröffentlichung des Arabidopsis-Genoms und dem Weizenreferenzgenom v2 des International Wheat Genome Sequencing Consortium (IWGSC) getestet.
Fortschritte bei Sequenzierungstechnologien der nächsten Generation haben das Verständnis von RNA-Strukturen und regulatorischen Elementen erweitert und funktionell wichtige nicht-kodierende RNAs (ncRNAs) aufgedeckt. Unter den verschiedenen Arten von ncRNAs stellen microRNAs (miRNAs) eine grundlegende regulatorische Klasse kleiner RNAs mit einer Länge zwischen 19 und 24 Nukleotiden in Pflanzendar 1,2. Seit der Entdeckung der ersten miRNA im Fadenwurm Caenorhabditis elegans3 wurden das Vorhandensein und die Funktionen von miRNAs auch in tierischen und pflanzlichen Genomen umfassend untersucht 4,5,6. miRNAs funktionieren, indem sie mRNAs zur Spaltung oder translationalen Repression anvisieren7. Zunehmende Beweise haben auch gezeigt, dass miRNAs an einer Vielzahl biologischer Prozesse in Pflanzen beteiligt sind, einschließlich Wachstum und Entwicklung8, Selbstbiogenese9 und mehrere biotische und abiotische Stressreaktionen10.
In Pflanzen werden miRNAs zunächst aus langen primären Transkripten, sogenannten pri-miRNAs11, verarbeitet. Diese pri-miRNAs, die durch RNA-Polymerase II im Zellkern erzeugt werden, sind lange Transkripte, die eine unvollkommene Foldback-Strukturbilden 12. Die pri-miRNAs durchlaufen später einen Spaltungsprozess, um endogene einzelsträngige (ss) Haarnadelvorläufer von miRNAs, sogenannte prä-miRNAs11, herzustellen. Die prä-miRNA bildet eine Haarnadel-ähnliche Struktur, in der sich ein einzelner Strang zu einer doppelsträngigen Struktur faltet, um einen miRNA-Duplex (miRNA/miRNA*)13 herauszuschneiden. Dicer-ähnliches Protein schneidet beide Stränge des miRNA/miRNA*-Duplex, so dass 2-Nukleotid-3′-Überhänge14,15 übrig bleiben. Der miRNA-Duplex ist innerhalb des Zellkerns methyliert, was das 3′-Ende der miRNA vor Abbau und Uridylierungsaktivitätschützt 16,17. Eine Helikase wickelt den methylierten miRNA-Duplex nach dem Export ab und setzt die reife miRNA dem RNA-induzierten Silencing-Komplex (RISC) im Zytosol18 aus. Ein Strang des Duplex ist reife miRNA, die in RISC eingebaut ist, während der andere Strang, miRNA*, abgebaut wird. Der miRNA-RISC-Komplex bindet an die Zielsequenz, was entweder zum mRNA-Abbau bei vollständiger Komplementarität oder zur translationalen Repression bei partieller Komplementarität führt13.
Basierend auf den Expressions- und Biogenesemerkmalen wurden Richtlinien für die miRNA-Annotation beschrieben15,19. Mit den definierten Richtlinien entwickelten Lucas und Budak die SUmir-Pipeline, um eine homologiebasierte in silico miRNA-Identifizierung in Pflanzendurchzuführen 9. Die SUmir-Pipeline bestand aus zwei Skripten: SUmirFind und SUmirFold. SUmirFind führt Ähnlichkeitssuchen mit bekannten miRNA-Datensätzen durch das Basic Local Alignment Search Tool (BLAST) des National Center for Biotechnology Information (NCBI) mit modifizierten Parametern durch, um Treffer mit nur 2 oder weniger Diskrepanzen einzubeziehen und Verzerrungen in Richtung kürzerer Treffer zu vermeiden (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold wertet die Sekundärstruktur der mutmaßlichen miRNA-Sequenzen aus BLAST20-Ergebnissen mit UNAfold21 aus. SUmirFold unterscheidet miRNAs von kleinen interferierenden RNAs durch die Identifizierung der Eigenschaften der Haarnadelstruktur. Darüber hinaus unterscheidet es miRNAs von anderen ssRNAs wie tRNA und rRNA durch die Parameter, minimalen Faltenenergieindex > 0,67 und GC-Gehalt von 24-71%. Diese Pipeline wurde kürzlich aktualisiert, indem zwei zusätzliche Schritte hinzugefügt wurden, um (i) die Sensitivität zu erhöhen, (ii) die Annotationsgenauigkeit zu erhöhen und (iii) die genomische Verteilung der vorhergesagten miRNA-Genebereitzustellen 22. Angesichts der hohen Erhaltung pflanzlicher miRNA-Sequenzen23 wurde diese Pipeline ursprünglich für die homologiebasierte miRNA-Vorhersage entwickelt. Neuartige miRNAs konnten jedoch mit dieser bioinformatischen Analyse nicht genau identifiziert werden, da sie stark auf der Sequenzkonservierung von miRNAs zwischen eng verwandten Spezies beruhte.
Dieser Artikel stellt eine neue und vollautomatische miRNA-Pipeline vor, mirMachine, die 1) bekannte und neuartige miRNAs genauer identifizieren kann (zum Beispiel verwendet die Pipeline jetzt sRNA-seq-basierte neuartige miRNA-Vorhersagen sowie homologiebasierte miRNA-Identifizierung) und 2) vollständig automatisiert und frei verfügbar ist. Die Ergebnisse umfassten auch die genomischen Verteilungen der vorhergesagten miRNAs. mirMachine wurde sowohl für homologiebasierte als auch für sRNA-seq-basierte Vorhersagen in Weizen- und Arabidopsis-Genomen getestet. Obwohl ursprünglich als freie Software veröffentlicht, wurde UNAfold in den letzten zehn Jahren zu einer kommerziellen Software. Mit diesem Upgrade wurde das Sekundärstrukturvorhersagetool von UNAfold auf RNAfold umgestellt, so dass mirMachine frei verfügbar sein kann. Benutzer können nun ein kurzes Einreichungsskript ausführen, um die vollautomatische mirMachine-Pipeline auszuführen (Beispiele finden Sie unter https://github.com/hbusra/mirMachine.git).
Unsere miRNA-Pipeline SUmir wurde in den letzten zehn Jahren für die Identifizierung vieler pflanzlicher miRNAs verwendet. Hier haben wir eine neue, vollautomatische und frei verfügbare miRNA-Identifikations- und Annotationspipeline entwickelt, mirMachine. Darüber hinaus war eine Reihe von miRNA-Identifikationspipelines, einschließlich, aber nicht beschränkt auf die vorherige Pipeline, von der UNAfold-Software21 abhängig, die im Laufe der Zeit zu einer kommerziellen Software wurde, obwohl si…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |