Ici, nous présentons un nouveau pipeline de miARN entièrement automatisé, mirMachine qui 1) peut identifier les miARN connus et nouveaux avec plus de précision et 2) est entièrement automatisé et disponible gratuitement. Les utilisateurs peuvent désormais exécuter un court script de soumission pour exécuter le pipeline mirMachine entièrement automatisé.
Parmi les différents types d’ARN non codants, les microARN (miARN) ont sans doute été sous les projecteurs au cours de la dernière décennie. En tant que régulateurs post-transcriptionnels de l’expression génique, les miARN jouent un rôle clé dans diverses voies cellulaires, y compris le développement et la réponse au stress a/biotique, comme la sécheresse et les maladies. Le fait de disposer de séquences génomiques de référence de haute qualité a permis l’identification et l’annotation de miARN chez plusieurs espèces végétales, où les séquences de miARN sont hautement conservées. Comme les processus computationnels d’identification et d’annotation des miARN sont principalement des processus sujets aux erreurs, les prédictions basées sur l’homologie augmentent la précision de la prédiction. Nous avons développé et amélioré le pipeline d’annotation de miARN, SUmir, au cours de la dernière décennie, qui a été utilisé pour plusieurs génomes de plantes depuis lors.
Cette étude présente un nouveau pipeline de miARN entièrement automatisé, mirMachine (miRNA Machine), en (i) ajoutant une étape de filtrage supplémentaire sur les prédictions de structure secondaire, (ii) le rendant entièrement automatisé, et (iii) introduisant de nouvelles options pour prédire soit des miARN connus basés sur l’homologie, soit de nouveaux miARN basés sur de petites lectures de séquençage d’ARN utilisant le pipeline précédent. Le nouveau pipeline de miARN, mirMachine, a été testé à l’aide de la ressource d’information Arabidopsis, TAIR10, de la publication du génome d’Arabidopsis et du génome de référence du blé v2 de l’International Wheat Genome Sequencing Consortium (IWGSC).
Les progrès des technologies de séquençage de nouvelle génération ont élargi la compréhension des structures d’ARN et des éléments régulateurs, révélant des ARN non codants (ARNnc) importants sur le plan fonctionnel. Parmi les différents types d’ARNnc, les microARN (miARN) constituent une classe régulatrice fondamentale de petits ARN d’une longueur comprise entre 19 et 24 nucléotides chez lesplantes1,2. Depuis la découverte du premier miARN chez le nématode Caenorhabditis elegans3, la présence et les fonctions des miARN ont été largement étudiées dans les génomes animaux et végétaux ainsi que 4,5,6. Les miARN fonctionnent en ciblant les ARNm pour le clivage ou la répression translationnelle7. L’accumulation de preuves a également montré que les miARN sont impliqués dans un large éventail de processus biologiques chez les plantes, y compris la croissance et le développement8, l’auto-biogenèse9 et plusieurs réponses biotiques et abiotiques au stress10.
Chez les plantes, les miARN sont initialement traités à partir de longs transcrits primaires appelés pri-miARN11. Ces pri-miARN générés par l’ARN polymérase II à l’intérieur du noyau sont de longs transcrits formant une structure repliéeimparfaite 12. Les pri-miARN subissent plus tard un processus de clivage pour produire des précurseurs endogènes en épingle à cheveux simple brin (ss) des miARN appelés pré-miARN11. Le pré-miARN forme une structure en forme d’épingle à cheveux dans laquelle un seul brin se replie en une structure double brin pour exciser un miARN duplex (miARN/miARN*)13. La protéine de type dicer coupe les deux brins du duplex miARN/miARN*, laissant 2-nucléotide 3′-surplomb14,15. Le miARN duplex est méthylé à l’intérieur du noyau, ce qui protège l’extrémité 3′ du miARN de la dégradation et de l’activité d’uridylation16,17. Une hélicase déroule le miARN méthylé duplex après l’exportation et expose le miARN mature au complexe de silençage induit par l’ARN (RISC) dans le cytosol18. Un brin du duplex est un miARN mature incorporé dans RISC, tandis que l’autre brin, miARN*, est dégradé. Le complexe miARN-RISC se lie à la séquence cible conduisant soit à la dégradation de l’ARNm en cas de complémentarité complète, soit à la répression translationnelle en cas de complémentarité partielle13.
Sur la base des caractéristiques d’expression et de biogenèse, des lignes directrices pour l’annotation des miARN ont été décrites15,19. Avec les lignes directrices définies, Lucas et Budak ont développé le pipeline SUmir pour effectuer une identification in silico miARN basée sur l’homologie dans les plantes9. Le pipeline SUmir était composé de deux scripts : SUmirFind et SUmirFold. SUmirFind effectue des recherches de similarité par rapport à des ensembles de données de miARN connus grâce au criblage de l’outil de recherche d’alignement local de base (BLAST) du National Center for Biotechnology Information (NCBI) avec des paramètres modifiés pour inclure les résultats avec seulement 2 discordances ou moins et pour éviter les biais vers des résultats plus courts (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold évalue la structure secondaire des séquences de miARN putatives à partir des résultats BLAST20 en utilisant UNAfold21. SUmirFold différencie les miARN des petits ARN interférents par l’identification des caractéristiques de la structure en épingle à cheveux. De plus, il différencie les miARN des autres ARNsr tels que l’ARNt et l’ARNr par les paramètres, l’indice d’énergie de pliage minimum > 0,67 et la teneur en GC de 24-71%. Ce pipeline a été récemment mis à jour en ajoutant deux étapes supplémentaires pour (i) augmenter la sensibilité, (ii) augmenter la précision de l’annotation et (iii) fournir la distribution génomique des gènes miARN prédits22. Compte tenu de la conservation élevée des séquences de miARN des plantes23, ce pipeline a été conçu à l’origine pour la prédiction des miARN basée sur l’homologie. Les nouveaux miARN, cependant, n’ont pas pu être identifiés avec précision avec cette analyse bioinformatique, car elle reposait fortement sur la conservation des séquences de miARN entre des espèces étroitement apparentées.
Cet article présente un nouveau pipeline de miARN entièrement automatisé, mirMachine, qui 1) peut identifier plus précisément les miARN connus et nouveaux (par exemple, le pipeline utilise maintenant de nouvelles prédictions de miARN basées sur le séquençage d’ARNS ainsi que l’identification de miARN basée sur l’homologie) et 2) est entièrement automatisé et disponible gratuitement. Les résultats ont également inclus les distributions génomiques des miARN prédits. mirMachine a été testé pour les prédictions basées sur l’homologie et sur le séquençage de l’ARNs dans les génomes du blé et d’Arabidopsis . Bien qu’initialement publié en tant que logiciel libre, UNAfold est devenu un logiciel commercial au cours de la dernière décennie. Avec cette mise à niveau, l’outil de prédiction de structure secondaire est passé de UNAfold à RNAfold afin que mirMachine puisse être disponible gratuitement. Les utilisateurs peuvent désormais exécuter un court script de soumission pour exécuter le pipeline mirMachine entièrement automatisé (des exemples sont fournis à https://github.com/hbusra/mirMachine.git).
Notre pipeline de miARN, SUmir, a été utilisé pour l’identification de nombreux miARN végétaux au cours de la dernière décennie. Ici, nous avons développé un nouveau pipeline d’identification et d’annotation de miARN entièrement automatisé et disponible gratuitement, mirMachine. En outre, un certain nombre de pipelines d’identification de miARN, y compris, mais sans s’y limiter, le pipeline précédent, dépendaient du logiciel UNAfold21, qui est devenu un logiciel commercial …
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |