Summary

mirMachine : un guichet unique pour l’annotation des miARN végétaux

Published: May 01, 2021
doi:

Summary

Ici, nous présentons un nouveau pipeline de miARN entièrement automatisé, mirMachine qui 1) peut identifier les miARN connus et nouveaux avec plus de précision et 2) est entièrement automatisé et disponible gratuitement. Les utilisateurs peuvent désormais exécuter un court script de soumission pour exécuter le pipeline mirMachine entièrement automatisé.

Abstract

Parmi les différents types d’ARN non codants, les microARN (miARN) ont sans doute été sous les projecteurs au cours de la dernière décennie. En tant que régulateurs post-transcriptionnels de l’expression génique, les miARN jouent un rôle clé dans diverses voies cellulaires, y compris le développement et la réponse au stress a/biotique, comme la sécheresse et les maladies. Le fait de disposer de séquences génomiques de référence de haute qualité a permis l’identification et l’annotation de miARN chez plusieurs espèces végétales, où les séquences de miARN sont hautement conservées. Comme les processus computationnels d’identification et d’annotation des miARN sont principalement des processus sujets aux erreurs, les prédictions basées sur l’homologie augmentent la précision de la prédiction. Nous avons développé et amélioré le pipeline d’annotation de miARN, SUmir, au cours de la dernière décennie, qui a été utilisé pour plusieurs génomes de plantes depuis lors.

Cette étude présente un nouveau pipeline de miARN entièrement automatisé, mirMachine (miRNA Machine), en (i) ajoutant une étape de filtrage supplémentaire sur les prédictions de structure secondaire, (ii) le rendant entièrement automatisé, et (iii) introduisant de nouvelles options pour prédire soit des miARN connus basés sur l’homologie, soit de nouveaux miARN basés sur de petites lectures de séquençage d’ARN utilisant le pipeline précédent. Le nouveau pipeline de miARN, mirMachine, a été testé à l’aide de la ressource d’information Arabidopsis, TAIR10, de la publication du génome d’Arabidopsis et du génome de référence du blé v2 de l’International Wheat Genome Sequencing Consortium (IWGSC).

Introduction

Les progrès des technologies de séquençage de nouvelle génération ont élargi la compréhension des structures d’ARN et des éléments régulateurs, révélant des ARN non codants (ARNnc) importants sur le plan fonctionnel. Parmi les différents types d’ARNnc, les microARN (miARN) constituent une classe régulatrice fondamentale de petits ARN d’une longueur comprise entre 19 et 24 nucléotides chez lesplantes1,2. Depuis la découverte du premier miARN chez le nématode Caenorhabditis elegans3, la présence et les fonctions des miARN ont été largement étudiées dans les génomes animaux et végétaux ainsi que 4,5,6. Les miARN fonctionnent en ciblant les ARNm pour le clivage ou la répression translationnelle7. L’accumulation de preuves a également montré que les miARN sont impliqués dans un large éventail de processus biologiques chez les plantes, y compris la croissance et le développement8, l’auto-biogenèse9 et plusieurs réponses biotiques et abiotiques au stress10.

Chez les plantes, les miARN sont initialement traités à partir de longs transcrits primaires appelés pri-miARN11. Ces pri-miARN générés par l’ARN polymérase II à l’intérieur du noyau sont de longs transcrits formant une structure repliéeimparfaite 12. Les pri-miARN subissent plus tard un processus de clivage pour produire des précurseurs endogènes en épingle à cheveux simple brin (ss) des miARN appelés pré-miARN11. Le pré-miARN forme une structure en forme d’épingle à cheveux dans laquelle un seul brin se replie en une structure double brin pour exciser un miARN duplex (miARN/miARN*)13. La protéine de type dicer coupe les deux brins du duplex miARN/miARN*, laissant 2-nucléotide 3′-surplomb14,15. Le miARN duplex est méthylé à l’intérieur du noyau, ce qui protège l’extrémité 3′ du miARN de la dégradation et de l’activité d’uridylation16,17. Une hélicase déroule le miARN méthylé duplex après l’exportation et expose le miARN mature au complexe de silençage induit par l’ARN (RISC) dans le cytosol18. Un brin du duplex est un miARN mature incorporé dans RISC, tandis que l’autre brin, miARN*, est dégradé. Le complexe miARN-RISC se lie à la séquence cible conduisant soit à la dégradation de l’ARNm en cas de complémentarité complète, soit à la répression translationnelle en cas de complémentarité partielle13.

Sur la base des caractéristiques d’expression et de biogenèse, des lignes directrices pour l’annotation des miARN ont été décrites15,19. Avec les lignes directrices définies, Lucas et Budak ont développé le pipeline SUmir pour effectuer une identification in silico miARN basée sur l’homologie dans les plantes9. Le pipeline SUmir était composé de deux scripts : SUmirFind et SUmirFold. SUmirFind effectue des recherches de similarité par rapport à des ensembles de données de miARN connus grâce au criblage de l’outil de recherche d’alignement local de base (BLAST) du National Center for Biotechnology Information (NCBI) avec des paramètres modifiés pour inclure les résultats avec seulement 2 discordances ou moins et pour éviter les biais vers des résultats plus courts (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold évalue la structure secondaire des séquences de miARN putatives à partir des résultats BLAST20 en utilisant UNAfold21. SUmirFold différencie les miARN des petits ARN interférents par l’identification des caractéristiques de la structure en épingle à cheveux. De plus, il différencie les miARN des autres ARNsr tels que l’ARNt et l’ARNr par les paramètres, l’indice d’énergie de pliage minimum > 0,67 et la teneur en GC de 24-71%. Ce pipeline a été récemment mis à jour en ajoutant deux étapes supplémentaires pour (i) augmenter la sensibilité, (ii) augmenter la précision de l’annotation et (iii) fournir la distribution génomique des gènes miARN prédits22. Compte tenu de la conservation élevée des séquences de miARN des plantes23, ce pipeline a été conçu à l’origine pour la prédiction des miARN basée sur l’homologie. Les nouveaux miARN, cependant, n’ont pas pu être identifiés avec précision avec cette analyse bioinformatique, car elle reposait fortement sur la conservation des séquences de miARN entre des espèces étroitement apparentées.

Cet article présente un nouveau pipeline de miARN entièrement automatisé, mirMachine, qui 1) peut identifier plus précisément les miARN connus et nouveaux (par exemple, le pipeline utilise maintenant de nouvelles prédictions de miARN basées sur le séquençage d’ARNS ainsi que l’identification de miARN basée sur l’homologie) et 2) est entièrement automatisé et disponible gratuitement. Les résultats ont également inclus les distributions génomiques des miARN prédits. mirMachine a été testé pour les prédictions basées sur l’homologie et sur le séquençage de l’ARNs dans les génomes du blé et d’Arabidopsis . Bien qu’initialement publié en tant que logiciel libre, UNAfold est devenu un logiciel commercial au cours de la dernière décennie. Avec cette mise à niveau, l’outil de prédiction de structure secondaire est passé de UNAfold à RNAfold afin que mirMachine puisse être disponible gratuitement. Les utilisateurs peuvent désormais exécuter un court script de soumission pour exécuter le pipeline mirMachine entièrement automatisé (des exemples sont fournis à https://github.com/hbusra/mirMachine.git).

Protocol

1. Dépendances et installation du logiciel Installez les dépendances logicielles à partir de leur site d’origine ou à l’aide de conda.Téléchargez et installez Perl, s’il n’est pas déjà installé, à partir de son site d’accueil (https://www.perl.org/get.html).REMARQUE : Les résultats représentés ont été prédits à l’aide de Perl v5.32.0. Téléchargez Blast+, un programme d’alignement, depuis son site d’accueil (https://www.ncbi.nlm.nih.gov/books/NBK279671/) …

Representative Results

Le pipeline miARN, mirMachine, décrit ci-dessus a été appliqué aux données de test pour l’évaluation rapide de la performance du pipeline. Seuls les miARN végétaux à haut niveau de confiance déposés à la miRBase v22.1 ont été examinés sur le chromosome 5A du génome RefSeq v224 du blé IWGSC. mirMachine_find a renvoyé 312 occurrences pour la liste non redondante de 189 miARN de confiance élevé avec un maximum de 1 incompatibilité autorisée (tableau 1). mirMac…

Discussion

Notre pipeline de miARN, SUmir, a été utilisé pour l’identification de nombreux miARN végétaux au cours de la dernière décennie. Ici, nous avons développé un nouveau pipeline d’identification et d’annotation de miARN entièrement automatisé et disponible gratuitement, mirMachine. En outre, un certain nombre de pipelines d’identification de miARN, y compris, mais sans s’y limiter, le pipeline précédent, dépendaient du logiciel UNAfold21, qui est devenu un logiciel commercial …

Materials

https://www.ncbi.nlm.nih.gov/books/NBK279671/ Blast+
https://github.com/hbusra/mirMachine.git mirMachine submission script
https://www.perl.org/get.html Perl
https://www.tbi.univie.ac.at/RNA/ RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)

References

  1. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  2. Budak, H., Akpinar, B. A. Plant miRNAs: biogenesis, organization and origins. Functional & Integrative Genomics. 15 (5), 523-531 (2015).
  3. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  4. Zhang, L., et al. Exogenous plant MIR168a specifically targets mammalian LDLRAP1: evidence of cross-kingdom regulation by microRNA. Cell Research. 22 (1), 107-126 (2012).
  5. Pang, K. C., Frith, M. C., Mattick, J. S. Rapid evolution of noncoding RNAs: Lack of conservation does not mean lack of function. Trends in Genetics. 22 (1), 1-5 (2006).
  6. Guleria, P., Mahajan, M., Bhardwaj, J., Yadav, S. K. Plant small RNAs: biogenesis, mode of action and their roles in abiotic stresses. Genomics, Proteomics and Bioinformatics. 9 (6), 183-199 (2011).
  7. Jones-Rhoades, M. W., Bartel, D. P., Bartel, B. MicroRNAs and their regulatory roles in plants. Annual Review of Plant Biology. 57, 19-53 (2006).
  8. Singh, A., et al. Plant small RNAs: advancement in the understanding of biogenesis and role in plant development. Planta. 248 (3), 545-558 (2018).
  9. Lucas, S. J., Budak, H. Sorting the wheat from the chaff: identifying miRNAs in genomic survey sequences of Triticum aestivum chromosome 1AL. PloS One. 7 (7), 40859 (2012).
  10. Li, S., Castillo-González, C., Yu, B., Zhang, X. The functions of plant small RNAs in development and in stress responses. Plant Journal. 90 (4), 654-670 (2017).
  11. Lee, Y., Jeon, K., Lee, J. T., Kim, S., Kim, V. N. MicroRNA maturation: Stepwise processing and subcellular localization. EMBO Journal. 21 (17), 4663-4670 (2002).
  12. Lee, Y., et al. MicroRNA genes are transcribed by RNA polymerase II. EMBO Journal. 23 (2), 4051-4060 (2004).
  13. Bartel, D. P. MicroRNAs: Genomics, biogenesis, mechanism, and function. Cell. 116 (2), 281-297 (2004).
  14. Lee, Y., et al. The nuclear RNase III Drosha initiates microRNA processing. Nature. 425 (6956), 415-419 (2003).
  15. Meyers, B. C., et al. Criteria for annotation of plant microRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  16. Sanei, M., Chen, X. Mechanisms of microRNA turnover. Current Opinion in Plant Biology. 27, 199-206 (2015).
  17. Li, J., Yang, Z., Yu, B., Liu, J., Chen, X. Methylation protects miRNAs and siRNAs from a 3′-end uridylation activity in Arabidopsis. Current Biology. 15 (16), 1501-1507 (2005).
  18. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  19. Axtell, M. J., Meyers, B. C. Revisiting criteria for plant microRNA annotation in the Era of big data. Plant Cell. 30 (2), 272-284 (2018).
  20. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  21. Markham, N. R. N., Zuker, M. UNAFold: Software for nucleic acid folding and hybridization. Methods in Molecular Biology. 453, 3-31 (2008).
  22. Alptekin, B., Akpinar, B. A., Budak, H. A comprehensive prescription for plant miRNA identification. Frontiers in Plant Science. 7, 2058 (2017).
  23. Zhang, B., Pan, X., Cannon, C. H., Cobb, G. P., Anderson, T. A. Conservation and divergence of plant microRNA genes. Plant Journal. 46 (2), 243-259 (2006).
  24. Appels, R., et al. Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science. 361 (6403), 7191 (2018).
  25. Wang, Y., Kuang, Z., Li, L., Yang, X. A bioinformatics pipeline to accurately and efficiently analyze the microRNA transcriptomes in plants. Journal of Visualized Experiments: JoVE. (155), e59864 (2020).
  26. Kozomara, A., Griffiths-Jones, S. MiRBase: Annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  27. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6 (1), 26 (2011).
  28. Wicker, T., et al. Impact of transposable elements on genome structure and evolution in bread wheat. Genome Biology. 19 (1), 103 (2018).
  29. Flavell, R. B., Bennett, M. D., Smith, J. B., Smith, D. B. Genome size and the proportion of repeated nucleotide sequence DNA in plants. Biochemical Genetics. 12 (4), 257-269 (1974).
  30. Wicker, T., et al. The repetitive landscape of the 5100 Mbp barley genome. Mobile DNA. 8, 22 (2017).
  31. Yang, Q., Ye, Q. A., Liu, Y. Mechanism of siRNA production from repetitive DNA. Genes and Development. 29 (5), 526-537 (2015).
  32. Lam, J. K. W., Chow, M. Y. T., Zhang, Y., Leung, S. W. S. siRNA versus miRNA as therapeutics for gene silencing. Molecular Therapy. Nucleic Acids. 4 (9), 252 (2015).
  33. Bartel, B. MicroRNAs directing siRNA biogenesis. Nature Structural and Molecular Biology. 12 (7), 569-571 (2005).
  34. Meng, Y., Shao, C., Wang, H., Chen, M. Are all the miRBase-registered microRNAs true? A structure- and expression-based re-examination in plants. RNA Biology. 9 (3), 249-253 (2012).
  35. Berezikov, E., et al. Evolutionary flux of canonical microRNAs and mirtrons in Drosophila. Nature Genetics. 42 (1), 6-9 (2010).
check_url/62430?article_type=t

Play Video

Cite This Article
Cagirici, H. B., Sen, T. Z., Budak, H. mirMachine: A One-Stop Shop for Plant miRNA Annotation. J. Vis. Exp. (171), e62430, doi:10.3791/62430 (2021).

View Video