A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants

Ying Wang; Zheng Kuang; Lei Li; Xiaozeng Yang

doi:10.3791/59864

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

Un gasoducto de bioinformática para analizar de forma precisa y eficiente los transcriptomes de microRNA en las plantas

Published: January 21, 2020

doi:

10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li, Xiaozeng Yang

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center,Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences,Peking University

Summary

Una canalización bioinformática, a saber, miRDeep-P2 (miRDP2 para abreviar), con criterios de miRNA de plantas actualizados y un algoritmo revisado, podría analizar con precisión y eficiencia transcriptometrías de microARN en plantas, especialmente para especies con genomas complejos y grandes.

Abstract

Los MicroRNAs (miRNAs) son pequeños ARN endógenos (sARN) de 20 a 24 nucleótidos (nt) que existen ampliamente en plantas y animales que desempeñan un papel potente en la regulación de la expresión génica a nivel post-transcripción. La secuenciación de bibliotecas de ARNS mediante métodos de secuenciación de próxima generación (NGS) se ha empleado ampliamente para identificar y analizar transcriptomías de miRNA en la última década, lo que ha dado lugar a un rápido aumento del descubrimiento de miRNA. Sin embargo, surgen dos grandes desafíos en la anotación de miRNA vegetal debido a la creciente profundidad de las bibliotecas de ARNS secuenciados, así como al tamaño y la complejidad de los genomas de las plantas. En primer lugar, muchos otros tipos de ARN, en particular, ARN de interferencia corta (siRNAs) de bibliotecas de SRNA, son erróneamente anotados como miRNAs por muchas herramientas computacionales. En segundo lugar, se convierte en un proceso extremadamente lento para analizar transcriptomes de miRNA en especies vegetales con genomas grandes y complejos. Para superar estos desafíos, recientemente actualizamos miRDeep-P (una herramienta popular para los análisis de transcriptoma de miRNA) a miRDeep-P2 (miRDP2 para abreviar) empleando una nueva estrategia de filtrado, revisando el algoritmo de puntuación e incorporando miRNA de planta recién actualizado criterios de anotación. Probamos miRDP2 contra poblaciones de ARNS secuenciados en cinco plantas representativas con creciente complejidad genómica, incluyendo Arabidopsis, arroz, tomate, maíz y trigo. Los resultados indican que miRDP2 procesó estas tareas con muy alta eficiencia. Además, miRDP2 superó a otras herramientas de predicción con respecto a la sensibilidad y precisión. En conjunto, nuestros resultados demuestran miRDP2 como una herramienta rápida y precisa para analizar los transcriptomes de miRNA de plantas, por lo tanto, una herramienta útil para ayudar a la comunidad a anotar mejor los miRNAs en las plantas.

Introduction

Uno de los descubrimientos más emocionantes de las últimas dos décadas en biología es el papel proliferante de las especies de ARNS en la regulación de diversas funciones del genoma¹. En particular, los miRNAs constituyen una clase importante de ARN de 20 a 24 nt en eucariotas, y funcionan principalmente a nivel post-transcripcional como reguladores genéticos prominentes a lo largo de las etapas de desarrollo del ciclo de vida, así como en respuestas de estímulo y estrés^2,³. En las plantas, los miRNAs surgen de transcripciones primarias llamadas pri-miRNAs, que generalmente son transcritas por ARN polimerasa II como unidades de transcripción individuales⁴^,⁵. Procesados por maquinaria celular evolutivamente conservada (Drosha RNase III en animales, como DICER en plantas), los pri-miRNAs se extirpan en los precursores inmediatos del miRNA, pre-miRNAs, que contienen secuencias que forman estructuras de bucle de tallo intramolecular⁶^,⁷. Los pre-miRNA se procesan en intermedios de doble cadena, a saber, dúplex de miRNA, que consisten en la hebra funcional, miRNA maduro y el socio menos frecuentemente funcional, miRNA*²^,⁸. Después de cargarlos en el complejo de silenciamiento inducido por ARN (RISC), los miRNAs maduros podrían reconocer sus objetivos de ARNm en función de la complementariedad de la secuencia, lo que dio lugar a una función reguladora negativa²^,⁸. los miRNAs podrían desestabilizar sus transcripciones objetivo o impedir la traducción de objetivos, pero la forma anterior está dominada en las plantas^8,^9.

Desde el descubrimiento fortuito del primer miRNA en el nematodo Caenorhabditis elegans¹⁰^,¹¹, se ha investigado mucho con la identificación de miRNA y su análisis funcional, especialmente después de la disponibilidad del método NGS. La amplia aplicación del método NGS ha promovido en gran medida la utilización de herramientas computacionales que fueron diseñadas para capturar la característica única de los miRNAs, como la estructura de bucle de vástago de precursores y su acumulación preferencial de lecturas de secuencia en miRNA maduro y miRNA*. Como resultado, los investigadores han logrado un éxito notable en la identificación de miRNAs en diversas especies. Basándonos en un modelo de probabilidad¹²descrito anteriormente, desarrollamos miRDeep-P¹³, que fue la primera herramienta computacional para descubrir miRNAs de plantas a partir de datos NGS. miRDeep-P estaba específicamente dirigido a la conquista de los desafíos de la decodificación de miRNAs vegetales con longitud precursora más variable y grandes familias paralocitas^13,¹⁴^,^15. Después de su lanzamiento, este programa ha sido descargado miles de veces y utilizado para anotar transcriptomes de miRNA en más de 40 especies de plantas^16. Propulsado por herramientas basadas en NGS como miRDeep-P, se ha producido un aumento espectacular en el número de miRNAs registrados en el repositorio público miRNA^{miRBase 17,}donde actualmente se alojan más de 38.000 elementos de miRNA (versión 22.1) en comparación con sólo 500 elementos de miRNA (versión 2.0) en 2008¹⁸.

Sin embargo, han surgido dos nuevos desafíos a partir de la anotación del miRNA vegetal. En primer lugar, las altas proporciones de falsos positivos han afectado en gran medida la calidad de las anotaciones de miRNA vegetal¹⁶^,¹⁹ por las siguientes razones: 1) un diluvio de ARN (ARN) de interferencia corta endógena (SIRNAs) de las bibliotecas de ARNS de NGS fueron erróneamente anotados como miRNAs debido a la falta de un criterio de anotación de miRNA estricto; 2) para las especies sin información de miRNA a priori, los falsos positivos previstos sobre la base de los datos de NGS son difíciles de eliminar. Utilizando miRBase como ejemplo, Taylor y^{otros 20} encontraron que un tercio de las entradas de miRNA de plantas en el repositorio público²¹ (versión 21) carecían de pruebas de apoyo convincentes e incluso tres cuartas partes de las familias de miRNA de plantas eran cuestionables. En segundo lugar, se convierte en un proceso extremadamente lento para predecir miRNAs vegetales con genomas grandes y complejos^16. Para superar estos desafíos, actualizamos miRDeep-P agregando una nueva estrategia de filtrado, revisando el algoritmo de puntuación e integrando nuevos criterios para la anotación de miRNA de planta, y lanzamos la nueva versión miRDP2. Además, probamos miRDP2 utilizando conjuntos de datos de ARN NGS con tamaños de genoma sin aumento gradual: Arabidopsis, arroz, tomate, maíz y trigo. En comparación con otras cinco herramientas ampliamente utilizadas y su versión antigua, miRDP2 analizó estos datos de ARNS y analizó los transcriptomas de miRNA más rápido con una precisión y sensibilidad mejoradas.

Contenido del paquete miRDP2
El paquete miRDP2 consta de seis scripts Perl documentados que el script bash preparado debe ejecutar secuencialmente. De los seis scripts, tres (convert_bowtie_to_blast.pl, filter_alignments.ply excise_candidate.pl) se heredan de miRDeep-P. Los otros scripts se modifican de la versión original. Las funciones de los seis scripts se describen a continuación:

preprocess_reads.pl filtra las lecturas de entrada, incluidas las lecturas demasiado largas o demasiado cortas (25 nt), y lee correlacionadas con secuencias de Rfam ncRNA, así como lecturas con RPM (lecturas por millón) inferiores a 5. A continuación, el script recupera las lecturas correlacionadas con secuencias maduras de miRNA conocidas. Los archivos de entrada son lecturas originales en formato FASTA/FASTQ y salida bowtie2 de asignaciones de lecturas a secuencias miRNA y ncRNA.

La fórmula para calcular RPM es la siguiente:

convert_bowtie_to_blast.pl cambia el formato bowtie al formato BLAST-parsed. El formato analizado por BLAST es un formato separado por tabular personalizado derivado del formato NCBI BLASToutput estándar.

filter_alignments.pl filtra las alineaciones de las lecturas de secuenciación profunda a un genoma. Filtra las alineaciones parciales, así como las lecturas multialineadas (corte de frecuencia especificado por el usuario). La entrada básica es un archivo en formato BLAST-parsed.

excise_candidate.pl elimina las posibles secuencias precursoras de una secuencia de referencia utilizando lecturas alineadas como directrices. La entrada básica es un archivo en formato BLAST-parsed y un archivo FASTA. La salida es todas las secuencias precursoras potenciales en formato FASTA.

mod-miRDP.pl necesita dos archivos de entrada, archivo de firma y archivo de estructura, que se modifica desde el algoritmo de miRDeep-P principal cambiando el sistema de puntuación con parámetros específicos de la planta. Los archivos de entrada son un archivo de estructura precursor de corchete de punto y lee el archivo de firma de distribución.

mod-rm_redundant_meet_plant.pl necesita tres archivos de entrada: chromosome_length, precursores y original_prediction generados por mod-miRDP.pl. Genera dos archivos de salida, el archivo predicho no redundante y el archivo predicho filtrado por los criterios de miRNA de planta recién actualizados. Los detalles sobre el formato del archivo de salida se describen en la sección 1.4.

Protocol

1. Instalación y pruebas Descargue las dependencias requeridas: Bowtie222 y RNAfold23. Se recomiendan los paquetes compilados. Descarga Bowtie2, una herramienta de mapeo de lectura, desde su sitio de origen (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml). Descargar RNAfold, una herramienta del paquete de Viena utilizada para predecir la estructura secund…

Representative Results

El oleoducto de anotación miRNA, miRDP2, descrito en el presente documento se aplica a 10 bibliotecas públicas de SRNA-seq de 5 especies de plantas con aumento gradual de la longitud del genoma, incluyendo Arabidopsis thaliana, Oryza sativa (arroz), Solanum lycopersicum (tomate), Zea mays (maíz) y Triticum aestivum (trigo)(Figura 1A). En general, para cada especie, 2 bibliotecas de ARNs representativos de diferentes tejidos (co…

Discussion

Con la llegada de NGS, se ha identificado un gran número de loci de miRNA a partir de una cantidad cada vez mayor de datos de secuenciación de ARNS en diversas especies^29,^30. En la base de datos de la comunidad centralizada miRBase²¹, los elementos de miRNA depositados han aumentado casi 100 veces en la última década. Sin embargo, en comparación con los miRNAs en animales, los miRNAs vegetales tienen muchas características únicas qu…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo ha sido apoyado por beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425 y KJCX20180204) a XY y National Natural Science Foundation of China (31621001) a LL.

Materials

Computer/computing node

N/A

Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).