A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants

Ying Wang; Zheng Kuang; Lei Li; Xiaozeng Yang

doi:10.3791/59864

JoVE Journal > Genetics

Genetics

Um pipeline de bioinformática para analisar com precisão e eficiência os transcriptomas de MicroRNA em plantas

Published: January 21, 2020

doi:

10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li, Xiaozeng Yang

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center,Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences,Peking University

Summary

Um pipeline de bioinformática, ou seja, miRDeep-P2 (miRDP2 para breve), com critérios de miRNA de plantas atualizados e um algoritmo revisado, poderia analisar com precisão e eficiência transcriptomas microRNA em plantas, especialmente para espécies com genomas complexos e grandes.

Abstract

MicroRNAs (miRNAs) são 20- a 24 nucleotídeos (nt) pequenos RNAs endógenos (sRNAs) extensivamente existentes em plantas e animais que desempenham papéis potentes na regulação da expressão gênica no nível pós-transcricional. Sequenciar bibliotecas de sRNA por métodos de sequenciamento de próxima geração (NGS) tem sido amplamente empregado para identificar e analisar transcriptomas miRNA na última década, resultando em um rápido aumento da descoberta de miRNA. No entanto, dois grandes desafios surgem na anotação de miRNA de plantas devido ao aumento da profundidade das bibliotecas sRNA sequenciadas, bem como o tamanho e a complexidade dos genomas das plantas. Em primeiro lugar, muitos outros tipos de sRNAs, em particular, RNAs interfantes interferindo (siRNAs) de bibliotecas sRNA, são erroneamente anotados como miRNAs por muitas ferramentas computacionais. Em segundo lugar, torna-se um processo extremamente demorado para analisar transcriptomas miRNA em espécies vegetais com genomas grandes e complexos. Para superar esses desafios, recentemente atualizamos o miRDeep-P (uma ferramenta popular para análises de transcriptoma miRNA) para miRDeep-P2 (miRDP2 para abreviação) empregando uma nova estratégia de filtragem, revisando o algoritmo de pontuação e incorporando miRNA de plantas recém-atualizado critérios de anotação. Testamos miRDP2 contra populações sequenciadas de sRNA em cinco plantas representativas com crescente complexidade genômica, incluindo arabidopse, arroz, tomate, milho e trigo. Os resultados indicam que o miRDP2 processou essas tarefas com eficiência muito alta. Além disso, miRDP2 superou outras ferramentas de previsão sobre sensibilidade e precisão. Em conjunto, nossos resultados demonstram miRDP2 como uma ferramenta rápida e precisa para analisar transcriptomas de miRNA de plantas, portanto, uma ferramenta útil para ajudar a comunidade a anotar melhor miRNAs em plantas.

Introduction

Uma das descobertas mais emocionantes nas últimas duas décadas em biologia é o papel proliferante das espécies de sRNA na regulação de diversas funções do genoma¹. Em particular, os miRNAs constituem uma classe importante de 20 a 24-nt sRNAs em eucariontes, e principalmente funcionam em nível pós-transcricional como reguladores genéticos proeminentes ao longo dos estágios de desenvolvimento do ciclo de vida, bem como em respostas de estímulo e estresse²^,³. Nas plantas, miRNAs surgem de transcrições primárias chamadas pri-miRNAs, que geralmente são transcritas pela RNA polymerase II como unidades de transcrição individuais^4,⁵. Processado sigativamente conservado máquinas celulares (Drosha RNase III em animais, DICER-like em plantas), pri-miRNAs são extirbolsados para os precursores miRNA imediatos, pré-miRNAs, que contêm seqüências que formam estruturas intra-moleculares de laço-tronco⁶^,⁷. Pré-miRNAs são então processados em intermediários duplos, ou seja, duplex miRNA, consistindo da vertente funcional, miRNA maduro, e o parceiro menos freqüentemente funcional, miRNA *²^,⁸. Depois de carregados no complexo de silenciamento induzido pelo RNA (RISC), os miRNAs maduros puderam reconhecer seus alvos mRNA com base na complementaridade da sequência, resultando em uma função regulatória negativa^2,⁸. miRNAs poderia desestabilizar suas transcrições alvo ou impedir a tradução alvo, mas a maneira anterior é dominada em plantas⁸^,⁹.

Desde a descoberta fortuita do primeiro miRNA no nematóide Caenorhabditis elegans¹⁰^,¹¹, muita pesquisa tem sido comprometida com a identificação miRNA e sua análise funcional, especialmente após a disponibilidade do método NGS. A ampla aplicação do método NGS promoveu muito a utilização de ferramentas computacionais que foram projetadas para capturar a característica única dos miRNAs, como a estrutura de precursores de stem-loop e seu acúmulo preferencial de leituras de sequências em miRNA e miRNA maduros*. Como resultado, os pesquisadores alcançaram um sucesso notável na identificação de miRNAs em diversas espécies. Com base em um modelo de probabilidade descrito anteriormente^12,desenvolvemos o miRDeep-P^13,que foi a primeira ferramenta computacional para a descoberta de miRNAs de plantas a partir de dados NGS. o miRDeep-P visava especificamente conquistar os desafios da decodificação de miRNAs de plantas com maior comprimento de precursor e grandes famílias paralogous^13,^14,^15. Após seu lançamento, este programa foi baixado milhares de vezes e usado para anotar transcriptomas miRNA em mais de 40 espécies de plantas¹⁶. Impulsionado por ferramentas baseadas em NGS como miRDeep-P, tem havido um aumento dramático no número de miRNAs registrados no miRBase repositório miRBASE¹⁷público , onde mais de 38.000 itens miRNA estão atualmente hospedados (lançamento 22,1) em comparação com apenas ~ 500 itens miRNA (lançamento 2.0) em 2008¹⁸.

No entanto, dois novos desafios surgiram a partir da anotação de miRNA de plantas. Em primeiro lugar, as elevadas proporções de falsos positivos têm impactado fortemente a qualidade das anotações de miRNA de plantas¹⁶^,¹⁹ pelas seguintes razões: 1) um dilúvio de RNAs endógenos de interferência curta (siRNAs) de bibliotecas NGS sRNA foram erroneamente anotados como miRNAs devido à falta de uma rigorosa critérios de annotação miRNA; 2) para espécies sem informações priori miRNA, os falsos positivos previstos com base em dados ngs são difíceis de eliminar. Usando miRBase como exemplo, Taylor et al.²⁰ encontraram um terço das entradas de miRNA de plantas no repositório público²¹ (lançamento 21) não tinham provas convincentes de apoio e até três quartos das famílias de miRNA de plantas eram questionáveis. Em segundo lugar, torna-se um processo extremamente demorado para prever miRNAs vegetais com genomas grandes e complexos^16. Para superar esses desafios, atualizamos o miRDeep-P adicionando uma nova estratégia de filtragem, revisando o algoritmo de pontuação e integrando novos critérios para a anotação de miRNA de plantas e lançou a nova versão miRDP2. Além disso, testamos miRDP2 usando conjuntos de dados NGS sRNA com tamanhos genômicos aumentando gradualmente: Arabidopsis, arroz, tomate, milho e trigo. Em comparação com outras cinco ferramentas amplamente utilizadas e sua versão antiga, o miRDP2 analisou esses dados de sRNA e analisou transcriomas miRNA mais rapidamente com maior precisão e sensibilidade.

Conteúdo do pacote miRDP2
O pacote miRDP2 consiste em seis scripts Perl documentados que devem ser executados sequencialmente pelo script bash preparado. Dos seis scripts, três(convert_bowtie_to_blast.pl, filter_alignments.ple excise_candidate.pl)são herdados do miRDeep-P. Os outros scripts são modificados a partir da versão original. As funções dos seis scripts são descritas no seguinte:

preprocess_reads.pl filtros de entrada lê, incluindo leituras que são muito longas ou muito curtas (25 nt), e lê correlacionado com seqüências de Rfam ncRNA, bem como lê com RPM (Lê Per Million) menos de 5. O script, em seguida, recupera lê correlacionado s sequências conhecidas miRNA maduro. Os arquivos de entrada são leituras originais em formato FASTA/FASTQ e saída bowtie2 de leituras de mapeamento para sequências de miRNA e ncRNA.

A fórmula para calcular o RPM é como a seguinte:

convert_bowtie_to_blast.pl muda o formato de gravata borboleta em formato BLAST-parsed. O formato blast-analisado é um formato separado tabular personalizado derivado do formato padrão NCBI BLASToutput.

filter_alignments.pl filtra os alinhamentos de seqüenciamento profundo lê a um genoma. Ele filtra alinhamentos parciais, bem como leituras multi-alinhadas (corte de frequência especificado pelo usuário). A entrada básica é um arquivo em formato BLAST-analisados.

excise_candidate.pl corta sequências precursoras potenciais de uma sequência de referência usando leituras alinhadas como diretrizes. A entrada básica é um arquivo em formato BLAST-analisados e um arquivo FASTA. A saída é todas as sequências precursoras potenciais no formato FASTA.

mod-miRDP.pl precisa de dois arquivos de entrada, arquivo de assinatura e arquivo de estrutura, que é modificado a partir do algoritmo miRDeep-P principal, alterando o sistema de pontuação com parâmetros específicos da planta. Os arquivos de entrada são arquivo de estrutura precursora do suporte de pontos e lê em arquivo de assinatura de distribuição.

mod-rm_redundant_meet_plant.pl precisa de três arquivos de entrada: chromosome_length, precursores e original_prediction gerados por mod-miRDP.pl. Ele gera dois arquivos de saída, arquivo previsto não redundante e arquivo previsto filtrado por critérios de miRNA de plantas recém-atualizados. Detalhes sobre o formato do arquivo de saída são descritos na seção 1.4.

Protocol

1. Instalação e testes Baixe as dependências necessárias: Bowtie222 e RNAfold23. Pacotes compilados são recomendados. Baixe Bowtie2, uma ferramenta de mapeamento de leitura, a partir de seu site de origem(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml). Baixe RNAfold, uma ferramenta do pacote de Viena usado para prever a estrutura secundária de RNA, …

Representative Results

O pipeline de anotação miRNA, miRDP2, descrito aqui é aplicado a 10 bibliotecas públicas sRNA-seq de 5 espécies de plantas com comprimento gradualmente maior do genoma, incluindo Arabidopsis thaliana, Oryza sativa (arroz), Solanum lycopersicum (tomate), Zea mays (milho) e Triticum aestivum (trigo) (Figura 1A). No geral, para cada espécie, 2 bibliotecas representativas de sRNA de diferentes tecidos (colapsadas em leituras ún…

Discussion

Com o advento do NGS, um grande número de miRNA loci foram identificados a partir de uma quantidade cada vez maior de dados de sequenciamento de sRNA em diversas espécies²⁹^,³⁰. No banco de dados da comunidade centralizada miRBase²¹, os itens de miRNA depositados aumentaram quase 100 vezes na última década. No entanto, em comparação com miRNAs em animais, os miRNAs vegetais têm muitas características únicas que tornam a identifica?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado pela Academia de Agricultura e Ciências Florestais de Pequim (KJCX201917, KJCX20180425 e KJCX20180204) para a XY e a National Natural Science Foundation of China (31621001) para ll.

Materials

Computer/computing node

N/A

Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).