Summary

De novo Identificación de marcos de lectura abiertos traducidos activamente con datos de perfil de ribosomas

Published: February 18, 2022
doi:

Summary

La traducción de ribosomas decodifica tres nucleótidos por codón en péptidos. Su movimiento a lo largo del ARNm, capturado por el perfil de ribosomas, produce las huellas que exhiben una periodicidad de triplete característica. Este protocolo describe cómo usar RiboCode para descifrar esta característica prominente a partir de los datos de perfiles de ribosomas para identificar marcos de lectura abiertos traducidos activamente a nivel de transcriptoma completo.

Abstract

La identificación de marcos de lectura abiertos (ORF), especialmente aquellos que codifican pequeños péptidos y se traducen activamente en contextos fisiológicos específicos, es fundamental para las anotaciones completas de los traducomas dependientes del contexto. El perfil de ribosomas, una técnica para detectar las ubicaciones de unión y las densidades de la traducción de ribosomas en el ARN, ofrece una vía para descubrir rápidamente dónde se produce la traducción a escala de todo el genoma. Sin embargo, no es una tarea trivial en bioinformática identificar de manera eficiente y exhaustiva los ORF de traducción para el perfil de ribosomas. Aquí se describe un paquete fácil de usar, llamado RiboCode, diseñado para buscar ORF de traducción activa de cualquier tamaño a partir de señales distorsionadas y ambiguas en datos de perfiles de ribosomas. Tomando nuestro conjunto de datos publicado anteriormente como ejemplo, este artículo proporciona instrucciones paso a paso para toda la canalización de RiboCode, desde el preprocesamiento de los datos sin procesar hasta la interpretación de los archivos de resultados de salida final. Además, para evaluar las tasas de traducción de los ORF anotados, también se describen en detalle los procedimientos para la visualización y cuantificación de las densidades de ribosomas en cada ORF. En resumen, el presente artículo es una instrucción útil y oportuna para los campos de investigación relacionados con la traducción, los ORF pequeños y los péptidos.

Introduction

Recientemente, un creciente cuerpo de estudios ha revelado una producción generalizada de péptidos traducidos de ORF de genes codificantes y los genes previamente anotados como no codificantes, como los ARN no codificantes largos (lncRNA)1,2,3,4,5,6,7,8. Estos ORF traducidos son regulados o inducidos por las células para responder a los cambios ambientales, el estrés y la diferenciación celular1,8,9,10,11,12,13. Se ha demostrado que los productos de traducción de algunos ORF desempeñan importantes funciones reguladoras en diversos procesos biológicos en desarrollo y fisiología. Por ejemplo, Chng et al.14 descubrieron una hormona peptídica llamada Elabela (Ela, también conocida como Apela/Ende/Toddler), que es crítica para el desarrollo cardiovascular. Pauli et al. sugirieron que Ela también actúa como un mitógeno que promueve la migración celular en el embrión de peces tempranos15. Magny et al. reportaron dos micropéptidos de menos de 30 aminoácidos que regulan el transporte de calcio y afectan la contracción muscular regular en el corazón de Drosophila10.

No está claro cuántos de estos péptidos están codificados por el genoma y si son biológicamente relevantes. Por lo tanto, la identificación sistemática de estos ORF potencialmente codificantes es muy deseable. Sin embargo, determinar directamente los productos de estos ORF (es decir, proteínas o péptidos) utilizando enfoques tradicionales como la conservación evolutiva16,17 y la espectrometría de masas18,19 es un desafío porque la eficiencia de detección de ambos enfoques depende de la longitud, abundancia y composición de aminoácidos de las proteínas o péptidos producidos. El advenimiento del perfil de ribosomas, una técnica para identificar la ocupación del ribosoma en los ARNm a resolución de nucleótidos, ha proporcionado una forma precisa de evaluar el potencial de codificación de diferentes transcripciones3,20,21, independientemente de su longitud y composición. Una característica importante y de uso frecuente para identificar ORF que traducen activamente utilizando perfiles de ribosomas es la periodicidad de tres nucleótidos (3-nt) de las huellas del ribosoma en el ARNm desde el codón de inicio hasta el codón de parada. Sin embargo, los datos de perfiles de ribosomas a menudo tienen varios problemas, incluidas las lecturas de secuenciación bajas y escasas a lo largo de los ORF, el alto ruido de secuenciación y las contaminaciones de ARN ribosómico (ARNr). Por lo tanto, las señales distorsionadas y ambiguas generadas por dichos datos debilitan los patrones de periodicidad de 3-nt de las huellas de los ribosomas en el ARNm, lo que en última instancia dificulta la identificación de los ORF traducidos de alta confianza.

Un paquete llamado “RiboCode” adaptó una prueba modificada de rango firmado por Wilcoxon y una estrategia de integración de valor P para examinar si el ORF tiene significativamente más fragmentos protegidos por ribosomas (RPF) en el marco que los RPF fuera del marco22. Se demostró que es altamente eficiente, sensible y preciso para la anotación de novo del traducoma en datos de perfiles de ribosomas simulados y reales. Aquí, describimos cómo usar esta herramienta para detectar el potencial de traducción de ORFs de los conjuntos de datos de secuenciación de perfiles de ribosomas en bruto generados por el estudio anterior23. Estos conjuntos de datos se habían utilizado para explorar la función de la subunidad EIF3 “E” (EIF3E) en la traducción mediante la comparación de los perfiles de ocupación de ribosomas de células MCF-10A transfectadas con ARN de control (si-Ctrl) y EIF3E (si-eIF3e) de interferencia pequeña (siRNAs). Al aplicar RiboCode a estos conjuntos de datos de ejemplo, detectamos 5.633 nuevos ORF que potencialmente codifican pequeños péptidos o proteínas. Estos ORF se clasificaron en varios tipos en función de sus ubicaciones en relación con las regiones codificantes, incluidos los ORF aguas arriba (uORF), los ORF aguas abajo (dORF), los ORF superpuestos, los ORF de nuevos genes codificantes de proteínas (nuevos PCG) y los ORF de nuevos genes no codificantes de proteínas (nuevos nonPCG). Las densidades de lectura de FPR en los uORF aumentaron significativamente en las células deficientes en EIF3E en comparación con las células de control, lo que podría ser causado al menos parcialmente por el enriquecimiento de ribosomas que traducen activamente. La acumulación localizada de ribosomas en la región del codón 25 al 75 de células deficientes en EIF3E indicó un bloqueo de la elongación de la traducción en la etapa temprana. Este protocolo también muestra cómo visualizar la densidad de RPF de la región deseada para examinar los patrones de periodicidad de 3 nt de huellas de ribosomas en ORF identificados. Estos análisis demuestran el poderoso papel de RiboCode en la identificación de ORF de traducción y el estudio de la regulación de la traducción.

Protocol

1. Configuración del entorno e instalación de RiboCode Abra una ventana de terminal Linux y cree un entorno conda:conda create -n RiboCode python=3.8 Cambie al entorno creado e instale RiboCode y dependencias:conda activar RiboCodeconda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools 2. Preparación de datos Obtener archivos de referencia del geno…

Representative Results

Los conjuntos de datos de perfiles de ribosomas de ejemplo se depositaron en la base de datos GEO con el número de acceso GSE131074. Todos los archivos y códigos utilizados en este protocolo están disponibles en los archivos complementarios 1-4. Mediante la aplicación de RiboCode a un conjunto de conjuntos de datos de perfiles de ribosomas publicados23, identificamos los nuevos ORF traducidos activamente en células MCF-10A tratadas con siRNAs…

Discussion

El perfil de ribosomas ofrece una oportunidad sin precedentes para estudiar la acción de los ribosomas en las células a escala genómica. Descifrar con precisión la información transportada por los datos de perfiles de ribosomas podría proporcionar información sobre qué regiones de genes o transcripciones se están traduciendo activamente. Este protocolo paso a paso proporciona orientación sobre cómo usar RiboCode para analizar los datos de perfiles de ribosomas en detalle, incluida la instalación de paquetes, …

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Los autores desean agradecer el apoyo de los recursos computacionales proporcionados por la plataforma HPCC de la Universidad Xi’an Jiaotong. Z.X. agradece al Plan de Apoyo al Talento Joven de Primera Categoría de la Universidad Xi’an Jiaotong.

Materials

A computer/server running Linux Any
Anaconda or Miniconda Anaconda Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation https://www.r-project.org/
Rstudio Rstudio https://www.rstudio.com/

Riferimenti

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5′ UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. . AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
  25. . Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
  26. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  27. . STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
  28. . The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
  29. . RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
  30. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  31. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  32. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  33. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  34. . RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
  35. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).
check_url/it/63366?article_type=t

Play Video

Citazione di questo articolo
Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

View Video