Summary

De novo Identification de cadres de lecture ouverts activement traduits avec des données de profilage de ribosomes

Published: February 18, 2022
doi:

Summary

La traduction des ribosomes décode trois nucléotides par codon en peptides. Leur mouvement le long de l’ARNm, capturé par profilage des ribosomes, produit les empreintes présentant une périodicité caractéristique du triplet. Ce protocole décrit comment utiliser RiboCode pour déchiffrer cette caractéristique importante à partir des données de profilage des ribosomes afin d’identifier les cadres de lecture ouverts activement traduits au niveau du transcriptome entier.

Abstract

L’identification des cadres de lecture ouverts (ORF), en particulier ceux codant de petits peptides et étant activement traduits dans des contextes physiologiques spécifiques, est essentielle pour des annotations complètes de translatomes dépendants du contexte. Le profilage des ribosomes, une technique permettant de détecter les emplacements de liaison et les densités de traduction des ribosomes sur l’ARN, offre un moyen de découvrir rapidement où la traduction se produit à l’échelle du génome. Cependant, ce n’est pas une tâche triviale en bioinformatique d’identifier efficacement et de manière exhaustive les ORF de traduction pour le profilage des ribosomes. Décrit ici est un paquet facile à utiliser, nommé RiboCode, conçu pour rechercher la traduction active d’ORF de toute taille à partir de signaux déformés et ambigus dans les données de profilage des ribosomes. En prenant notre jeu de données précédemment publié comme exemple, cet article fournit des instructions étape par étape pour l’ensemble du pipeline RiboCode, du prétraitement des données brutes à l’interprétation des fichiers de résultats de sortie finaux. En outre, pour évaluer les taux de traduction des ORF annotés, les procédures de visualisation et de quantification des densités de ribosomes sur chaque ORF sont également décrites en détail. En résumé, le présent article est une instruction utile et opportune pour les domaines de recherche liés à la traduction, aux petits ORF et aux peptides.

Introduction

Récemment, un nombre croissant d’études a révélé une production généralisée de peptides traduits à partir d’ORF de gènes codants et des gènes précédemment annotés comme non codants, tels que les ARN longs non codants (LNCRNA)1,2,3,4,5,6,7,8. Ces ORF traduits sont régulés ou induits par les cellules pour répondre aux changements environnementaux, au stress et à la différenciation cellulaire1,8,9,10,11,12,13. Il a été démontré que les produits de traduction de certains ORF jouent un rôle réglementaire important dans divers processus biologiques de développement et de physiologie. Par exemple, Chng et al.14 ont découvert une hormone peptidique nommée Elabela (Ela, également connue sous le nom d’Apela / Ende / Toddler), qui est essentielle au développement cardiovasculaire. Pauli et al. ont suggéré qu’Ela agit également comme un mitogène qui favorise la migration cellulaire dans l’embryon de poisson précoce15. Magny et al. ont rapporté deux micropeptides de moins de 30 acides aminés régulant le transport du calcium et affectant la contraction musculaire régulière dans le cœur de la drosophile10.

On ne sait toujours pas combien de ces peptides sont codés par le génome et s’ils sont biologiquement pertinents. Par conséquent, l’identification systématique de ces ORF potentiellement codants est hautement souhaitable. Cependant, il est difficile de déterminer directement les produits de ces ORF (c.-à-d. protéines ou peptides) à l’aide d’approches traditionnelles telles que la conservation évolutive16,17 et la spectrométrie de masse18,19, car l’efficacité de détection des deux approches dépend de la longueur, de l’abondance et de la composition en acides aminés des protéines ou des peptides produits. L’avènement du profilage des ribosomes, une technique permettant d’identifier l’occupation des ribosomes sur les ARNm à résolution nucléotidique, a fourni un moyen précis d’évaluer le potentiel codant de différents transcripts3,20,21, indépendamment de leur longueur et de leur composition. Une caractéristique importante et fréquemment utilisée pour identifier la traduction active des ORF à l’aide du profilage des ribosomes est la périodicité à trois nucléotides (3-nt) des empreintes du ribosome sur l’ARNm, du codon de départ au codon d’arrêt. Cependant, les données de profilage des ribosomes présentent souvent plusieurs problèmes, notamment des lectures de séquençage faibles et clairsemées le long des ORF, un bruit de séquençage élevé et des contaminations par l’ARN ribosomique (ARNr). Ainsi, les signaux déformés et ambigus générés par de telles données affaiblissent les modèles de périodicité 3-nt des empreintes des ribosomes sur l’ARNm, ce qui rend finalement difficile l’identification des ORF traduits à haut degré de confiance.

Un package nommé « RiboCode » a adapté un test de rang signé Wilcoxon modifié et une stratégie d’intégration de la valeur P pour examiner si l’ORF a significativement plus de fragments protégés par ribosomes (RPF) dans le cadre que les RPF hors cadre22. Il a été démontré qu’il était très efficace, sensible et précis pour l’annotation de novo du translatome dans des données de profilage de ribosomes simulées et réelles. Ici, nous décrivons comment utiliser cet outil pour détecter les ORF de traduction potentiels à partir des ensembles de données de séquençage de profilage de ribosomes bruts générés par l’étude précédente23. Ces ensembles de données avaient été utilisés pour explorer la fonction de la sous-unité EIF3 « E » (EIF3E) en traduction en comparant les profils d’occupation des ribosomes des cellules MCF-10A transfectées avec des ARN témoins (si-Ctrl) et EIF3E (si-eIF3e) à faible interférence (siARN). En appliquant RiboCode à ces exemples d’ensembles de données, nous avons détecté 5 633 nouveaux ORF codant potentiellement de petits peptides ou protéines. Ces ORF ont été classés en différents types en fonction de leur emplacement par rapport aux régions codantes, y compris les ORF en amont (uORF), les ORF en aval (dORF), les ORF superposés, les ORF provenant de nouveaux gènes codant pour les protéines (nouveaux PCG) et les ORF de nouveaux gènes non codant pour les protéines (nouveaux nonCPC). Les densités de lecture du FPR sur les uORF ont été significativement augmentées dans les cellules déficientes en EIF3E par rapport aux cellules témoins, ce qui pourrait être au moins partiellement causé par l’enrichissement des ribosomes à traduction active. L’accumulation localisée de ribosomes dans la région du 25e au 75e codon de cellules déficientes en EIF3E indiquait un blocage de l’allongement de la traduction au stade précoce. Ce protocole montre également comment visualiser la densité RPF de la région souhaitée pour examiner les modèles de périodicité 3-nt des empreintes de ribosomes sur les ORF identifiés. Ces analyses démontrent le rôle puissant de RiboCode dans l’identification de la traduction des ORF et l’étude de la régulation de la traduction.

Protocol

1. Configuration de l’environnement et installation de RiboCode Ouvrez une fenêtre de terminal Linux et créez un environnement conda :conda create -n RiboCode python=3.8 Basculez vers l’environnement créé et installez RiboCode et les dépendances :conda activer RiboCodeconda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt nœud papillon étoile samtools 2. Préparation des données<…

Representative Results

Les exemples d’ensembles de données de profilage de ribosomes ont été déposés dans la base de données GEO sous le numéro d’acquisition GSE131074. Tous les fichiers et codes utilisés dans ce protocole sont disponibles à partir des fichiers supplémentaires 1 à 4. En appliquant RiboCode à un ensemble de données publiées sur le profilage des ribosomes23, nous avons identifié les nouveaux ORF activement traduits dans les cellules MCF…

Discussion

Le profilage des ribosomes offre une occasion sans précédent d’étudier l’action des ribosomes dans les cellules à l’échelle du génome. Déchiffrer précisément les informations véhiculées par les données de profilage des ribosomes pourrait donner un aperçu des régions de gènes ou de transcriptions qui se traduisent activement. Ce protocole étape par étape fournit des conseils sur la façon d’utiliser RiboCode pour analyser en détail les données de profilage des ribosomes, y compris l’installati…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Les auteurs tiennent à souligner le soutien des ressources informatiques fournies par la plate-forme HPCC de l’Université Xi’an Jiaotong. Z.X. remercie chaleureusement le Young Topnotch Talent Support Plan de l’Université Xi’an Jiaotong.

Materials

A computer/server running Linux Any
Anaconda or Miniconda Anaconda Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation https://www.r-project.org/
Rstudio Rstudio https://www.rstudio.com/

Riferimenti

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5′ UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. . AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
  25. . Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
  26. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  27. . STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
  28. . The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
  29. . RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
  30. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  31. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  32. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  33. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  34. . RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
  35. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Play Video

Citazione di questo articolo
Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

View Video