Summary

De novo Identificazione di frame di lettura aperti tradotti attivamente con dati di profilazione dei ribosomi

Published: February 18, 2022
doi:

Summary

La traduzione dei ribosomi decodifica tre nucleotidi per codone in peptidi. Il loro movimento lungo l’mRNA, catturato dalla profilazione dei ribosomi, produce le impronte che mostrano la periodicità caratteristica della tripletta. Questo protocollo descrive come utilizzare RiboCode per decifrare questa caratteristica prominente dai dati di profilazione dei ribosomi per identificare i frame di lettura aperti tradotti attivamente a livello di trascrittoma intero.

Abstract

L’identificazione di frame di lettura aperti (ORF), in particolare quelli che codificano piccoli peptidi e che vengono tradotti attivamente in specifici contesti fisiologici, è fondamentale per annotazioni complete di translatomi dipendenti dal contesto. La profilazione dei ribosomi, una tecnica per rilevare le posizioni di legame e le densità dei ribosomi di traduzione sull’RNA, offre una strada per scoprire rapidamente dove si sta verificando la traduzione su scala genomica. Tuttavia, non è un compito banale in bioinformatica identificare in modo efficiente e completo gli ORF di traduzione per la profilazione dei ribosomi. Qui è descritto un pacchetto facile da usare, chiamato RiboCode, progettato per cercare ORF di qualsiasi dimensione che traducono attivamente da segnali distorti e ambigui nei dati di profilazione dei ribosomi. Prendendo come esempio il nostro set di dati pubblicato in precedenza, questo articolo fornisce istruzioni dettagliate per l’intera pipeline RiboCode, dalla pre-elaborazione dei dati grezzi all’interpretazione dei file dei risultati di output finale. Inoltre, per valutare i tassi di traduzione degli ORF annotati, vengono descritte in dettaglio anche le procedure per la visualizzazione e la quantificazione delle densità dei ribosomi su ciascun ORF. In sintesi, il presente articolo è un’istruzione utile e tempestiva per i campi di ricerca relativi alla traduzione, ai piccoli ORF e ai peptidi.

Introduction

Recentemente, un numero crescente di studi ha rivelato una produzione diffusa di peptidi tradotti da ORF di geni codificanti e i geni precedentemente annotati come non codificanti, come gli RNA lunghi non codificanti (lncRNA)1,2,3,4,5,6,7,8. Questi ORF tradotti sono regolati o indotti dalle cellule a rispondere ai cambiamenti ambientali, allo stress e alla differenziazione cellulare1,8,9,10,11,12,13. I prodotti di traduzione di alcuni ORF hanno dimostrato di svolgere importanti ruoli regolatori in diversi processi biologici nello sviluppo e nella fisiologia. Ad esempio, Chng et al.14 hanno scoperto un ormone peptidico chiamato Elabela (Ela, noto anche come Apela / Ende / Toddler), che è fondamentale per lo sviluppo cardiovascolare. Pauli et al. hanno suggerito che Ela agisce anche come un mitogeno che promuove la migrazione cellulare nell’embrione di pesce precoce15. Magny et al. hanno riportato due micropeptidi di meno di 30 aminoacidi che regolano il trasporto del calcio e influenzano la contrazione muscolare regolare nel cuore di Drosophila10.

Non è chiaro quanti di questi peptidi siano codificati dal genoma e se siano biologicamente rilevanti. Pertanto, l’identificazione sistematica di questi ORF potenzialmente codificanti è altamente auspicabile. Tuttavia, determinare direttamente i prodotti di questi ORF (cioè proteine o peptidi) utilizzando approcci tradizionali come la conservazione evolutiva16,17 e la spettrometria di massa18,19 è difficile perché l’efficienza di rilevamento di entrambi gli approcci dipende dalla lunghezza, dall’abbondanza e dalla composizione aminoacidica delle proteine o dei peptidi prodotti. L’avvento della profilazione dei ribosomi, una tecnica per identificare l’occupazione del ribosoma sugli mRNA a risoluzione nucleotidica, ha fornito un modo preciso per valutare il potenziale codificante di diversi trascritti3,20,21, indipendentemente dalla loro lunghezza e composizione. Una caratteristica importante e frequentemente utilizzata per identificare gli ORF che traducono attivamente utilizzando la profilazione del ribosoma è la periodicità a tre nucleotidi (3-nt) delle impronte del ribosoma sull’mRNA dal codone di partenza al codone di arresto. Tuttavia, i dati di profilazione dei ribosomi hanno spesso diversi problemi, tra cui letture di sequenziamento basse e sparse lungo orF, rumore di sequenziamento elevato e contaminazioni da RNA ribosomiale (rRNA). Pertanto, i segnali distorti e ambigui generati da tali dati indeboliscono i modelli di periodicità 3-nt delle impronte dei ribosomi sull’mRNA, il che alla fine rende difficile l’identificazione degli ORF tradotti ad alta confidenza.

Un pacchetto denominato “RiboCode” ha adattato un test Wilcoxon-signed-rank modificato e una strategia di integrazione del valore P per esaminare se l’ORF ha significativamente più frammenti protetti da ribosomi (RPF) in-frame rispetto agli RPF off-frame22. È stato dimostrato che è altamente efficiente, sensibile e accurato per l’annotazione de novo del translatome in dati di profilazione del ribosoma simulati e reali. Qui, descriviamo come utilizzare questo strumento per rilevare i potenziali ORF di traduzione dai set di dati di sequenziamento del profilo ribosomi grezzo generati dallo studio precedente23. Questi set di dati sono stati utilizzati per esplorare la funzione della subunità “E” (EIF3E) EIF3E (EIF3E) in traduzione confrontando i profili di occupazione dei ribosomi delle cellule MCF-10A trasfettate con RNA a piccola interferenza (siRNA) di controllo (si-Ctrl) e EIF3E (si-eIF3e). Applicando RiboCode a questi set di dati di esempio, abbiamo rilevato 5.633 nuovi ORF che potenzialmente codificano piccoli peptidi o proteine. Questi ORF sono stati classificati in vari tipi in base alle loro posizioni rispetto alle regioni codificanti, inclusi ORF upstream (uORF), ORF a valle (dORF), ORF sovrapposti, ORF da nuovi geni codificanti proteine (nuovi PCG) e ORF da nuovi geni non codificanti proteine (nuovi NonPCG). Le densità di lettura RPF sugli uORF sono state significativamente aumentate nelle cellule carenti di EIF3E rispetto alle cellule di controllo, il che potrebbe essere almeno parzialmente causato dall’arricchimento dei ribosomi che traducono attivamente. L’accumulo localizzato di ribosomi nella regione dal 25° al 75° codone di cellule carenti di EIF3E ha indicato un blocco dell’allungamento della traduzione nella fase iniziale. Questo protocollo mostra anche come visualizzare la densità RPF della regione desiderata per esaminare i modelli di periodicità 3-nt delle impronte di ribosomi su ORF identificati. Queste analisi dimostrano il potente ruolo di RiboCode nell’identificazione degli ORF di traduzione e nello studio della regolamentazione della traduzione.

Protocol

1. Configurazione dell’ambiente e installazione di RiboCode Apri una finestra del terminale Linux e crea un ambiente conda:conda create -n RiboCode python=3.8 Passare all’ambiente creato e installare RiboCode e le dipendenze:conda attiva RiboCodeconda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt papillon star samtools 2. Preparazione dei dati Ottieni i file di riferi…

Representative Results

I set di dati di profilazione dei ribosomi di esempio sono stati depositati nel database GEO con il numero di adesione GSE131074. Tutti i file e i codici utilizzati in questo protocollo sono disponibili nei file supplementari 1-4. Applicando RiboCode a una serie di set di dati pubblicati sul profilo dei ribosomi23, abbiamo identificato i nuovi ORF tradotti attivamente in cellule MCF-10A trattate con siRNA di controllo ed EIF3E. Per selezi…

Discussion

La profilazione dei ribosomi offre un’opportunità senza precedenti per studiare l’azione dei ribosomi nelle cellule su scala genomica. Decifrare con precisione le informazioni trasportate dai dati di profilazione del ribosoma potrebbe fornire informazioni su quali regioni di geni o trascritti si traducono attivamente. Questo protocollo dettagliato fornisce indicazioni su come utilizzare RiboCode per analizzare i dati di profilazione dei ribosomi in dettaglio, tra cui l’installazione del pacchetto, la preparazione dei da…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Gli autori vorrebbero riconoscere il supporto delle risorse computazionali fornite dalla piattaforma HPCC dell’Università di Xi’an Jiaotong. Z.X. ringrazia con gratitudine il Young Topnotch Talent Support Plan della Xi’an Jiaotong University.

Materials

A computer/server running Linux Any
Anaconda or Miniconda Anaconda Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation https://www.r-project.org/
Rstudio Rstudio https://www.rstudio.com/

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5′ UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. . AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
  25. . Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
  26. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  27. . STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
  28. . The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
  29. . RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
  30. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  31. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  32. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  33. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  34. . RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
  35. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).
check_url/63366?article_type=t

Play Video

Cite This Article
Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

View Video