Summary

De novo Identifikation af aktivt oversatte åbne læserammer med ribosomprofileringsdata

Published: February 18, 2022
doi:

Summary

Oversættelse af ribosomer afkoder tre nukleotider pr. Codon til peptider. Deres bevægelse langs mRNA, fanget ved ribosomprofilering, producerer fodsporene, der udviser karakteristisk tripletperioditet. Denne protokol beskriver, hvordan du bruger RiboCode til at dechiffrere denne fremtrædende funktion fra ribosomprofileringsdata for at identificere aktivt oversatte åbne læserammer på hele transkriptomniveau.

Abstract

Identifikation af åbne læserammer (ORF’er), især dem, der koder for små peptider og aktivt oversættes under specifikke fysiologiske sammenhænge, er afgørende for omfattende kommentarer til kontekstafhængige translatomer. Ribosomprofilering, en teknik til påvisning af bindingssteder og tætheder ved oversættelse af ribosomer på RNA, giver en mulighed for hurtigt at opdage, hvor translation sker på genom-bred skala. Det er dog ikke en triviel opgave inden for bioinformatik effektivt og omfattende at identificere de oversættende ORF’er til ribosomprofilering. Beskrevet her er en brugervenlig pakke, der hedder RiboCode, designet til aktivt at oversætte ORF’er af enhver størrelse fra forvrængede og tvetydige signaler i ribosomprofileringsdata. Med vores tidligere offentliggjorte datasæt som et eksempel indeholder denne artikel trinvise instruktioner til hele RiboCode-pipelinen, fra forbehandling af de rå data til fortolkning af de endelige outputresultatfiler. For at evaluere oversættelseshastighederne for de kommenterede ORF’er er procedurerne for visualisering og kvantificering af ribosomtætheder på hver ORF også beskrevet detaljeret. Sammenfattende er denne artikel en nyttig og rettidig instruktion for forskningsområderne relateret til oversættelse, små ORF’er og peptider.

Introduction

For nylig har en voksende mængde undersøgelser afsløret udbredt produktion af peptider oversat fra ORF’er af kodende gener og de tidligere kommenterede gener som ikke-kodende, såsom lange ikke-kodende RNA’er (lncRNA’er)1,2,3,4,5,6,7,8. Disse oversatte ORF’er reguleres eller induceres af celler til at reagere på miljøændringer, stress og celledifferentiering1,8,9,10,11,12,13. Oversættelsesprodukterne fra nogle ORF’er har vist sig at spille vigtige regulerende roller i forskellige biologiske processer inden for udvikling og fysiologi. For eksempel opdagede Chng et al.14 et peptidhormon ved navn Elabela (Ela, også kendt som Apela / Ende / Toddler), som er kritisk for kardiovaskulær udvikling. Pauli et al. foreslog, at Ela også fungerer som et mitogen, der fremmer cellemigration i det tidlige fiskeembryo15. Magny et al. rapporterede to mikropeptider på mindre end 30 aminosyrer, der regulerer calciumtransport og påvirker regelmæssig muskelkontraktion i Drosophila-hjertet10.

Det er fortsat uklart, hvor mange sådanne peptider der er kodet af genomet, og om de er biologisk relevante. Derfor er systematisk identifikation af disse potentielt kodende ORF’er yderst ønskelig. Direkte bestemmelse af produkterne fra disse ORF’er (dvs. protein eller peptid) ved hjælp af traditionelle tilgange såsom evolutionær bevarelse16,17 og massespektrometri18,19 er imidlertid udfordrende, fordi detektionseffektiviteten af begge tilgange er afhængig af længden, overfloden og aminosyresammensætningen af de producerede proteiner eller peptider. Fremkomsten af ribosomprofilering, en teknik til identifikation af ribosombelægningen på mRNA’er ved nukleotidopløsning, har givet en præcis måde at evaluere kodningspotentialet for forskellige transkripter3,20,21, uanset deres længde og sammensætning. En vigtig og hyppigt anvendt funktion til identifikation af aktivt oversættelse af ORF’er ved hjælp af ribosomprofilering er tre-nukleotid (3-nt) periodiciteten af ribosomets fodaftryk på mRNA fra startkodonen til stopkodonen. Imidlertid har ribosomprofileringsdata ofte flere problemer, herunder lave og sparsomme sekventeringslæsninger langs ORF’er, høj sekventeringsstøj og ribosomal RNA (rRNA) forurening. Således svækker de forvrængede og tvetydige signaler, der genereres af sådanne data, 3-nt periodicitetsmønstrene for ribosomers fodaftryk på mRNA, hvilket i sidste ende gør identifikationen af de højtillidsoversatte ORF’er vanskelig.

En pakke med navnet “RiboCode” tilpassede en modificeret Wilcoxon-signed-rank test og P-værdi integrationsstrategi for at undersøge, om ORF har betydeligt flere ribosombeskyttede fragmenter (RPF’er) i rammen end off-frame RPF’er22. Det blev påvist at være yderst effektivt, følsomt og nøjagtigt for de novo-annotation af translatomet i simulerede og reelle ribosomprofileringsdata. Her beskriver vi, hvordan du bruger dette værktøj til at registrere de potentielle oversættelses-ORF’er fra de rå ribosomprofileringssekventeringsdatasæt, der blev genereret af den foregående undersøgelse23. Disse datasæt var blevet brugt til at undersøge funktionen af EIF3-underenheden “E” (EIF3E) i oversættelse ved at sammenligne ribosombelægningsprofilerne for MCF-10A-celler transfekteret med kontrol (si-Ctrl) og EIF3E (si-eIF3e) småinterfererende RNA’er (siRNA’er). Ved at anvende RiboCode på disse eksempeldatasæt opdagede vi 5.633 nye ORF’er, der potentielt koder for små peptider eller proteiner. Disse ORF’er blev kategoriseret i forskellige typer baseret på deres placering i forhold til de kodende regioner, herunder opstrøms ORF’er (uORF’er), nedstrøms ORF’er (dORF’er), overlappede ORF’er, ORF’er fra nye proteinkodende gener (nye PCG’er) og ORF’er fra nye ikke-proteinkodende gener (nye ikke-PCG’er). RPF-læsetæthederne på uORF’er blev signifikant øget i EIF3E-mangelfulde celler sammenlignet med kontrolceller, hvilket i det mindste delvist kan være forårsaget af berigelsen af aktivt oversættende ribosomer. Den lokaliserede ribosomakkumulering i regionen fra den 25. til 75. codon af EIF3E-mangelfulde celler indikerede en blokering af translationsforlængelse i det tidlige stadium. Denne protokol viser også, hvordan man visualiserer RPF-densiteten i det ønskede område til undersøgelse af 3-nt periodicitetsmønstre af ribosomfodaftryk på identificerede ORF’er. Disse analyser viser RiboCodes stærke rolle i at identificere oversættelse af ORF’er og studere reguleringen af oversættelse.

Protocol

1. Miljøopsætning og RiboCode-installation Åbn et Linux-terminalvindue, og opret et conda-miljø:conda create -n RiboCode python=3.8 Skift til det oprettede miljø, og installer RiboCode og afhængigheder:conda aktiver RiboCodeconda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools 2. Forberedelse af data Hent genomreferencefiler. For refer…

Representative Results

Eksemplet med ribosomprofileringsdatasæt blev deponeret i GEO-databasen under tiltrædelsesnummeret GSE131074. Alle de filer og koder, der bruges i denne protokol, er tilgængelige fra supplerende filer 1-4. Ved at anvende RiboCode på et sæt offentliggjorte ribosomprofileringsdatasæt23 identificerede vi de nye ORF’er, der aktivt blev oversat i MCF-10A-celler behandlet med kontrol og EIF3E-siRNA’er. For at vælge de RPF-læsninger, der…

Discussion

Ribosomprofilering giver en hidtil uset mulighed for at studere ribosomernes virkning i celler på genomskala. Præcis dechifrering af de oplysninger, der bæres af ribosomprofileringsdataene, kan give indsigt i, hvilke regioner af gener eller transkripter der aktivt oversættes. Denne trinvise protokol giver vejledning i, hvordan du bruger RiboCode til at analysere ribosomprofileringsdata i detaljer, herunder pakkeinstallation, dataforberedelse, kommandoudførelse, resultatforklaring og datavisualisering. Analyseresulta…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Forfatterne vil gerne anerkende støtten fra de beregningsmæssige ressourcer, der leveres af HPCC-platformen fra Xi’an Jiaotong University. Z.X. takker taknemmeligt Young Topnotch Talent Support Plan fra Xi’an Jiaotong University.

Materials

A computer/server running Linux Any
Anaconda or Miniconda Anaconda Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation https://www.r-project.org/
Rstudio Rstudio https://www.rstudio.com/

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5′ UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. . AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
  25. . Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
  26. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  27. . STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
  28. . The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
  29. . RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
  30. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  31. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  32. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  33. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  34. . RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
  35. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Play Video

Citer Cet Article
Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

View Video