Summary

De novo Identifizierung von aktiv übersetzten offenen Leserahmen mit Ribosom-Profiling-Daten

Published: February 18, 2022
doi:

Summary

Übersetzende Ribosomen dekodieren drei Nukleotide pro Codon in Peptide. Ihre Bewegung entlang der mRNA, die durch Ribosomenprofilierung erfasst wird, erzeugt die Fußabdrücke, die eine charakteristische Triplettperiodizität aufweisen. Dieses Protokoll beschreibt, wie RiboCode verwendet werden kann, um dieses herausragende Merkmal aus Ribosom-Profiling-Daten zu entschlüsseln, um aktiv übersetzte offene Leserahmen auf der Ebene des gesamten Transkriptoms zu identifizieren.

Abstract

Die Identifizierung von offenen Leserahmen (ORFs), insbesondere solcher, die für kleine Peptide kodieren und aktiv unter spezifischen physiologischen Kontexten übersetzt werden, ist entscheidend für umfassende Annotationen kontextabhängiger Translatomen. Ribosomenprofilierung, eine Technik zur Erkennung der Bindungsstellen und Dichten der Übersetzung von Ribosomen auf RNA, bietet eine Möglichkeit, schnell herauszufinden, wo die Translation auf genomweiter Ebene stattfindet. In der Bioinformatik ist es jedoch keine triviale Aufgabe, die übersetzenden ORFs für die Ribosomenprofilierung effizient und umfassend zu identifizieren. Hier wird ein einfach zu bedienendes Paket namens RiboCode beschrieben, das entwickelt wurde, um aktiv nach der Übersetzung von ORFs beliebiger Größe aus verzerrten und mehrdeutigen Signalen in Ribosomenprofilierungsdaten zu suchen. Am Beispiel unseres zuvor veröffentlichten Datensatzes bietet dieser Artikel Schritt-für-Schritt-Anleitungen für die gesamte RiboCode-Pipeline, von der Vorverarbeitung der Rohdaten bis zur Interpretation der endgültigen Ausgabeergebnisdateien. Darüber hinaus werden zur Bewertung der Translationsraten der annotierten ORFs Verfahren zur Visualisierung und Quantifizierung von Ribosomendichten auf jedem ORF detailliert beschrieben. Zusammenfassend ist der vorliegende Artikel eine nützliche und zeitgemäße Anleitung für die Forschungsbereiche Translation, kleine ORFs und Peptide.

Introduction

In jüngster Zeit hat eine wachsende Zahl von Studien eine weit verbreitete Produktion von Peptiden gezeigt, die aus ORFs kodierender Gene und den zuvor annotierten Genen als nicht kodierend übersetzt wurden, wie z.B. lange nicht-kodierende RNAs (lncRNAs) 1,2,3,4,5,6,7,8. Diese übersetzten ORFs werden von Zellen reguliert oder induziert, um auf Umweltveränderungen, Stress und Zelldifferenzierung zu reagieren1,8,9,10,11,12,13. Es hat sich gezeigt, dass die Übersetzungsprodukte einiger ORFs eine wichtige regulatorische Rolle in verschiedenen biologischen Prozessen in Entwicklung und Physiologie spielen. Zum Beispiel entdeckten Chng et al.14 ein Peptidhormon namens Elabela (Ela, auch bekannt als Apela/Ende/Toddler), das für die kardiovaskuläre Entwicklung entscheidend ist. Pauli et al. schlugen vor, dass Ela auch als Mitogen wirkt, das die Zellmigration im frühen Fischembryo fördert15. Magny et al. berichteten über zwei Mikropeptide von weniger als 30 Aminosäuren, die den Kalziumtransport regulieren und die regelmäßige Muskelkontraktion im Drosophila-Herzen beeinflussen10.

Es bleibt unklar, wie viele solcher Peptide vom Genom kodiert werden und ob sie biologisch relevant sind. Daher ist eine systematische Identifizierung dieser potenziell kodierenden ORFs sehr wünschenswert. Die direkte Bestimmung der Produkte dieser ORFs (d.h. Protein oder Peptid) mit traditionellen Ansätzen wie evolutionärer Konservierung16,17 und Massenspektrometrie18,19 ist jedoch eine Herausforderung, da die Detektionseffizienz beider Ansätze von der Länge, Häufigkeit und Aminosäurezusammensetzung der produzierten Proteine oder Peptide abhängt. Das Aufkommen der Ribosomenprofilierung, einer Technik zur Identifizierung der Ribosomenbelegung auf mRNAs bei Nukleotidauflösung, hat eine präzise Möglichkeit geschaffen, das Kodierungspotenzial verschiedener Transkripte zu bewerten3,20,21, unabhängig von ihrer Länge und Zusammensetzung. Ein wichtiges und häufig verwendetes Merkmal zur Identifizierung aktiv übersetzender ORFs mithilfe von Ribosomenprofiling ist die Drei-Nukleotid-Periodizität (3-nt) der Fußabdrücke des Ribosoms auf mRNA vom Startcodon bis zum Stopp-Codon. Ribosom-Profiling-Daten haben jedoch oft mehrere Probleme, einschließlich niedriger und spärlicher Sequenzierungswerte entlang von ORFs, hohem Sequenzierungsrauschen und ribosomalen RNA (rRNA) -Kontaminationen. Daher schwächen die verzerrten und mehrdeutigen Signale, die von solchen Daten erzeugt werden, die 3-nt-Periodizitätsmuster der Fußabdrücke der Ribosomen auf mRNA, was letztendlich die Identifizierung der hochkonfidenzierten übersetzten ORFs erschwert.

Ein Paket namens “RiboCode” adaptierte einen modifizierten Wilcoxon-Sign-Rank-Test und eine P-Wert-Integrationsstrategie, um zu untersuchen, ob der ORF signifikant mehr Ribosomen-geschützte In-Frame-Fragmente (RPFs) aufweist als Off-Frame-RPFs22. Es erwies sich als hocheffizient, empfindlich und genau für die De-novo-Annotation des Translatoms in simulierten und realen Ribosomenprofilierungsdaten. Hier beschreiben wir, wie Sie dieses Tool verwenden, um die potenziellen übersetzenden ORFs aus den rohen Ribosom-Profiling-Sequenzierungsdatensätzen zu erkennen, die von der vorherigen Studie23 generiert wurden. Diese Datensätze wurden verwendet, um die Funktion der EIF3-Untereinheit “E” (EIF3E) in der Translation zu untersuchen, indem die Ribosomenbelegungsprofile von MCF-10A-Zellen, die mit Kontrolle (si-Ctrl) transfiziert wurden, und EIF3E (si-eIF3e) kleininterferierenden RNAs (siRNAs) verglichen wurden. Durch die Anwendung von RiboCode auf diese Beispieldatensätze haben wir 5.633 neuartige ORFs entdeckt, die möglicherweise für kleine Peptide oder Proteine kodieren. Diese ORFs wurden basierend auf ihren Standorten relativ zu den kodierenden Regionen in verschiedene Typen eingeteilt, darunter Upstream-ORFs (uORFs), Downstream-ORFs (dORFs), überlappende ORFs, ORFs aus neuartigen proteinkodierenden Genen (neuartige PCGs) und ORFs aus neuartigen nichtproteinkodierenden Genen (neuartige NonPCGs). Die RPF-Lesedichten auf uORFs waren in EIF3E-defizienten Zellen im Vergleich zu Kontrollzellen signifikant erhöht, was zumindest teilweise durch die Anreicherung von aktiv übersetzenden Ribosomen verursacht werden könnte. Die lokalisierte Ribosom-Akkumulation in der Region vom 25. bis 75. Codon von EIF3E-defizienten Zellen deutete auf eine Blockade der Translationsdehnung im Frühstadium hin. Dieses Protokoll zeigt auch, wie die RPF-Dichte der gewünschten Region visualisiert werden kann, um die 3-nt-Periodizitätsmuster von Ribosomen-Fußabdrücken auf identifizierten ORFs zu untersuchen. Diese Analysen zeigen die mächtige Rolle von RiboCode bei der Identifizierung von übersetzenden ORFs und der Untersuchung der Regulierung der Übersetzung.

Protocol

1. Einrichtung der Umgebung und Installation von RiboCode Öffnen Sie ein Linux-Terminalfenster und erstellen Sie eine conda-Umgebung:conda create -n RiboCode python=3.8 Wechseln Sie in die erstellte Umgebung und installieren Sie RiboCode und Abhängigkeiten:conda aktiviert RiboCodeconda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools 2. Datenaufbereitung <…

Representative Results

Die Beispiel-Ribosom-Profiling-Datensätze wurden in der GEO-Datenbank unter der Zugangsnummer GSE131074 hinterlegt. Alle Dateien und Codes, die in diesem Protokoll verwendet werden, sind unter Ergänzende Dateien 1-4 verfügbar. Durch die Anwendung von RiboCode auf eine Reihe von veröffentlichten Ribosom-Profiling-Datensätzen23 identifizierten wir die neuartigen ORFs, die aktiv in MCF-10A-Zellen übersetzt wurden, die mit Kontroll- und EIF3…

Discussion

Die Ribosomen-Profilierung bietet eine beispiellose Gelegenheit, die Wirkung der Ribosomen in Zellen auf Genomebene zu untersuchen. Die genaue Entschlüsselung der Informationen, die von den Ribosom-Profiling-Daten enthalten sind, könnte Aufschluss darüber geben, welche Regionen von Genen oder Transkripten aktiv übersetzt werden. Dieses Schritt-für-Schritt-Protokoll bietet Anleitungen zur Verwendung von RiboCode zur detaillierten Analyse von Ribosomenprofilierungsdaten, einschließlich Paketinstallation, Datenvorbere…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Die Autoren möchten die Unterstützung durch die Rechenressourcen der HPCC-Plattform der Xi’an Jiaotong University würdigen. Z.X. dankt dem Young Topnotch Talent Support Plan der Xi’an Jiaotong Universität.

Materials

A computer/server running Linux Any
Anaconda or Miniconda Anaconda Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation https://www.r-project.org/
Rstudio Rstudio https://www.rstudio.com/

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5′ UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. . AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
  25. . Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
  26. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  27. . STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
  28. . The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
  29. . RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
  30. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  31. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  32. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  33. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  34. . RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
  35. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).
check_url/63366?article_type=t

Play Video

Cite This Article
Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

View Video