Summary

De novo Идентификация активно транслируемых открытых кадров чтения с данными профилирования рибосом

Published: February 18, 2022
doi:

Summary

Перевод рибосом декодирует три нуклеотида на кодон в пептиды. Их движение вдоль мРНК, захваченное профилированием рибосом, производит следы, проявляющие характерную триплетную периодичность. Этот протокол описывает, как использовать RiboCode для расшифровки этой важной функции из данных профилирования рибосом для идентификации активно транслируемых открытых кадров чтения на уровне всего транскриптома.

Abstract

Идентификация открытых кадров чтения (ORF), особенно тех, которые кодируют небольшие пептиды и активно переводятся в конкретных физиологических контекстах, имеет решающее значение для комплексных аннотаций контекстно-зависимых транслейломов. Профилирование рибосом, метод обнаружения мест связывания и плотностей трансляции рибосом на РНК, предлагает способ быстро обнаружить, где происходит трансляция в масштабе всего генома. Тем не менее, в биоинформатике не является тривиальной задачей эффективно и всесторонне идентифицировать переводящие ORF для профилирования рибосом. Здесь описан простой в использовании пакет под названием RiboCode, предназначенный для поиска активного перевода ORF любого размера из искаженных и неоднозначных сигналов в данных профилирования рибосом. Взяв в качестве примера наш ранее опубликованный набор данных, в этой статье приведены пошаговые инструкции для всего конвейера RiboCode, от предварительной обработки необработанных данных до интерпретации конечных выходных файлов результатов. Кроме того, для оценки скорости трансляции аннотированных ORF также подробно описаны процедуры визуализации и количественной оценки плотностей рибосом на каждом ORF. Таким образом, настоящая статья является полезной и своевременной инструкцией для областей исследований, связанных с переводом, малыми ОРФ и пептидами.

Introduction

В последнее время растущее количество исследований выявило широко распространенную продукцию пептидов, переведенных из ORF кодирующих генов и ранее аннотированных генов как некодирующих, таких как длинные некодирующие РНК (lncRNAs)1,2,3,4,5,6,7,8. Эти переведенные ORF регулируются или индуцируются клетками для реагирования на изменения окружающей среды, стресс и дифференцировку клеток1,8,9,10,11,12,13. Было продемонстрировано, что продукты трансляции некоторых ORF играют важную регулирующую роль в различных биологических процессах развития и физиологии. Например, Chng et al.14 обнаружили пептидный гормон под названием Elabela (Ela, также известный как Apela/Ende/Toddler), который имеет решающее значение для развития сердечно-сосудистой системы. Паули и др. предположили, что Эла также действует как митоген, который способствует миграции клеток в раннем эмбрионе рыбы15. Magny et al. сообщили о двух микропептидах менее 30 аминокислот, регулирующих транспорт кальция и влияющих на регулярное сокращение мышц в сердце Drosophila10.

Остается неясным, сколько таких пептидов кодируется геномом и являются ли они биологически значимыми. Поэтому систематическая идентификация этих потенциально кодирующих ORF очень желательна. Однако непосредственное определение продуктов этих ORF (т.е. белка или пептида) с использованием традиционных подходов, таких как эволюционное сохранение16,17 и масс-спектрометрия18,19, является сложной задачей, поскольку эффективность обнаружения обоих подходов зависит от длины, обилия и аминокислотного состава продуцируемых белков или пептидов. Появление рибосомного профилирования, метода идентификации занятости рибосом на мРНК при нуклеотидном разрешении, обеспечило точный способ оценки кодирующего потенциала различных транскриптов3,20,21, независимо от их длины и состава. Важной и часто используемой особенностью для идентификации активно транслируемых ОРФ с использованием рибосомного профилирования является трехнуклеотидная (3-nt) периодичность следов рибосомы на мРНК от начального кодона до стоп-кодона. Тем не менее, данные профилирования рибосом часто имеют несколько проблем, включая низкие и разреженные показания секвенирования вдоль ORF, высокий шум секвенирования и загрязнение рибосомальной РНК (рРНК). Таким образом, искаженные и неоднозначные сигналы, генерируемые такими данными, ослабляют паттерны периодичности 3-х нт следов рибосом на мРНК, что в конечном итоге затрудняет идентификацию высокодоверных транслируемых ORF.

Пакет под названием «RiboCode» адаптировал модифицированный тест Wilcoxon-signed-rank и стратегию интеграции P-value, чтобы проверить, имеет ли ORF значительно больше фрагментов, защищенных рибосомами (RPF), чем внекадровые RPF22. Было продемонстрировано, что он является высокоэффективным, чувствительным и точным для de novo аннотации транслейтома в смоделированных и реальных данных профилирования рибосом. Здесь мы описываем, как использовать этот инструмент для обнаружения потенциального перевода ORF из необработанных наборов данных секвенирования профилирования рибосом, сгенерированных предыдущим исследованием23. Эти наборы данных были использованы для изучения функции субъединицы EIF3 «E» (EIF3E) в трансляции путем сравнения профилей занятости рибосом клеток MCF-10A, трансфектированных контрольными (si-Ctrl) и EIF3E (si-eIF3e) малоинтерферирующими РНК (siRNAs). Применив RiboCode к этим примерам наборов данных, мы обнаружили 5 633 новых ORF, потенциально кодирующих небольшие пептиды или белки. Эти ORF были классифицированы на различные типы в зависимости от их местоположения относительно кодирующих областей, включая вышестоящие ORF (uORFs), нижестоящие ORF (dORFs), перекрывающиеся ORF, ORF из новых генов, кодирующих белки (новые PCG), и ORF из новых генов, не вызывающих рост (новые NonPCG). Плотность считывания RPF на uORF была значительно увеличена в клетках с дефицитом EIF3E по сравнению с контрольными клетками, что может быть, по крайней мере, частично вызвано обогащением активно транслицирующихся рибосом. Локализованное накопление рибосом в области от 25-го по 75-й кодон EIF3E-дефицитных клеток указывало на блокировку удлинения трансляции на ранней стадии. Этот протокол также показывает, как визуализировать плотность RPF в желаемой области для изучения паттернов периодичности 3-nt следов рибосом на идентифицированных ORF. Эти анализы демонстрируют мощную роль RiboCode в выявлении переводческих ORF и изучении регулирования перевода.

Protocol

1. Настройка среды и установка RiboCode Откройте окно терминала Linux и создайте среду conda:conda create -n RiboCode python=3.8 Переключитесь на созданную среду и установите RiboCode и зависимости:conda активировать RiboCodeconda install -c биоконда рибокод рибоминер sra-tools fastx_toolkit cutadapt bowtie star sa…

Representative Results

Примеры наборов данных профилирования рибосом были депонированы в базе данных ГЭП под номером присоединения GSE131074. Все файлы и коды, используемые в этом протоколе, доступны из дополнительных файлов 1-4. Применяя RiboCode к набору опубликованных наборов данных про…

Discussion

Профилирование рибосом дает беспрецедентную возможность изучить действие рибосом в клетках в масштабе генома. Точная расшифровка информации, переносимой данными профилирования рибосом, может дать представление о том, какие области генов или транскриптов активно транслируются. Этот …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Авторы хотели бы отметить поддержку со стороны вычислительных ресурсов, предоставляемых платформой HPCC Сианьского университета Цзяотун. Z.X. благодарит План поддержки талантов Young Topnotch Сианьского университета Цзяотун.

Materials

A computer/server running Linux Any
Anaconda or Miniconda Anaconda Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R R Foundation https://www.r-project.org/
Rstudio Rstudio https://www.rstudio.com/

References

  1. Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
  2. Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
  3. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  4. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
  5. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  6. Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
  7. Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
  8. Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5′ UTRs. Nature. 559 (7712), 130-134 (2018).
  9. Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
  10. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  11. Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
  12. Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
  13. Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
  14. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  15. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  16. Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
  17. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  18. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  19. Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
  20. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
  21. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  22. Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
  23. Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
  24. . AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
  25. . Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
  26. Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
  27. . STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
  28. . The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
  29. . RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
  30. Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
  31. Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
  32. Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
  33. Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
  34. . RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
  35. Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).
check_url/63366?article_type=t

Play Video

Cite This Article
Zhu, Y., Li, F., Yang, X., Xiao, Z. De novo Identification of Actively Translated Open Reading Frames with Ribosome Profiling Data. J. Vis. Exp. (180), e63366, doi:10.3791/63366 (2022).

View Video