Summary

Un enfoque integrado para la identificación de microproteínas y el análisis de secuencias

Published: July 12, 2022
doi:

Summary

El protocolo descrito aquí proporciona instrucciones detalladas sobre cómo analizar las regiones genómicas de interés para el potencial de codificación de microproteínas utilizando PhyloCSF en el navegador del genoma UCSC fácil de usar. Además, se recomiendan varias herramientas y recursos para investigar más a fondo las características de secuencia de las microproteínas identificadas para obtener información sobre sus supuestas funciones.

Abstract

La secuenciación de próxima generación (NGS) ha impulsado el campo de la genómica hacia adelante y ha producido secuencias del genoma completo para numerosas especies animales y organismos modelo. Sin embargo, a pesar de esta gran cantidad de información de secuencia, los esfuerzos integrales de anotación de genes han demostrado ser un desafío, especialmente para las proteínas pequeñas. En particular, los métodos convencionales de anotación de proteínas se diseñaron para excluir intencionalmente las proteínas putativas codificadas por marcos de lectura abiertos cortos (sORF) de menos de 300 nucleótidos de longitud para filtrar el número exponencialmente mayor de sORFs espurios no codificantes en todo el genoma. Como resultado, cientos de pequeñas proteínas funcionales llamadas microproteínas (<100 aminoácidos de longitud) se han clasificado incorrectamente como ARN no codificantes o se han pasado por alto por completo.

Aquí proporcionamos un protocolo detallado para aprovechar las herramientas bioinformáticas gratuitas y disponibles públicamente para consultar las regiones genómicas en busca de potencial de codificación de microproteínas basado en la conservación evolutiva. Específicamente, proporcionamos instrucciones paso a paso sobre cómo examinar la conservación de la secuencia y el potencial de codificación utilizando frecuencias de sustitución de codones filogenéticos (PhyloCSF) en el navegador del genoma fácil de usar de la Universidad de California en Santa Cruz (UCSC). Además, detallamos los pasos para generar de manera eficiente alineaciones de múltiples especies de secuencias de microproteínas identificadas para visualizar la conservación de la secuencia de aminoácidos y recomendamos recursos para analizar las características de las microproteínas, incluidas las estructuras de dominio predichas. Estas poderosas herramientas se pueden utilizar para ayudar a identificar secuencias supuestas de codificación de microproteínas en regiones genómicas no canónicas o para descartar la presencia de una secuencia de codificación conservada con potencial de traducción en una transcripción no codificante de interés.

Introduction

La identificación del conjunto completo de elementos codificantes en el genoma ha sido un objetivo importante desde el inicio del Proyecto Genoma Humano, y sigue siendo un objetivo central hacia la comprensión de los sistemas biológicos y la etiología de las enfermedades de base genética 1,2,3,4. Los avances en las técnicas ngs han llevado a la producción de secuencias del genoma completo para un gran número de organismos, incluidos vertebrados, invertebrados, levaduras y plantas5. Además, los métodos de secuenciación transcripcional de alto rendimiento han revelado aún más la complejidad del transcriptoma celular e identificado miles de nuevas moléculas de ARN con funciones codificantes y no codificantesde proteínas 6,7. La decodificación de esta gran cantidad de información de secuencia es un proceso continuo, y siguen existiendo desafíos con los esfuerzos integrales de anotaciónde genes 8.

El reciente desarrollo de métodos de perfiles traslacionales, incluidos el perfil de ribosomas 9,10 y la secuenciación de poli ribosomas11, han proporcionado evidencia que indica que cientos de eventos de traducción no canónica se asignan a sORF actualmente no anotados en todo el genoma, con el potencial de generar pequeñas proteínas llamadas microproteínas o micropéptidos 12,13,14,15,16, 17. Las microproteínas han surgido como una nueva clase de proteínas versátiles previamente pasadas por alto por los métodos estándar de anotación de genes debido a su pequeño tamaño (<100 aminoácidos) y la falta de características clásicas de genes codificantes de proteínas 8,12,18,19,20. Las microproteínas se han descrito en prácticamente todos los organismos, incluyendo la levadura21,22, las moscas 17,23,24 y los mamíferos 25,26,27,28, y se ha demostrado que desempeñan un papel crítico en diversos procesos, incluyendo el desarrollo, el metabolismo y la señalización de estrés 19,20,29, 30,31,32,33,34. Por lo tanto, es imperativo continuar extrayendo el genoma para miembros adicionales de esta clase de proteínas pequeñas funcionales que se han pasado por alto durante mucho tiempo.

A pesar del reconocimiento generalizado de la importancia biológica de las microproteínas, esta clase de genes sigue estando muy poco representada en las anotaciones del genoma, y su identificación precisa sigue siendo un desafío continuo que ha obstaculizado el progreso en el campo. Recientemente se han desarrollado varias herramientas computacionales y métodos experimentales para superar las dificultades asociadas con la identificación de secuencias codificantes de microproteínas (discutidas ampliamente en varias revisiones exhaustivas 8,35,36,37). Muchos estudios recientes de identificación de microproteínas 38,39,40,41,42,43,44,45,46,47 se han basado en gran medida en el uso de uno de estos algoritmos llamado PhyloCSF 48,49 , un poderoso enfoque de genómica comparativa que se puede aprovechar para distinguir las regiones codificantes de proteínas conservadas del genoma de las que no codifican.

PhyloCSF compara las frecuencias de sustitución de codones (CSF) utilizando alineaciones de nucleótidos de múltiples especies y modelos filogenéticos para detectar firmas evolutivas de genes codificantes de proteínas. Este enfoque empírico basado en modelos se basa en la premisa de que las proteínas se conservan principalmente a nivel de aminoácidos en lugar de la secuencia de nucleótidos. Por lo tanto, las sustituciones de codones sinónimos, que codifican el mismo aminoácido, o las sustituciones de codones a aminoácidos con propiedades conservadas (es decir, carga, hidrofobicidad, polaridad) se puntúan positivamente, mientras que las sustituciones no sinónimas, incluidas las sustituciones sin sentido y sin sentido, puntúan negativamente. PhyloCSF está entrenado en datos de genoma completo y ha demostrado ser eficaz para puntuar porciones cortas de una secuencia codificante (CDS) aisladamente de la secuencia completa, lo cual es necesario cuando se analizan microproteínas o exones individuales de genes codificantes de proteínas estándar48,49.

En particular, la reciente integración de los centros de seguimiento de PhyloCSF en el Genome Browser 49,50,51 de la Universidad de California en Santa Cruz (UCSC) permite a los investigadores de todos los orígenes acceder fácilmente a una interfaz fácil de usar para consultar las regiones genómicas de interés para el potencial de codificación de proteínas. El protocolo que se describe a continuación proporciona instrucciones detalladas sobre cómo cargar los centros de seguimiento de PhyloCSF en el UcSC Genome Browser y, posteriormente, interrogar las regiones genómicas de interés para sondear las regiones codificantes de proteínas de alta confianza (o la falta de ellas). Además, en el caso de que se observe una puntuación positiva de PhyloCSF, se delinean pasos para analizar más a fondo el potencial de codificación de microproteínas y generar de manera eficiente alineaciones de múltiples especies de las secuencias de aminoácidos identificadas para ilustrar la conservación de secuencias entre especies. Por último, en la discusión se introducen varios recursos y herramientas adicionales disponibles públicamente para estudiar las características de las microproteínas identificadas, incluidas las estructuras de dominio predichas y la comprensión de la supuesta función de las microproteínas.

Protocol

El protocolo que se describe a continuación detalla los pasos para cargar y navegar por las pistas del navegador PhyloCSF en el UCSC Genome Browser (generado por Mudge et al.49). Para preguntas generales sobre el UCSC Genome Browser, se puede encontrar una extensa Guía del usuario de Genome Browser aquí: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html. 1. Carga del PhyloCSF Track …

Representative Results

Aquí usaremos la microproteína mitoregulina validada (Mtln) como ejemplo para demostrar cómo un sORF conservado generará una puntuación PhyloCSF positiva que se puede visualizar y analizar fácilmente en el UCSC Genome Browser. La mitoregulina se anotó previamente como un ARN no codificante (anteriormente ID del gen humano LINC00116 y ID del gen de ratón 1500011K16Rik). La genómica comparativa y los métodos de análisis de conservación de secuencias desempeñaron un papel crítico en su descub…

Discussion

El protocolo presentado aquí proporciona instrucciones detalladas sobre cómo interrogar las regiones genómicas de interés para el potencial de codificación de microproteínas utilizando PhyloCSF en el navegador del genoma UCSC fácil de usar 48,49,50,51. Como se detalló anteriormente, PhyloCSF es un poderoso algoritmo de genómica comparativa que integra modelos filogenéticos y frecuenci…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por subvenciones de los Institutos Nacionales de Salud (HL-141630 y HL-160569) y la Fundación de Investigación Infantil de Cincinnati (Premio Del Fideicomisario).

Materials

Website Website Address Requirements
Clustal Omega Multiple Sequence Alignment Tool https://www.ebi.ac.uk/Tools/msa/clustalo/ Web browser Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdb https://coxpresdb.jp Web browser Provides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQs https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ Web browser Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/all Web browser Comprehensive list of freely available websites, tools and data resources
Expasy – Swiss Bioinformatics Resource Portal https://www.expasy.org Web browser Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Web browser Search tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35 http://pfam.xfam.org Web browser Protein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browser Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0 https://services.healthtech.dtu.dk/service.php?SignalP-6.0 Web browser Predicts the presence of signal peptides and the location of their cleavage sites
TMHMM – 2.0 https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 Web browser Prediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Search https://genome.ucsc.edu/cgi-bin/hgBlat Web browser Tool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gateway https://genome.ucsc.edu/cgi-bin/hgGateway Web browser Direct link to the UCSC Genome Browser Gateway
UCSC Genome Browser Home https://genome.ucsc.edu/ Web browser Home website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubs https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs Web browser Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guide https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html Web browser Comprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORT https://wolfpsort.hgc.jp Web browser Protein subcellular localization prediction tool

References

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).
check_url/63841?article_type=t

Play Video

Cite This Article
Brito-Estrada, O., Hassel, K. R., Makarewich, C. A. An Integrated Approach for Microprotein Identification and Sequence Analysis. J. Vis. Exp. (185), e63841, doi:10.3791/63841 (2022).

View Video