Summary

Une approche intégrée pour l’identification des microprotéines et l’analyse des séquences

Published: July 12, 2022
doi:

Summary

Le protocole décrit ici fournit des instructions détaillées sur la façon d’analyser les régions génomiques d’intérêt pour le potentiel de codage des microprotéines à l’aide de PhyloCSF sur le navigateur de génome convivial UCSC. En outre, plusieurs outils et ressources sont recommandés pour étudier plus avant les caractéristiques de séquence des microprotéines identifiées afin de mieux comprendre leurs fonctions putatives.

Abstract

Le séquençage de nouvelle génération (NGS) a propulsé le domaine de la génomique vers l’avant et produit des séquences de génome entier pour de nombreuses espèces animales et organismes modèles. Cependant, malgré cette richesse d’informations sur les séquences, les efforts complets d’annotation des gènes se sont avérés difficiles, en particulier pour les petites protéines. Notamment, les méthodes conventionnelles d’annotation des protéines ont été conçues pour exclure intentionnellement les protéines putatives codées par de courts cadres de lecture ouverts (sORF) de moins de 300 nucléotides de longueur afin de filtrer le nombre exponentiellement plus élevé de faux sORF non codants dans tout le génome. En conséquence, des centaines de petites protéines fonctionnelles appelées microprotéines (<100 acides aminés de longueur) ont été classées à tort comme des ARN non codants ou complètement négligées.

Ici, nous fournissons un protocole détaillé pour tirer parti d’outils bioinformatiques gratuits et accessibles au public pour interroger les régions génomiques sur le potentiel de codage des microprotéines basé sur la conservation évolutive. Plus précisément, nous fournissons des instructions étape par étape sur la façon d’examiner la conservation des séquences et le potentiel de codage à l’aide des fréquences de substitution phylogénétique du codon (PhyloCSF) sur le navigateur de génome convivial de l’Université de Californie à Santa Cruz (UCSC). De plus, nous détaillons les étapes pour générer efficacement plusieurs alignements d’espèces de séquences de microprotéines identifiées afin de visualiser la conservation des séquences d’acides aminés et recommandons des ressources pour analyser les caractéristiques des microprotéines, y compris les structures de domaine prédites. Ces outils puissants peuvent être utilisés pour aider à identifier des séquences de codage de microprotéines putatives dans des régions génomiques non canoniques ou pour exclure la présence d’une séquence codante conservée avec un potentiel translationnel dans une transcription d’intérêt non codante.

Introduction

L’identification de l’ensemble complet des éléments codants dans le génome est un objectif majeur depuis le lancement du projet du génome humain et demeure un objectif central pour la compréhension des systèmes biologiques et l’étiologie des maladies génétiques 1,2,3,4. Les progrès des techniques NGS ont conduit à la production de séquences du génome entier pour un grand nombre d’organismes, y compris les vertébrés, les invertébrés, les levures et les plantes5. De plus, les méthodes de séquençage transcriptionnel à haut débit ont révélé la complexité du transcriptome cellulaire et identifié des milliers de nouvelles molécules d’ARN ayant à la fois des fonctions codant pour les protéines et non codantes 6,7. Le décodage de cette grande quantité d’informations de séquence est un processus continu, et des défis subsistent avec des efforts complets d’annotationde gènes 8.

Le développement récent de méthodes de profilage translationnel, y compris le profilage des ribosomes 9,10 et le séquençage des poly-ribosomes11, a fourni des preuves indiquant que des centaines d’événements de traduction non canoniques correspondent à des SORF actuellement non annotés dans tout le génome, avec le potentiel de générer de petites protéines appelées microprotéines ou micropeptides 12,13,14,15,16, 17. Les microprotéines sont apparues comme une nouvelle classe de protéines polyvalentes auparavant négligées par les méthodes standard d’annotation des gènes en raison de leur petite taille (<100 acides aminés) et de l’absence de caractéristiques génétiques classiquescodant pour les protéines 8,12,18,19,20. Les microprotéines ont été décrites dans pratiquement tous les organismes, y compris la levure21,22, les mouches 17,23,24 et les mammifères 25,26,27,28, et il a été démontré qu’elles jouent un rôle essentiel dans divers processus, y compris le développement, le métabolisme et la signalisation du stress 19,20,29, 30,31,32,33,34. Ainsi, il est impératif de continuer à exploiter le génome pour trouver d’autres membres de cette classe de petites protéines fonctionnelles longtemps négligée.

Malgré la reconnaissance généralisée de l’importance biologique des microprotéines, cette classe de gènes reste largement sous-représentée dans les annotations du génome, et leur identification précise continue d’être un défi permanent qui a entravé les progrès dans le domaine. Divers outils de calcul et méthodes expérimentales ont récemment été mis au point pour surmonter les difficultés associées à l’identification des séquences codant pour les microprotéines (discutés en détail dans plusieurs revues complètes 8,35,36,37). De nombreuses études récentes d’identification des microprotéines 38,39,40,41,42,43,44,45,46,47 se sont fortement appuyées sur l’utilisation d’un tel algorithme appelé PhyloCSF 48,49 , une puissante approche génomique comparative qui peut être exploitée pour distinguer les régions du génome codant pour les protéines conservées de celles qui ne sont pas codantes.

Le PhyloCSF compare les fréquences de substitution des codons (LCR) à l’aide d’alignements de nucléotides multi-espèces et de modèles phylogénétiques pour détecter les signatures évolutives de gènes codant pour les protéines. Cette approche empirique basée sur un modèle repose sur la prémisse que les protéines sont principalement conservées au niveau des acides aminés plutôt qu’à la séquence nucléotidique. Par conséquent, les substitutions de codon synonymes, qui codent le même acide aminé, ou les substitutions de codon aux acides aminés ayant des propriétés conservées (c.-à-d. charge, hydrophobicité, polarité) sont notées positivement, tandis que les substitutions non synonymes, y compris les substitutions fausses et absurdes, obtiennent un score négatif. PhyloCSF est formé sur des données du génome entier et s’est avéré efficace pour marquer de courtes portions d’une séquence codante (CDS) isolée de la séquence complète, ce qui est nécessaire lors de l’analyse de microprotéines ou d’exons individuels de gènes codant pour des protéines standard48,49.

Notamment, l’intégration récente des hubs de suivi PhyloCSF dans le Genome Browser 49,50,51 de l’Université de Californie à Santa Cruz (UCSC) permet aux chercheurs de tous horizons d’accéder facilement à une interface conviviale pour interroger les régions génomiques d’intérêt pour le potentiel de codage des protéines. Le protocole décrit ci-dessous fournit des instructions détaillées sur la façon de charger les hubs de suivi PhyloCSF sur le navigateur de génome UCSC et d’interroger ensuite les régions génomiques d’intérêt pour sonder les régions codant pour les protéines à haute confiance (ou l’absence de celles-ci). De plus, dans le cas où un score PhyloCSF positif est observé, des étapes sont délimitées pour analyser davantage le potentiel codant pour les microprotéines et générer efficacement plusieurs alignements d’espèces des séquences d’acides aminés identifiées afin d’illustrer la conservation des séquences inter-espèces. Enfin, plusieurs ressources et outils supplémentaires accessibles au public sont présentés dans la discussion pour étudier les caractéristiques des microprotéines identifiées, y compris les structures de domaine prédites et les connaissances sur la fonction des microprotéines putatives.

Protocol

Le protocole décrit ci-dessous détaille les étapes à suivre pour charger et naviguer dans les pistes du navigateur PhyloCSF sur le navigateur du génome UCSC (généré par Mudge et al.49). Pour des questions générales concernant le navigateur de génome UCSC, un guide complet de l’utilisateur de Genome Browser peut être trouvé ici: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html. …

Representative Results

Ici, nous utiliserons la microprotéine mitoréguline validée (Mtln) comme exemple pour démontrer comment un sORF conservé générera un score PhyloCSF positif qui peut être facilement visualisé et analysé sur le navigateur de génome UCSC. La mitoréguline était auparavant annotée en tant qu’ARN non codant (anciennement ID du gène humain LINC00116 et ID du gène de la souris 1500011K16Rik). La génomique comparative et les méthodes d’analyse de conservation des séquences ont joué un rô…

Discussion

Le protocole présenté ici fournit des instructions détaillées sur la façon d’interroger les régions génomiques d’intérêt pour le potentiel de codage des microprotéines à l’aide de PhyloCSF sur le navigateur de génome convivial UCSC 48,49,50,51. Comme détaillé ci-dessus, PhyloCSF est un puissant algorithme de génomique comparative qui intègre des modèles phylogénétiques …

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par des subventions des National Institutes of Health (HL-141630 et HL-160569) et de la Cincinnati Children’s Research Foundation (Trustee Award).

Materials

Website Website Address Requirements
Clustal Omega Multiple Sequence Alignment Tool https://www.ebi.ac.uk/Tools/msa/clustalo/ Web browser Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdb https://coxpresdb.jp Web browser Provides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQs https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ Web browser Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/all Web browser Comprehensive list of freely available websites, tools and data resources
Expasy – Swiss Bioinformatics Resource Portal https://www.expasy.org Web browser Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Web browser Search tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35 http://pfam.xfam.org Web browser Protein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browser Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0 https://services.healthtech.dtu.dk/service.php?SignalP-6.0 Web browser Predicts the presence of signal peptides and the location of their cleavage sites
TMHMM – 2.0 https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 Web browser Prediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Search https://genome.ucsc.edu/cgi-bin/hgBlat Web browser Tool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gateway https://genome.ucsc.edu/cgi-bin/hgGateway Web browser Direct link to the UCSC Genome Browser Gateway
UCSC Genome Browser Home https://genome.ucsc.edu/ Web browser Home website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubs https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs Web browser Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guide https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html Web browser Comprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORT https://wolfpsort.hgc.jp Web browser Protein subcellular localization prediction tool

Riferimenti

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochimica. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).
check_url/it/63841?article_type=t

Play Video

Citazione di questo articolo
Brito-Estrada, O., Hassel, K. R., Makarewich, C. A. An Integrated Approach for Microprotein Identification and Sequence Analysis. J. Vis. Exp. (185), e63841, doi:10.3791/63841 (2022).

View Video