Summary

JUMPn: Uma aplicação simplificada para agrupamento de co-expressão de proteínas e análise de rede em proteômica

Published: October 19, 2021
doi:

Summary

Apresentamos uma ferramenta de biologia de sistemas JUMPn para realizar e visualizar análises de rede para dados quantitativos de proteômica, com um protocolo detalhado que inclui pré-processamento de dados, agrupamento de co-expressão, enriquecimento de caminhos e análise de rede de interação proteína-proteína.

Abstract

Com os recentes avanços nas tecnologias de proteômica baseadas em espectrometria de massa, o perfil profundo de centenas de proteomes tornou-se cada vez mais viável. No entanto, obter insights biológicos de tais conjuntos de dados valiosos é um desafio. Aqui introduzimos um software baseado em biologia de sistemas JUMPn, e seu protocolo associado para organizar o proteome em clusters de co-expressão de proteínas em amostras e redes de interação proteína-proteína (PPI) conectadas por módulos (por exemplo, complexos proteicos). Usando a plataforma R/Shiny, o software JUMPn simplifica a análise de agrupamento de co-expressão, enriquecimento de caminhos e detecção de módulos PPI, com visualização integrada de dados e interface amigável. As principais etapas do protocolo incluem a instalação do software JUMPn, a definição de proteínas expressas diferencialmente ou o proteome (dis)regulado, determinação de clusters de co-expressão significativos e módulos PPI, e visualização de resultados. Embora o protocolo seja demonstrado usando um perfil proteome baseado em rotulagem isobáica, o JUMPn é geralmente aplicável a uma ampla gama de conjuntos de dados quantitativos (por exemplo, proteômica livre de rótulos). O software e o protocolo JUMPn fornecem assim uma poderosa ferramenta para facilitar a interpretação biológica em proteômica quantitativa.

Introduction

A proteômica de espingarda baseada em espectrometria em massa tornou-se a abordagem chave para analisar a diversidade de proteomes de amostras complexas1. Com os recentes avanços na instrumentação de espectrometria de massa 2,3, cromatografia 4,5, detecção de mobilidade de íons6, métodos de aquisição (independente de dados7 e aquisição dependente de dados8), abordagens de quantificação (método de rotulagem de peptídeo isobárico multi-plex, por exemplo, TMT 9,10 e quantificação sem rótulo 11,12) e método de estratégia de análise de dados/ desenvolvimento de software 13,14,15,16,17,18, quantificação de todo o proteome (por exemplo, mais de 10.000 proteínas) é agora rotina 19,20,21. No entanto, como obter insights mecanicistas a partir de conjuntos de dados quantitativos tão profundos ainda é desafiador22. As tentativas iniciais de investigação desses conjuntos de dados dependiam predominantemente da anotação de elementos individuais dos dados, tratando cada componente (proteína) de forma independente. No entanto, os sistemas biológicos e seu comportamento não podem ser explicados unicamente examinando componentes individuais23. Portanto, uma abordagem de sistemas que coloca as biomoléculas quantificadas no contexto das redes de interação é essencial para a compreensão de sistemas complexos e dos processos associados, como embriogênese, resposta imune e patogênese das doenças humanas24.

A biologia de sistemas baseados em rede emergiu como um poderoso paradigma para a análise de dados quantitativos de proteômica em larga escala 25,26,27,28,29,30,31,32,33. Conceitualmente, sistemas complexos como células mamíferas poderiam ser modelados como uma rede hierárquica34,35, na qual todo o sistema é representado em níveis: primeiro por um número de componentes grandes, cada um dos quais então iterativamente modelado por subsistemas menores. Tecnicamente, a estrutura da dinâmica proteome pode ser apresentada por redes interconectadas de aglomerados proteicos co-expressos (porque genes/proteínas co-expressos geralmente compartilham funções biológicas ou mecanismos de regulação36) e módulos PPI interagindo fisicamente37. Como exemplo recente25, geramos perfis temporais de proteome e fosfomésomo durante a ativação de células T e usamos redes integrativas de co-expressão com PPIs para identificar módulos funcionais que mediam a saída de quiescência de células T. Múltiplos módulos relacionados ao bioenergetic foram destacados e validados experimentalmente (por exemplo, os módulos IV mitoribosome ecomplexos 25 e o módulo de um carbono38). Em outro exemplo26, ampliamos ainda mais nossa abordagem para estudar a patogênese da doença de Alzheimer, e priorizamos com sucesso a progressão da doença, módulos e moléculas associadas à progressão da doença. É importante ressaltar que muitas de nossas descobertas imparcial foram validadas por coortes independentes de pacientes26,29 e/ou modelos de camundongos26. Esses exemplos ilustraram o poder da abordagem da biologia dos sistemas para dissecar mecanismos moleculares com proteômica quantitativa e outras integrações omicais.

Aqui introduzimos o JUMPn, um software simplificado que explora dados quantitativos de proteômica usando abordagens de biologia de sistemas baseados em rede. A JUMPn serve como o componente a jusante do conjunto de software de proteômica JUMPestabelecido 13,14,39, e tem como objetivo preencher a lacuna desde quantificações proteicas individuais até caminhos biologicamente significativos e módulos proteicos usando a abordagem biológica dos sistemas. Ao tomar a matriz de quantificação de proteínas de PPI expressos diferencialmente (ou a mais variável) como entrada, a JUMPn pretende organizar o proteome em uma hierarquia hierárquica de aglomerados proteicos co-expressos entre amostras e módulos PPI densamente conectados (por exemplo, complexos proteicos), que são ainda mais anotados com bancos de dados de vias públicas por análise de super-representação (ou enriquecimento) (Figura 1). O JUMPn é desenvolvido com a plataforma R/Shiny40 para uma interface fácil de usar e integra três módulos funcionais principais: análise de clustering de co-expressão, análise de enriquecimento de caminhos e análise de rede PPI (Figura 1). Após cada análise, os resultados são visualizados automaticamente e são ajustáveis através das funções de widget R/shiny e prontamente para download como tabelas de publicação no formato Microsoft Excel. No protocolo a seguir, utilizamos dados de proteome completo quantitativo como exemplo e descrevemos os principais passos do uso do JUMPn, incluindo a instalação do software JUMPn, a definição de proteínas expressas diferencialmente ou o proteome (dis)regulado, análise de rede de co-expressão e análise de módulos PPI, visualização e interpretação de resultados e soluções de problemas. O software JUMPn está disponível gratuitamente no GitHub41.

Protocol

NOTA: Neste protocolo, o uso do JUMPn é ilustrado utilizando um conjunto de dados publicado de perfil proteome inteiro durante a diferenciação de células B quantificada pelo reagente de etiqueta isobáica TMT27. 1. Configuração do software JUMPn NOTA: Duas opções são fornecidas para configurar o software JUMPn: (i) instalação em um computador local para uso pessoal; e (ii) implantação de JUMPn em um servidor brilhante remoto para v…

Representative Results

Utilizamos nossos conjuntos de dados de proteômica profunda publicados 25,26,27,30 (Figuras 5 e Figura 6), bem como simulações de dados57 (Tabela 1) para otimizar e avaliar o desempenho do JUMPn. Para a análise de agrupamento de proteínas de co-expressão via WGCNA, recomendamos a utilizaç…

Discussion

Aqui introduzimos nosso software JUMPn e seu protocolo, que foram aplicados em vários projetos para dissecar mecanismos moleculares usando dados de proteômica quantitativa profunda 25,26,27,30,64. O software e o protocolo JUMPn foram totalmente otimizados, incluindo a consideração de proteínas DE para análise de rede de co-expressão, uma compilação de…

Disclosures

The authors have nothing to disclose.

Acknowledgements

O apoio ao financiamento foi fornecido pelos Institutos Nacionais de Saúde (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 e U54NS110435) e ALSAC (American Libanbanese Syrian Associated Charities). A análise de MS foi realizada no Centro de Proteômica e Metabolômica do Hospital de Pesquisa Infantil de São Judas, que foi parcialmente apoiado pelo NIH Cancer Center Support Grant (P30CA021765). O conteúdo é de responsabilidade exclusiva dos autores e não representa necessariamente as opiniões oficiais dos Institutos Nacionais de Saúde.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Play Video

Cite This Article
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video