Summary

JUMPn: En strømlinet applikation til protein co-ekspressionsklynger og netværksanalyse i proteomics

Published: October 19, 2021
doi:

Summary

Vi præsenterer et systembiologisk værktøj JUMPn til at udføre og visualisere netværksanalyse for kvantitative proteomics-data med en detaljeret protokol, herunder dataforbehandling, co-ekspressionsklyngedannelse, vejberigelse og protein-protein interaktionsnetværksanalyse.

Abstract

Med de seneste fremskridt inden for massespektrometribaserede proteomics-teknologier er dyb profilering af hundredvis af proteomer blevet mere og mere mulig. Det er imidlertid en udfordring at udlede biologisk indsigt fra sådanne værdifulde datasæt. Her introducerer vi en systembiologisk baseret software JUMPn og dens tilhørende protokol til at organisere proteomet i protein-co-ekspressionsklynger på tværs af prøver og protein-protein interaktion (PPI) netværk forbundet med moduler (f.eks. Proteinkomplekser). Ved hjælp af R/Shiny-platformen strømliner JUMPn-softwaren analysen af co-ekspressionsklynger, pathwayberigelse og PPI-moduldetektion med integreret datavisualisering og en brugervenlig grænseflade. De vigtigste trin i protokollen inkluderer installation af JUMPn-softwaren, definitionen af differentielt udtrykte proteiner eller det (dys) regulerede proteom, bestemmelse af meningsfulde co-ekspressionsklynger og PPI-moduler og resultatvisualisering. Mens protokollen demonstreres ved hjælp af en isobarisk mærkningsbaseret proteomprofil, er JUMPn generelt anvendelig på en bred vifte af kvantitative datasæt (f.eks. Etiketfri proteomik). JUMPn-softwaren og -protokollen giver således et kraftfuldt værktøj til at lette biologisk fortolkning i kvantitativ proteomics.

Introduction

Massespektrometribaseret haglgeværproteomik er blevet nøglemetoden til analyse af proteomdiversitet af komplekse prøver1. Med de seneste fremskridt inden for massespektrometriinstrumentering 2,3, kromatografi 4,5, ionmobilitetsdetektion6, erhvervelsesmetoder (datauafhængig7 og dataafhængig erhvervelse8), kvantificeringsmetoder (multiplex isobarisk peptidmærkningsmetode, fx TMT 9,10 og etiketfri kvantificering11,12) og dataanalysestrategier / softwareudvikling 13,14,15,16,17,18, kvantificering af hele proteomet (f.eks. over 10,000 proteiner) er nu rutine 19,20,21. Men hvordan man får mekanistisk indsigt fra så dybe kvantitative datasæt er stadig udfordrende22. Indledende forsøg på at undersøge disse datasæt var overvejende afhængige af annotationen af individuelle elementer i dataene og behandlede hver komponent (protein) uafhængigt. Biologiske systemer og deres adfærd kan imidlertid ikke udelukkende forklares ved at undersøge individuelle komponenter23. Derfor er en systemtilgang, der placerer de kvantificerede biomolekyler i sammenhæng med interaktionsnetværk, afgørende for forståelsen af komplekse systemer og de tilknyttede processer såsom embryogenese, immunrespons og patogenese af humane sygdomme24.

Netværksbaseret systembiologi er opstået som et stærkt paradigme til analyse af store kvantitative proteomics-data 25,26,27,28,29,30,31,32,33. Konceptuelt kunne komplekse systemer som pattedyrceller modelleres som et hierarkisk netværk34,35, hvor hele systemet er repræsenteret i niveauer: først af et antal store komponenter, som hver især derefter iterativt modelleres af mindre delsystemer. Teknisk set kan strukturen af proteomdynamik præsenteres af indbyrdes forbundne netværk af co-udtrykte proteinklynger (fordi co-udtrykte gener / proteiner ofte deler lignende biologiske funktioner eller mekanismer for regulering36) og fysisk interagerende PPI-moduler37. Som et nyligt eksempel25 genererede vi tidsmæssige profiler af hele proteom og fosfoproteom under T-celleaktivering og brugte integrerende co-ekspressionsnetværk med PPI’er til at identificere funktionelle moduler, der formidler T-celle hvileudgang. Flere bioenergetiske relaterede moduler blev fremhævet og eksperimentelt valideret (f.eks. mitoribosom og komplekse IV-modul25 og et-kulstofmodul38). I et andet eksempel26 udvidede vi yderligere vores tilgang til at studere patogenesen af Alzheimers sygdom og prioriterede med succes sygdomsprogressionsassocierede proteinmoduler og molekyler. Det er vigtigt, at mange af vores upartiske opdagelser blev valideret af uafhængige patientkohorter26,29 og / eller sygdomsmusemodeller26. Disse eksempler illustrerede kraften i den systembiologiske tilgang til dissekering af molekylære mekanismer med kvantitativ proteomics og andre omics-integrationer.

Her introducerer vi JUMPn, en strømlinet software, der udforsker kvantitative proteomics-data ved hjælp af netværksbaserede systembiologiske tilgange. JUMPn fungerer som downstream-komponenten i den etablerede JUMP proteomics-softwarepakke 13,14,39 og har til formål at udfylde hullet fra individuelle proteinkvantificeringer til biologisk meningsfulde veje og proteinmoduler ved hjælp af systembiologimetoden. Ved at tage kvantificeringsmatrixen af differentielt udtrykte (eller de mest variable) proteiner som input sigter JUMPn mod at organisere proteomet i et lagdelt hierarki af proteinklynger, der er co-udtrykt på tværs af prøver og tæt forbundne PPI-moduler (f.eks. Proteinkomplekser), som yderligere kommenteres med offentlige vejdatabaser ved overrepræsentation (eller berigelse) analyse (figur 1). JUMPn er udviklet med R/Shiny platform40 til en brugervenlig grænseflade og integrerer tre store funktionelle moduler: co-expression clustering analyse, pathway enrichment analyse og PPI netværksanalyse (figur 1). Efter hver analyse visualiseres resultaterne automatisk og kan justeres via R/shiny widget-funktionerne og kan let downloades som publikationstabeller i Microsoft Excel-format. I den følgende protokol bruger vi kvantitative hele proteomdata som et eksempel og beskriver de vigtigste trin i brugen af JUMPn, herunder installation af JUMPn-softwaren, definitionen af differentielt udtrykte proteiner eller det (dys) regulerede proteom, co-ekspressionsnetværksanalyse og PPI-modulanalyse, resultatvisualisering og fortolkning og fejlfinding. JUMPn-software er frit tilgængelig på GitHub41.

Protocol

BEMÆRK: I denne protokol illustreres brugen af JUMPn ved at anvende et offentliggjort datasæt af hel proteomprofilering under B-celledifferentiering kvantificeret af TMT isobarisk etiketreagens27. 1. Opsætning af JUMPn software BEMÆRK: Der er to muligheder for opsætning af JUMPn-softwaren: (i) installation på en lokal computer til personlig brug; og (ii) implementering af JUMPn på en ekstern skinnende server til flere brugere. Til lokal …

Representative Results

Vi brugte vores offentliggjorte dybe proteomics datasæt 25,26,27,30 (figur 5 og figur 6) samt datasimuleringer57 (tabel 1) til at optimere og evaluere JUMPn-ydeevne. Til analyse af co-ekspressionsproteinklynger via WGCNA anbefaler vi at anvende proteiner, der er signifikant ændret på tværs a…

Discussion

Her introducerede vi vores JUMPn-software og dens protokol, som er blevet anvendt i flere projekter til dissekering af molekylære mekanismer ved hjælp af dybe kvantitative proteomics-data 25,26,27,30,64. JUMPn-softwaren og -protokollen er blevet fuldt optimeret, herunder overvejelse af DE-proteiner til co-ekspressionsnetanalyse, en samling af omfattende PPI-…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Finansieringsstøtte blev ydet af National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 og U54NS110435) og ALSAC (American Lebanese Syrian Associated Charities). MS-analysen blev udført i St. Jude Children’s Research Hospital’s Center of Proteomics and Metabolomics, som delvist blev støttet af NIH Cancer Center Support Grant (P30CA021765). Indholdet er udelukkende forfatternes ansvar og repræsenterer ikke nødvendigvis de officielle synspunkter fra National Institutes of Health.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

Riferimenti

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).
check_url/it/62796?article_type=t

Play Video

Citazione di questo articolo
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video