Summary

JUMPn: En strömlinjeformad applikation för protein-samuttryckskluster och nätverksanalys inom proteomik

Published: October 19, 2021
doi:

Summary

Vi presenterar ett systembiologiskt verktyg JUMPn för att utföra och visualisera nätverksanalys för kvantitativa proteomikdata, med ett detaljerat protokoll inklusive databehandling, samuttryckskluster, vägberikning och protein-proteininteraktionsnätverksanalys.

Abstract

Med de senaste framstegen inom masspektrometribaserad proteomikteknik har djup profilering av hundratals proteomer blivit allt mer genomförbar. Att härleda biologiska insikter från sådana värdefulla datamängder är dock utmanande. Här introducerar vi en systembiologibaserad programvara JUMPn och dess tillhörande protokoll för att organisera proteomet i protein-samuttryckskluster över prover och protein-proteininteraktionsnätverk (PPI) anslutna med moduler (t.ex. proteinkomplex). Med hjälp av R/Shiny-plattformen effektiviserar JUMPn-programvaran analysen av klustring av samuttryck, vägberikning och PPI-moduldetektering, med integrerad datavisualisering och ett användarvänligt gränssnitt. Huvudstegen i protokollet inkluderar installation av JUMPn-programvaran, definitionen av differentiellt uttryckta proteiner eller det (dys) reglerade proteomet, bestämning av meningsfulla samuttryckskluster och PPI-moduler och resultatvisualisering. Medan protokollet demonstreras med hjälp av en isobar märkningsbaserad proteomprofil, är JUMPn i allmänhet tillämpligt på ett brett spektrum av kvantitativa datamängder (t.ex. etikettfri proteomik). JUMPn-programvaran och protokollet ger därmed ett kraftfullt verktyg för att underlätta biologisk tolkning inom kvantitativ proteomik.

Introduction

Masspektrometribaserad hagelgevärsproteomik har blivit det viktigaste tillvägagångssättet för att analysera proteomdiversitet hos komplexa prover1. Med de senaste framstegen inom masspektrometriinstrumentation 2,3, kromatografi 4,5, jonmobilitetsdetektering6, förvärvsmetoder (dataoberoende7 och databeroende förvärv8), kvantifieringsmetoder (multi-plex isobar peptidmärkningsmetod, t.ex. TMT 9,10 och etikettfri kvantifiering11,12) och dataanalysstrategier / mjukvaruutveckling 13,14,15,16,17,18, kvantifiering av hela proteomet (t.ex. över 10 000 proteiner) är nurutinmässigt 19,20,21. Men hur man får mekanistiska insikter från så djupa kvantitativa datamängder är fortfarande utmanande22. Initiala försök att undersöka dessa datamängder förlitade sig främst på anteckningen av enskilda element i data och behandlade varje komponent (protein) oberoende. Biologiska system och deras beteende kan emellertid inte enbart förklaras genom att undersöka enskilda komponenter23. Därför är en systemansats som placerar de kvantifierade biomolekylerna i samband med interaktionsnätverk avgörande för förståelsen av komplexa system och tillhörande processer såsom embryogenes, immunsvar och patogenes av mänskliga sjukdomar24.

Nätverksbaserad systembiologi har framstått som ett kraftfullt paradigm för att analysera storskaliga kvantitativa proteomikdata 25,26,27,28,29,30,31,32,33. Konceptuellt kan komplexa system som däggdjursceller modelleras som ett hierarkiskt nätverk34,35, där hela systemet representeras i nivåer: först av ett antal stora komponenter, som var och en sedan iterativt modelleras av mindre delsystem. Tekniskt sett kan strukturen för proteomdynamik presenteras av sammankopplade nätverk av samuttryckta proteinkluster (eftersom samuttryckta gener / proteiner ofta delar liknande biologiska funktioner eller mekanismer för reglering36) och fysiskt interagerande PPI-moduler37. Som ett nytt exempel25 genererade vi temporala profiler av hela proteom och fosfoproteom under T-cellaktivering och använde integrativa samuttrycksnätverk med PPI för att identifiera funktionella moduler som förmedlar T-cells quiescensutgång. Flera bioenergetiska relaterade moduler lyftes fram och validerades experimentellt (t.ex. mitoribosomen och komplexa IV-modulerna25 och en-kolmodulen38). I ett annat exempel26 utvidgade vi ytterligare vårt tillvägagångssätt för att studera patogenesen av Alzheimers sjukdom och prioriterade framgångsrikt sjukdomsprogressionsassocierade proteinmoduler och molekyler. Viktigt är att många av våra opartiska upptäckter validerades av oberoende patientkohorter26,29 och/eller sjukdomsmusmodeller26. Dessa exempel illustrerade kraften i den systembiologiska metoden för att dissekera molekylära mekanismer med kvantitativ proteomik och andra omics-integrationer.

Här introducerar vi JUMPn, en strömlinjeformad programvara som utforskar kvantitativa proteomikdata med hjälp av nätverksbaserade systembiologiska metoder. JUMPn fungerar som nedströmskomponenten i den etablerade JUMP-proteomik-programvarusviten 13,14,39 och syftar till att fylla gapet från enskilda proteinkvantifieringar till biologiskt meningsfulla vägar och proteinmoduler med hjälp av systembiologimetoden. Genom att ta kvantifieringsmatrisen för differentiellt uttryckta (eller de mest variabla) proteinerna som ingång, syftar JUMPn till att organisera proteomet i en skiktad hierarki av proteinkluster som uttrycks över prover och tätt anslutna PPI-moduler (t.ex. proteinkomplex), som ytterligare kommenteras med offentliga vägdatabaser genom överrepresentation (eller anrikning) analys (Figur 1). JUMPn är utvecklad med R/Shiny-plattformen40 för ett användarvänligt gränssnitt och integrerar tre huvudsakliga funktionella moduler: co-expression clustering analysis, pathway enrichment analysis och PPI network analysis (Figur 1). Efter varje analys visualiseras resultaten automatiskt och kan justeras via R/shiny-widgetfunktionerna och kan enkelt laddas ner som publikationstabeller i Microsoft Excel-format. I följande protokoll använder vi kvantitativa hela proteomdata som ett exempel och beskriver de viktigaste stegen för att använda JUMPn, inklusive installation av JUMPn-programvaran, definitionen av differentiellt uttryckta proteiner eller det (dys) reglerade proteomet, nätverksanalys med gemensamt uttryck och PPI-modulanalys, resultatvisualisering och tolkning och felsökning. JUMPn-programvaran är fritt tillgänglig på GitHub41.

Protocol

OBS: I detta protokoll illustreras användningen av JUMPn genom att använda en publicerad datauppsättning av hel proteomprofilering under B-celldifferentiering kvantifierad av TMT isobarisk etikettreagens27. 1. Installation av JUMPn-programvara OBS: Två alternativ finns för att ställa in JUMPn-programvaran: (i) installation på en lokal dator för personligt bruk; och (ii) distribution av JUMPn på en glänsande fjärrserver för flera anv…

Representative Results

Vi använde våra publicerade djupa proteomikdataset 25,26,27,30 (figur 5 och figur 6) samt datasimuleringar57 (tabell 1) för att optimera och utvärdera JUMPn-prestanda. För co-expression proteinklusteranalys via WGCNA rekommenderar vi att du använder proteiner som är signifikant förändr…

Discussion

Här introducerade vi vår JUMPn-programvara och dess protokoll, som har tillämpats i flera projekt för dissekering av molekylära mekanismer med hjälp av djupa kvantitativa proteomikdata 25,26,27,30,64. JUMPn-programvaran och protokollet har optimerats fullt ut, inklusive övervägande av DE-proteiner för samuttrycksnätverksanalys, en sammanställning av…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Finansieringsstöd tillhandahölls av National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 och U54NS110435) och ALSAC (American Lebanese Syrian Associated Charities). MS-analysen utfördes i St. Jude Children’s Research Hospital’s Center of Proteomics and Metabolomics, som delvis stöddes av NIH Cancer Center Support Grant (P30CA021765). Innehållet är enbart författarnas ansvar och representerar inte nödvändigtvis de officiella åsikterna från National Institutes of Health.

Materials

MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

Riferimenti

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer’s disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell’s functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer’s disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer’s disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate – a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).
check_url/it/62796?article_type=t

Play Video

Citazione di questo articolo
Vanderwall, D., Suresh, P., Fu, Y., Cho, J., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

View Video