Summary

DeepOmicsAE: ייצוג מודולי איתות במחלת אלצהיימר עם ניתוח למידה עמוקה של פרוטאומיקה, מטבולומיקה ונתונים קליניים

Published: December 15, 2023
doi:

Summary

DeepOmicsAE היא זרימת עבודה המתמקדת ביישום שיטת למידה עמוקה (כלומר, מקודד אוטומטי) כדי להפחית את המימדיות של נתוני multi-omics, מתן בסיס למודלים חיזוי ומודולי איתות המייצגים שכבות מרובות של נתוני omics.

Abstract

מערכי נתונים גדולים של omics הופכים זמינים יותר ויותר למחקר על בריאות האדם. מאמר זה מציג את DeepOmicsAE, זרימת עבודה המותאמת לניתוח מערכי נתונים רב-אומיים, כולל פרוטאומיקה, מטבולומיקה ונתונים קליניים. זרימת עבודה זו משתמשת בסוג של רשת עצבית הנקראת autoencoder, כדי לחלץ קבוצה תמציתית של תכונות מנתוני הקלט הרב-מימדיים הגבוהים. יתר על כן, זרימת העבודה מספקת שיטה לייעול הפרמטרים העיקריים הדרושים ליישום המקודד האוטומטי. כדי להציג את זרימת העבודה הזו, נותחו נתונים קליניים מעוקבה של 142 אנשים שהיו בריאים או אובחנו עם מחלת אלצהיימר, יחד עם הפרוטאום והמטבוליזם של דגימות המוח שלהם לאחר המוות. התכונות המופקות מהשכבה הסמויה של המקודד האוטומטי שומרות על המידע הביולוגי המפריד בין חולים בריאים לחולים. בנוסף, התכונות הבודדות שחולצו מייצגות מודולי איתות מולקולרי נפרדים, שכל אחד מהם מקיים אינטראקציה ייחודית עם התכונות הקליניות של הפרטים, ומספק אמצעי לשילוב הפרוטאומיקה, המטבולומיקה והנתונים הקליניים.

Introduction

חלק הולך וגדל מהאוכלוסייה מזדקן והנטל של מחלות הקשורות לגיל, כגון ניוון עצבי, צפוי לעלות בחדות בעשורים הקרובים1. מחלת אלצהיימר היא הסוג הנפוץ ביותר של מחלות נוירודגנרטיביות2. ההתקדמות במציאת טיפול הייתה איטית בהתחשב בהבנה הלקויה שלנו של המנגנונים המולקולריים הבסיסיים המניעים את הופעת המחלה והתקדמותה. רוב המידע על מחלת האלצהיימר מתקבל לאחר המוות מבדיקת רקמת המוח, מה שהפך את ההבחנה בין סיבות ותוצאות למשימה קשה3. פרויקט מחקר המסדרים הדתיים / זיכרון והזדקנות (ROSMAP) הוא מאמץ שאפתני להשיג הבנה רחבה יותר של ניוון עצבי, הכולל מחקר של אלפי אנשים שהתחייבו לעבור בדיקות רפואיות ופסיכולוגיות מדי שנה ולתרום את מוחם למחקר לאחר מותם4. המחקר מתמקד במעבר מתפקוד תקין של המוח למחלת אלצהיימר2. במסגרת הפרויקט, דגימות מוח לאחר המוות נותחו עם שפע של גישות אומיקס, כולל גנומיקה, אפיגנומיקה, טרנסקריפטומיקס, פרוטאומיקה5 ומטבולומיקה.

טכנולוגיות Omics המציעות קריאות פונקציונליות של מצבים תאיים (כלומר, פרוטאומיקה ומטבולומיקה)6,7 הן המפתח לפענוח מחלה 8,9,10,11,12, בשל הקשר הישיר בין חלבון ושפע מטבוליטים ופעילויות תאיות. חלבונים הם המבצעים העיקריים של תהליכים תאיים, בעוד מטבוליטים הם המצע והתוצרים של תגובות ביוכימיות. ניתוח נתונים מולטי-אומיקה מציע את האפשרות להבין את היחסים המורכבים בין נתונים פרוטאומיים ומטאבולומיים במקום להעריך אותם בנפרד. מולטי-אומיקס היא דיסציפלינה החוקרת שכבות מרובות של נתונים ביולוגיים בממדים גבוהים, כולל נתונים מולקולריים (רצף גנום ומוטציות, תעתוק, פרוטום, מטבוליזם), נתוני הדמיה קלינית ותכונות קליניות. בפרט, ניתוח נתונים מולטי-אומיקס נועד לשלב שכבות כאלה של נתונים ביולוגיים, להבין את הוויסות ההדדי שלהם ואת דינמיקת האינטראקציה, ולספק הבנה הוליסטית של התפרצות המחלה והתקדמותה. עם זאת, שיטות לשילוב נתונים מולטי-אומיים נותרו בשלבים המוקדמים של הפיתוח13.

Autoencoders, סוג של רשת עצבית14 ללא פיקוח, הם כלי רב עוצמה לשילוב נתונים multi-omics. שלא כמו רשתות עצביות מפוקחות, מקודדים אוטומטיים אינם ממפים דגימות לערכי מטרה ספציפיים (כגון בריאים או חולים), והם אינם משמשים לחיזוי תוצאות. אחד היישומים העיקריים שלהם טמון בהפחתת ממדיות. עם זאת, מקודדים אוטומטיים מציעים מספר יתרונות על פני שיטות פשוטות יותר להפחתת ממדיות, כגון ניתוח רכיבים עיקריים (PCA), הטבעה של שכן סטוכסטי מבוזר t (tSNE), או קירוב סעפת אחידה והקרנה (UMAP). שלא כמו PCA, מקודדים אוטומטיים יכולים ללכוד קשרים לא ליניאריים בתוך הנתונים. שלא כמו tSNE ו- UMAP, הם יכולים לזהות יחסים היררכיים ורב-מודאליים בתוך הנתונים מכיוון שהם מסתמכים על שכבות מרובות של יחידות חישוביות שכל אחת מהן מכילה פונקציות הפעלה לא ליניאריות. לכן, הם מייצגים מודלים אטרקטיביים כדי ללכוד את המורכבות של נתונים multi-omics. לבסוף, בעוד היישום העיקרי של PCA, tSNE ו- UMAP הוא זה של קיבוץ הנתונים, מקודדים אוטומטיים דוחסים את נתוני הקלט לתכונות מחולצות המתאימות היטב למשימות חיזוי במורד הזרם15,16.

בקצרה, רשתות עצביות מורכבות מכמה שכבות, שכל אחת מהן מכילה יחידות חישוביות מרובות או “נוירונים”. השכבה הראשונה והשכבה האחרונה נקראות שכבות הקלט והפלט, בהתאמה. מקודדים אוטומטיים הם רשתות עצביות בעלות מבנה שעון חול, המורכב משכבת קלט, ואחריה שכבה אחת עד שלוש שכבות נסתרות ושכבה “סמויה” קטנה המכילה בדרך כלל בין שניים לשישה נוירונים. חציו הראשון של מבנה זה מכונה מקודד והוא משולב עם מפענח המשקף את המקודד. המפענח מסתיים בשכבת פלט המכילה את אותו מספר תאי עצב כמו שכבת הקלט. מקודדים אוטומטיים לוקחים את הקלט דרך צוואר הבקבוק ומשחזרים אותו בשכבת הפלט, במטרה לייצר פלט המשקף את המידע המקורי קרוב ככל האפשר. זה מושג על ידי מזעור מתמטי של פרמטר המכונה “אובדן שחזור”. הקלט מורכב מסט של תכונות, אשר ביישום המוצג כאן יהיו שפע חלבונים ומטבוליטים, ומאפיינים קליניים (כלומר, מין, השכלה וגיל בעת המוות). השכבה הסמויה מכילה ייצוג דחוס ועשיר במידע של הקלט, שניתן להשתמש בו ליישומים הבאים כגון מודלים לחיזוי17,18.

פרוטוקול זה מציג זרימת עבודה, DeepOmicsAE, הכוללת: 1) עיבוד מקדים של פרוטאומיקה, מטבולומיקה ונתונים קליניים (כלומר, נורמליזציה, קנה מידה, הסרה חריגה) כדי להשיג נתונים בקנה מידה עקבי לניתוח למידת מכונה; 2) בחירת תכונות קלט מקודד אוטומטי מתאימות, שכן עומס יתר על תכונות עלול לטשטש דפוסי מחלה רלוונטיים; 3) אופטימיזציה ואימון של המקודד האוטומטי, כולל קביעת המספר האופטימלי של חלבונים ומטבוליטים לבחירה, ושל נוירונים לשכבה הסמויה; 4) חילוץ תכונות מהשכבה הסמויה; ו-5) ניצול התכונות המחולצות לפרשנות ביולוגית על ידי זיהוי מודולי איתות מולקולרי והקשר שלהם עם תכונות קליניות.

פרוטוקול זה נועד להיות פשוט וישים על ידי ביולוגים עם ניסיון חישובי מוגבל שיש להם הבנה בסיסית של תכנות עם Python. הפרוטוקול מתמקד בניתוח נתונים מולטי-אומיקס, כולל פרוטאומיקה, מטבולומיקה ותכונות קליניות, אך ניתן להרחיב את השימוש בו לסוגים אחרים של נתוני ביטוי מולקולרי, כולל תעתוק. יישום חדשני חשוב אחד שהוצג על ידי פרוטוקול זה הוא מיפוי ציוני החשיבות של תכונות מקוריות על נוירונים בודדים בשכבה הסמויה. כתוצאה מכך, כל נוירון בשכבה הסמויה מייצג מודול איתות, המפרט את האינטראקציות בין שינויים מולקולריים ספציפיים לבין המאפיינים הקליניים של החולים. הפרשנות הביולוגית של מודולי האיתות המולקולרי מתקבלת באמצעות MetaboAnalyst, כלי זמין לציבור המשלב נתוני גנים/חלבונים ומטבוליטים כדי להפיק מסלולי איתות מטבוליים ותאים מועשרים17.

Protocol

הערה: הנתונים ששימשו כאן היו נתוני ROSMAP שהורדו מפורטל הידע של AD. אין צורך בהסכמה מדעת כדי להוריד את הנתונים ולעשות בהם שימוש חוזר. הפרוטוקול המוצג כאן משתמש בלמידה עמוקה כדי לנתח נתונים מולטי-אומיים ולזהות מודולי איתות המבחינים בין מטופלים ספציפיים או קבוצות מדגם המבוססות, למשל, על האבחנה ש…

Representative Results

כדי להציג את הפרוטוקול, ניתחנו מערך נתונים הכולל פרוטום, מטבוליזם ומידע קליני שמקורו במוחות לאחר המוות של 142 אנשים שהיו בריאים או אובחנו עם מחלת אלצהיימר. לאחר ביצוע פרוטוקול סעיף 1 כדי לעבד מראש את הנתונים, מערך הנתונים כלל 6,497 חלבונים, 443 מטבוליטים, ושלושה מאפיינים קליניים (?…

Discussion

מבנה מערך הנתונים הוא קריטי להצלחת הפרוטוקול ויש לבדוק אותו בקפידה. יש לעצב את הנתונים כפי שמצוין בסעיף 1 של הפרוטוקול. הקצאה נכונה של מיקומי טורים היא גם קריטית להצלחת השיטה. נתוני פרוטאומיקה ומטבולומיקה מעובדים מראש באופן שונה ובחירת התכונות מתבצעת בנפרד בשל אופיים השונה של הנתונים. לכן…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה על ידי CA201402 המענקים של NIH ופרס Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. התוצאות המתפרסמות כאן מבוססות במלואן או בחלקן על נתונים שהתקבלו מפורטל הידע של AD (https://adknowledgeportal.org). נתוני המחקר סופקו באמצעות השותפות להאצת הרפואה עבור אלצהיימר (U01AG046161 ו-U01AG061357) בהתבסס על דגימות שסופקו על ידי המרכז למחלות אלצהיימר ראש, המרכז הרפואי האוניברסיטאי ראש, שיקגו. איסוף הנתונים נתמך באמצעות מימון על ידי מענקי NIA P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, מחלקת בריאות הציבור של אילינוי ומכון המחקר לגנומיקה תרגומית. מערך הנתונים המטאבולומי נוצר במטאבולון ועובד מראש על ידי ADMC.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).
check_url/cn/65910?article_type=t

Play Video

Cite This Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video