DeepOmicsAE היא זרימת עבודה המתמקדת ביישום שיטת למידה עמוקה (כלומר, מקודד אוטומטי) כדי להפחית את המימדיות של נתוני multi-omics, מתן בסיס למודלים חיזוי ומודולי איתות המייצגים שכבות מרובות של נתוני omics.
מערכי נתונים גדולים של omics הופכים זמינים יותר ויותר למחקר על בריאות האדם. מאמר זה מציג את DeepOmicsAE, זרימת עבודה המותאמת לניתוח מערכי נתונים רב-אומיים, כולל פרוטאומיקה, מטבולומיקה ונתונים קליניים. זרימת עבודה זו משתמשת בסוג של רשת עצבית הנקראת autoencoder, כדי לחלץ קבוצה תמציתית של תכונות מנתוני הקלט הרב-מימדיים הגבוהים. יתר על כן, זרימת העבודה מספקת שיטה לייעול הפרמטרים העיקריים הדרושים ליישום המקודד האוטומטי. כדי להציג את זרימת העבודה הזו, נותחו נתונים קליניים מעוקבה של 142 אנשים שהיו בריאים או אובחנו עם מחלת אלצהיימר, יחד עם הפרוטאום והמטבוליזם של דגימות המוח שלהם לאחר המוות. התכונות המופקות מהשכבה הסמויה של המקודד האוטומטי שומרות על המידע הביולוגי המפריד בין חולים בריאים לחולים. בנוסף, התכונות הבודדות שחולצו מייצגות מודולי איתות מולקולרי נפרדים, שכל אחד מהם מקיים אינטראקציה ייחודית עם התכונות הקליניות של הפרטים, ומספק אמצעי לשילוב הפרוטאומיקה, המטבולומיקה והנתונים הקליניים.
חלק הולך וגדל מהאוכלוסייה מזדקן והנטל של מחלות הקשורות לגיל, כגון ניוון עצבי, צפוי לעלות בחדות בעשורים הקרובים1. מחלת אלצהיימר היא הסוג הנפוץ ביותר של מחלות נוירודגנרטיביות2. ההתקדמות במציאת טיפול הייתה איטית בהתחשב בהבנה הלקויה שלנו של המנגנונים המולקולריים הבסיסיים המניעים את הופעת המחלה והתקדמותה. רוב המידע על מחלת האלצהיימר מתקבל לאחר המוות מבדיקת רקמת המוח, מה שהפך את ההבחנה בין סיבות ותוצאות למשימה קשה3. פרויקט מחקר המסדרים הדתיים / זיכרון והזדקנות (ROSMAP) הוא מאמץ שאפתני להשיג הבנה רחבה יותר של ניוון עצבי, הכולל מחקר של אלפי אנשים שהתחייבו לעבור בדיקות רפואיות ופסיכולוגיות מדי שנה ולתרום את מוחם למחקר לאחר מותם4. המחקר מתמקד במעבר מתפקוד תקין של המוח למחלת אלצהיימר2. במסגרת הפרויקט, דגימות מוח לאחר המוות נותחו עם שפע של גישות אומיקס, כולל גנומיקה, אפיגנומיקה, טרנסקריפטומיקס, פרוטאומיקה5 ומטבולומיקה.
טכנולוגיות Omics המציעות קריאות פונקציונליות של מצבים תאיים (כלומר, פרוטאומיקה ומטבולומיקה)6,7 הן המפתח לפענוח מחלה 8,9,10,11,12, בשל הקשר הישיר בין חלבון ושפע מטבוליטים ופעילויות תאיות. חלבונים הם המבצעים העיקריים של תהליכים תאיים, בעוד מטבוליטים הם המצע והתוצרים של תגובות ביוכימיות. ניתוח נתונים מולטי-אומיקה מציע את האפשרות להבין את היחסים המורכבים בין נתונים פרוטאומיים ומטאבולומיים במקום להעריך אותם בנפרד. מולטי-אומיקס היא דיסציפלינה החוקרת שכבות מרובות של נתונים ביולוגיים בממדים גבוהים, כולל נתונים מולקולריים (רצף גנום ומוטציות, תעתוק, פרוטום, מטבוליזם), נתוני הדמיה קלינית ותכונות קליניות. בפרט, ניתוח נתונים מולטי-אומיקס נועד לשלב שכבות כאלה של נתונים ביולוגיים, להבין את הוויסות ההדדי שלהם ואת דינמיקת האינטראקציה, ולספק הבנה הוליסטית של התפרצות המחלה והתקדמותה. עם זאת, שיטות לשילוב נתונים מולטי-אומיים נותרו בשלבים המוקדמים של הפיתוח13.
Autoencoders, סוג של רשת עצבית14 ללא פיקוח, הם כלי רב עוצמה לשילוב נתונים multi-omics. שלא כמו רשתות עצביות מפוקחות, מקודדים אוטומטיים אינם ממפים דגימות לערכי מטרה ספציפיים (כגון בריאים או חולים), והם אינם משמשים לחיזוי תוצאות. אחד היישומים העיקריים שלהם טמון בהפחתת ממדיות. עם זאת, מקודדים אוטומטיים מציעים מספר יתרונות על פני שיטות פשוטות יותר להפחתת ממדיות, כגון ניתוח רכיבים עיקריים (PCA), הטבעה של שכן סטוכסטי מבוזר t (tSNE), או קירוב סעפת אחידה והקרנה (UMAP). שלא כמו PCA, מקודדים אוטומטיים יכולים ללכוד קשרים לא ליניאריים בתוך הנתונים. שלא כמו tSNE ו- UMAP, הם יכולים לזהות יחסים היררכיים ורב-מודאליים בתוך הנתונים מכיוון שהם מסתמכים על שכבות מרובות של יחידות חישוביות שכל אחת מהן מכילה פונקציות הפעלה לא ליניאריות. לכן, הם מייצגים מודלים אטרקטיביים כדי ללכוד את המורכבות של נתונים multi-omics. לבסוף, בעוד היישום העיקרי של PCA, tSNE ו- UMAP הוא זה של קיבוץ הנתונים, מקודדים אוטומטיים דוחסים את נתוני הקלט לתכונות מחולצות המתאימות היטב למשימות חיזוי במורד הזרם15,16.
בקצרה, רשתות עצביות מורכבות מכמה שכבות, שכל אחת מהן מכילה יחידות חישוביות מרובות או “נוירונים”. השכבה הראשונה והשכבה האחרונה נקראות שכבות הקלט והפלט, בהתאמה. מקודדים אוטומטיים הם רשתות עצביות בעלות מבנה שעון חול, המורכב משכבת קלט, ואחריה שכבה אחת עד שלוש שכבות נסתרות ושכבה “סמויה” קטנה המכילה בדרך כלל בין שניים לשישה נוירונים. חציו הראשון של מבנה זה מכונה מקודד והוא משולב עם מפענח המשקף את המקודד. המפענח מסתיים בשכבת פלט המכילה את אותו מספר תאי עצב כמו שכבת הקלט. מקודדים אוטומטיים לוקחים את הקלט דרך צוואר הבקבוק ומשחזרים אותו בשכבת הפלט, במטרה לייצר פלט המשקף את המידע המקורי קרוב ככל האפשר. זה מושג על ידי מזעור מתמטי של פרמטר המכונה “אובדן שחזור”. הקלט מורכב מסט של תכונות, אשר ביישום המוצג כאן יהיו שפע חלבונים ומטבוליטים, ומאפיינים קליניים (כלומר, מין, השכלה וגיל בעת המוות). השכבה הסמויה מכילה ייצוג דחוס ועשיר במידע של הקלט, שניתן להשתמש בו ליישומים הבאים כגון מודלים לחיזוי17,18.
פרוטוקול זה מציג זרימת עבודה, DeepOmicsAE, הכוללת: 1) עיבוד מקדים של פרוטאומיקה, מטבולומיקה ונתונים קליניים (כלומר, נורמליזציה, קנה מידה, הסרה חריגה) כדי להשיג נתונים בקנה מידה עקבי לניתוח למידת מכונה; 2) בחירת תכונות קלט מקודד אוטומטי מתאימות, שכן עומס יתר על תכונות עלול לטשטש דפוסי מחלה רלוונטיים; 3) אופטימיזציה ואימון של המקודד האוטומטי, כולל קביעת המספר האופטימלי של חלבונים ומטבוליטים לבחירה, ושל נוירונים לשכבה הסמויה; 4) חילוץ תכונות מהשכבה הסמויה; ו-5) ניצול התכונות המחולצות לפרשנות ביולוגית על ידי זיהוי מודולי איתות מולקולרי והקשר שלהם עם תכונות קליניות.
פרוטוקול זה נועד להיות פשוט וישים על ידי ביולוגים עם ניסיון חישובי מוגבל שיש להם הבנה בסיסית של תכנות עם Python. הפרוטוקול מתמקד בניתוח נתונים מולטי-אומיקס, כולל פרוטאומיקה, מטבולומיקה ותכונות קליניות, אך ניתן להרחיב את השימוש בו לסוגים אחרים של נתוני ביטוי מולקולרי, כולל תעתוק. יישום חדשני חשוב אחד שהוצג על ידי פרוטוקול זה הוא מיפוי ציוני החשיבות של תכונות מקוריות על נוירונים בודדים בשכבה הסמויה. כתוצאה מכך, כל נוירון בשכבה הסמויה מייצג מודול איתות, המפרט את האינטראקציות בין שינויים מולקולריים ספציפיים לבין המאפיינים הקליניים של החולים. הפרשנות הביולוגית של מודולי האיתות המולקולרי מתקבלת באמצעות MetaboAnalyst, כלי זמין לציבור המשלב נתוני גנים/חלבונים ומטבוליטים כדי להפיק מסלולי איתות מטבוליים ותאים מועשרים17.
מבנה מערך הנתונים הוא קריטי להצלחת הפרוטוקול ויש לבדוק אותו בקפידה. יש לעצב את הנתונים כפי שמצוין בסעיף 1 של הפרוטוקול. הקצאה נכונה של מיקומי טורים היא גם קריטית להצלחת השיטה. נתוני פרוטאומיקה ומטבולומיקה מעובדים מראש באופן שונה ובחירת התכונות מתבצעת בנפרד בשל אופיים השונה של הנתונים. לכן…
The authors have nothing to disclose.
עבודה זו נתמכה על ידי CA201402 המענקים של NIH ופרס Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. התוצאות המתפרסמות כאן מבוססות במלואן או בחלקן על נתונים שהתקבלו מפורטל הידע של AD (https://adknowledgeportal.org). נתוני המחקר סופקו באמצעות השותפות להאצת הרפואה עבור אלצהיימר (U01AG046161 ו-U01AG061357) בהתבסס על דגימות שסופקו על ידי המרכז למחלות אלצהיימר ראש, המרכז הרפואי האוניברסיטאי ראש, שיקגו. איסוף הנתונים נתמך באמצעות מימון על ידי מענקי NIA P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, מחלקת בריאות הציבור של אילינוי ומכון המחקר לגנומיקה תרגומית. מערך הנתונים המטאבולומי נוצר במטאבולון ועובד מראש על ידי ADMC.
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |