Summary

DeepOmicsAE: تمثيل وحدات الإشارات في مرض الزهايمر مع تحليل التعلم العميق للبروتينات والأيض والبيانات السريرية

Published: December 15, 2023
doi:

Summary

DeepOmicsAE هو سير عمل يركز على تطبيق طريقة التعلم العميق (أي التشفير التلقائي) لتقليل أبعاد بيانات الأوميكس المتعددة ، مما يوفر أساسا للنماذج التنبؤية ووحدات الإشارات التي تمثل طبقات متعددة من بيانات omics.

Abstract

أصبحت مجموعات بيانات omics الكبيرة متاحة بشكل متزايد للبحث في صحة الإنسان. تقدم هذه الورقة DeepOmicsAE ، وهو سير عمل محسن لتحليل مجموعات البيانات متعددة الأوميكس ، بما في ذلك البروتينات والأيض والبيانات السريرية. يستخدم سير العمل هذا نوعا من الشبكات العصبية يسمى autoencoder ، لاستخراج مجموعة موجزة من الميزات من بيانات الإدخال متعددة الأبعاد عالية الأبعاد. علاوة على ذلك ، يوفر سير العمل طريقة لتحسين المعلمات الرئيسية اللازمة لتنفيذ برنامج التشفير التلقائي. لعرض سير العمل هذا ، تم تحليل البيانات السريرية من مجموعة من 142 فردا كانوا إما أصحاء أو تم تشخيصهم بمرض الزهايمر ، إلى جانب البروتين والتمثيل الغذائي لعينات الدماغ بعد الوفاة. تحتفظ الميزات المستخرجة من الطبقة الكامنة للمشفر التلقائي بالمعلومات البيولوجية التي تفصل بين المرضى الأصحاء والمرضى. بالإضافة إلى ذلك ، تمثل الميزات المستخرجة الفردية وحدات إشارات جزيئية متميزة ، يتفاعل كل منها بشكل فريد مع السمات السريرية للأفراد ، مما يوفر وسيلة لدمج البروتينات والأيض والبيانات السريرية.

Introduction

نسبة كبيرة بشكل متزايد من السكان يشيخون ومن المتوقع أن يزداد عبء الأمراض المرتبطة بالعمر ، مثل التنكس العصبي ، بشكل حاد في العقود القادمة1. مرض الزهايمر هو النوع الأكثر شيوعا من الأمراض التنكسية العصبية2. كان التقدم في العثور على علاج بطيئا نظرا لفهمنا الضعيف للآليات الجزيئية الأساسية التي تقود ظهور المرض وتقدمه. يتم الحصول على غالبية المعلومات حول مرض الزهايمر بعد الوفاة من فحص أنسجة المخ ، مما جعل التمييز بين الأسباب والعواقب مهمة صعبة3. مشروع دراسة الأوامر الدينية / الذاكرة والشيخوخة (ROSMAP) هو جهد طموح لاكتساب فهم أوسع للتنكس العصبي ، والذي يتضمن دراسة آلاف الأفراد الذين التزموا بالخضوع لفحوصات طبية ونفسية سنويا والمساهمة بأدمغتهم للبحث بعد وفاتهم4. تركز الدراسة على الانتقال من الأداء الطبيعي للدماغ إلى مرض الزهايمر2. ضمن المشروع ، تم تحليل عينات الدماغ بعد الوفاة مع عدد كبير من مناهج omics ، بما في ذلك علم الجينوم ، وعلم الجينوم ، وعلم النسخ ، والبروتينات5 ، وعلم الأيض.

تقنيات أوميكس التي تقدم قراءات وظيفية للحالات الخلوية (أي البروتينات والأيض)6,7 هي المفتاح لتفسير المرض8،9،10،11،12 ، بسبب العلاقة المباشرة بين وفرة البروتين والمستقلبات والأنشطة الخلوية. البروتينات هي المنفذين الأساسيين للعمليات الخلوية ، في حين أن المستقلبات هي ركائز ومنتجات التفاعلات الكيميائية الحيوية. يوفر تحليل بيانات Multi-omics إمكانية فهم العلاقات المعقدة بين بيانات البروتينات والأيض بدلا من تقديرها بمعزل عن غيرها. Multi-omics هو تخصص يدرس طبقات متعددة من البيانات البيولوجية عالية الأبعاد ، بما في ذلك البيانات الجزيئية (تسلسل الجينوم والطفرات ، والنسخ ، والبروتين ، والأيض) ، وبيانات التصوير السريري ، والميزات السريرية. على وجه الخصوص ، يهدف تحليل البيانات متعددة الأوميكس إلى دمج هذه الطبقات من البيانات البيولوجية ، وفهم تنظيمها المتبادل وديناميكيات التفاعل ، وتقديم فهم شامل لبداية المرض وتطوره. ومع ذلك ، لا تزال طرق دمج البيانات متعددة الأوميكس في المراحل الأولى من التطوير13.

تعد أجهزة التشفير التلقائي ، وهي نوع من الشبكات العصبية غير الخاضعة للإشراف14 ، أداة قوية لتكامل البيانات متعددة الأوميكس. على عكس الشبكات العصبية الخاضعة للإشراف ، لا تقوم أجهزة التشفير الذاتي بتعيين عينات إلى قيم مستهدفة محددة (مثل صحية أو مريضة) ، ولا يتم استخدامها للتنبؤ بالنتائج. يكمن أحد تطبيقاتها الأساسية في تقليل الأبعاد. ومع ذلك ، توفر أجهزة التشفير التلقائي العديد من المزايا مقارنة بطرق تقليل الأبعاد الأبسط مثل تحليل المكون الرئيسي (PCA) ، أو تضمين الجار العشوائي الموزع على t (tSNE) ، أو التقريب والإسقاط المشعب الموحد (UMAP). على عكس PCA ، يمكن لأجهزة التشفير التلقائي التقاط العلاقات غير الخطية داخل البيانات. على عكس tSNE و UMAP ، يمكنهم اكتشاف العلاقات الهرمية ومتعددة الوسائط داخل البيانات لأنها تعتمد على طبقات متعددة من الوحدات الحسابية تحتوي كل منها على وظائف تنشيط غير خطية. لذلك ، فهي تمثل نماذج جذابة لالتقاط تعقيد بيانات الأوميكس المتعددة. أخيرا ، في حين أن التطبيق الأساسي ل PCA و tSNE و UMAP هو تجميع البيانات ، تقوم أجهزة التشفير التلقائي بضغط بيانات الإدخال إلى ميزات مستخرجة مناسبة تماما للمهام التنبؤية النهائية15,16.

باختصار ، تتكون الشبكات العصبية من عدة طبقات ، تحتوي كل منها على وحدات حسابية متعددة أو “خلايا عصبية”. يشار إلى الطبقات الأولى والأخيرة باسم طبقات الإدخال والإخراج ، على التوالي. التشفير الذاتي عبارة عن شبكات عصبية ذات بنية الساعة الرملية ، تتكون من طبقة إدخال ، تليها طبقة واحدة إلى ثلاث طبقات مخفية وطبقة صغيرة “كامنة” تحتوي عادة على ما بين اثنين وستة خلايا عصبية. يعرف النصف الأول من هذا الهيكل باسم التشفير ويتم دمجه مع وحدة فك ترميز تعكس برنامج التشفير. ينتهي جهاز فك التشفير بطبقة خرج تحتوي على نفس عدد الخلايا العصبية مثل طبقة الإدخال. تأخذ أجهزة التشفير التلقائي المدخلات من خلال عنق الزجاجة وتعيد بنائها في طبقة الإخراج ، بهدف إنشاء مخرجات تعكس المعلومات الأصلية بأكبر قدر ممكن. يتم تحقيق ذلك عن طريق التقليل رياضيا من معلمة تسمى “خسارة إعادة الإعمار”. يتكون المدخل من مجموعة من الميزات ، والتي في التطبيق المعروض هنا ستكون وفرة البروتين والأيض ، والخصائص السريرية (أي الجنس والتعليم والعمر عند الوفاة). تحتوي الطبقة الكامنة على تمثيل مضغوط وغني بالمعلومات للمدخلات ، والذي يمكن استخدامه للتطبيقات اللاحقة مثل النماذج التنبؤية17,18.

يقدم هذا البروتوكول سير عمل ، DeepOmicsAE ، والذي يتضمن: 1) المعالجة المسبقة للبروتينات والأيض والبيانات السريرية (أي التطبيع والقياس والإزالة الخارجية) للحصول على بيانات بمقياس ثابت لتحليل التعلم الآلي ؛ 2) اختيار ميزات إدخال التشفير التلقائي المناسبة ، لأن الحمل الزائد للميزة قد يحجب أنماط المرض ذات الصلة ؛ 3) تحسين وتدريب التشفير الذاتي ، بما في ذلك تحديد العدد الأمثل للبروتينات والمستقلبات للاختيار ، والخلايا العصبية للطبقة الكامنة ؛ 4) استخراج الميزات من الطبقة الكامنة ؛ و 5) استخدام الميزات المستخرجة للتفسير البيولوجي من خلال تحديد وحدات الإشارات الجزيئية وعلاقتها بالسمات السريرية.

يهدف هذا البروتوكول إلى أن يكون بسيطا وقابلا للتطبيق من قبل علماء الأحياء ذوي الخبرة الحسابية المحدودة الذين لديهم فهم أساسي للبرمجة باستخدام بايثون. يركز البروتوكول على تحليل بيانات الأوميكس المتعددة ، بما في ذلك البروتينات والأيض والسمات السريرية ، ولكن يمكن توسيع استخدامه ليشمل أنواعا أخرى من بيانات التعبير الجزيئي ، بما في ذلك النسخ. أحد التطبيقات الجديدة المهمة التي قدمها هذا البروتوكول هو تعيين درجات أهمية الميزات الأصلية على الخلايا العصبية الفردية في الطبقة الكامنة. نتيجة لذلك ، تمثل كل خلية عصبية في الطبقة الكامنة وحدة إشارات ، توضح بالتفصيل التفاعلات بين التغيرات الجزيئية المحددة والخصائص السريرية للمرضى. يتم الحصول على التفسير البيولوجي لوحدات الإشارات الجزيئية باستخدام MetaboAnalyst ، وهي أداة متاحة للجمهور تدمج بيانات الجينات / البروتين والأيض لاشتقاق مسارات إشارات التمثيل الغذائي والخليةالمخصب 17.

Protocol

ملاحظة: البيانات المستخدمة هنا هي بيانات ROSMAP التي تم تنزيلها من بوابة AD المعرفية. ليست هناك حاجة إلى موافقة مستنيرة لتنزيل البيانات وإعادة استخدامها. يستخدم البروتوكول المقدم هنا التعلم العميق لتحليل بيانات الأوميكس المتعددة وتحديد وحدات الإشارات التي تميز مجموعات معينة من المرضى أو ال?…

Representative Results

لعرض البروتوكول ، قمنا بتحليل مجموعة بيانات تضم البروتينات والأيض والمعلومات السريرية المستمدة من أدمغة ما بعد الوفاة ل 142 فردا كانوا إما أصحاء أو تم تشخيصهم بمرض الزهايمر. بعد إجراء قسم البروتوكول 1 للمعالجة المسبقة للبيانات ، تضمنت مجموعة البيانات 6,497 بروتينا و 443 مستقلبا…

Discussion

هيكل مجموعة البيانات أمر بالغ الأهمية لنجاح البروتوكول ويجب التحقق منه بعناية. يجب تنسيق البيانات كما هو موضح في قسم البروتوكول 1. يعد التعيين الصحيح لمواضع الأعمدة أمرا بالغ الأهمية أيضا لنجاح الطريقة. تتم معالجة بيانات البروتيوميات والأيض بشكل مختلف ويتم اختيار الميزة بشكل منفصل بسبب ا…

Disclosures

The authors have nothing to disclose.

Acknowledgements

تم دعم هذا العمل من قبل CA201402 منحة المعاهد الوطنية للصحة وجائزة الباحث المتميز لمركز كورنيل لعلم جينوم الفقاريات (CVG). تستند النتائج المنشورة هنا كليا أو جزئيا إلى البيانات التي تم الحصول عليها من بوابة المعرفة الخاصة بأبوظبي (https://adknowledgeportal.org). تم توفير بيانات الدراسة من خلال شراكة الطب المسرع لمرض الزهايمر (U01AG046161 و U01AG061357) بناء على العينات المقدمة من مركز مرض الزهايمر راش ، المركز الطبي بجامعة راش ، شيكاغو. تم دعم جمع البيانات من خلال التمويل من قبل منح NIA P30AG10161 و R01AG15819 و R01AG17917 و R01AG30146 و R01AG36836 و U01AG32984 و U01AG46152 وإدارة الصحة العامة في إلينوي ومعهد أبحاث الجينوم الانتقالي. تم إنشاء مجموعة بيانات الأيض في Metabolon ومعالجتها مسبقا بواسطة ADMC.

Materials

Computer Apple Mac Studio Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1 Anaconda, Inc. N/A package management system and environment manager
conda environment
DeepOmicsAE
N/A DeepOmicsAE_env.yml contains packages necessary to run the worflow
github repository DeepOmicsAE Microsoft https://github.com/elepan84/DeepOmicsAE/ provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4 Project Jupyter N/A a platform for interactive data science and scientific computing
DT01-metabolomics data N/A ROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data N/A C2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817×400.csv
DT03-clinical data N/A ROSMAP_clinical.csv
DT04-biospecimen metadata N/A ROSMAP_biospecimen_metadata
.csv
Python 3.11.3  Python Software Foundation N/A programming language

References

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
  4. Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
  5. Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
  6. Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
  7. Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
  8. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
  9. Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
  10. Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
  11. Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
  12. Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
  13. Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
  14. Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
  15. Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
  16. Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
  17. Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
  18. Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
  19. Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
  20. Lundberg, S. M., Allen, P. G., Lee, S. -. I. A unified approach to interpreting model predictions. , (2017).
  21. Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
  22. Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
  23. Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
  24. Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
  25. Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
  26. Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
  27. Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders – Drug Targets. 16 (3), 220-233 (2017).
  28. Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Play Video

Cite This Article
Panizza, E. DeepOmicsAE: Representing Signaling Modules in Alzheimer’s Disease with Deep Learning Analysis of Proteomics, Metabolomics, and Clinical Data. J. Vis. Exp. (202), e65910, doi:10.3791/65910 (2023).

View Video