DeepOmicsAE هو سير عمل يركز على تطبيق طريقة التعلم العميق (أي التشفير التلقائي) لتقليل أبعاد بيانات الأوميكس المتعددة ، مما يوفر أساسا للنماذج التنبؤية ووحدات الإشارات التي تمثل طبقات متعددة من بيانات omics.
أصبحت مجموعات بيانات omics الكبيرة متاحة بشكل متزايد للبحث في صحة الإنسان. تقدم هذه الورقة DeepOmicsAE ، وهو سير عمل محسن لتحليل مجموعات البيانات متعددة الأوميكس ، بما في ذلك البروتينات والأيض والبيانات السريرية. يستخدم سير العمل هذا نوعا من الشبكات العصبية يسمى autoencoder ، لاستخراج مجموعة موجزة من الميزات من بيانات الإدخال متعددة الأبعاد عالية الأبعاد. علاوة على ذلك ، يوفر سير العمل طريقة لتحسين المعلمات الرئيسية اللازمة لتنفيذ برنامج التشفير التلقائي. لعرض سير العمل هذا ، تم تحليل البيانات السريرية من مجموعة من 142 فردا كانوا إما أصحاء أو تم تشخيصهم بمرض الزهايمر ، إلى جانب البروتين والتمثيل الغذائي لعينات الدماغ بعد الوفاة. تحتفظ الميزات المستخرجة من الطبقة الكامنة للمشفر التلقائي بالمعلومات البيولوجية التي تفصل بين المرضى الأصحاء والمرضى. بالإضافة إلى ذلك ، تمثل الميزات المستخرجة الفردية وحدات إشارات جزيئية متميزة ، يتفاعل كل منها بشكل فريد مع السمات السريرية للأفراد ، مما يوفر وسيلة لدمج البروتينات والأيض والبيانات السريرية.
نسبة كبيرة بشكل متزايد من السكان يشيخون ومن المتوقع أن يزداد عبء الأمراض المرتبطة بالعمر ، مثل التنكس العصبي ، بشكل حاد في العقود القادمة1. مرض الزهايمر هو النوع الأكثر شيوعا من الأمراض التنكسية العصبية2. كان التقدم في العثور على علاج بطيئا نظرا لفهمنا الضعيف للآليات الجزيئية الأساسية التي تقود ظهور المرض وتقدمه. يتم الحصول على غالبية المعلومات حول مرض الزهايمر بعد الوفاة من فحص أنسجة المخ ، مما جعل التمييز بين الأسباب والعواقب مهمة صعبة3. مشروع دراسة الأوامر الدينية / الذاكرة والشيخوخة (ROSMAP) هو جهد طموح لاكتساب فهم أوسع للتنكس العصبي ، والذي يتضمن دراسة آلاف الأفراد الذين التزموا بالخضوع لفحوصات طبية ونفسية سنويا والمساهمة بأدمغتهم للبحث بعد وفاتهم4. تركز الدراسة على الانتقال من الأداء الطبيعي للدماغ إلى مرض الزهايمر2. ضمن المشروع ، تم تحليل عينات الدماغ بعد الوفاة مع عدد كبير من مناهج omics ، بما في ذلك علم الجينوم ، وعلم الجينوم ، وعلم النسخ ، والبروتينات5 ، وعلم الأيض.
تقنيات أوميكس التي تقدم قراءات وظيفية للحالات الخلوية (أي البروتينات والأيض)6,7 هي المفتاح لتفسير المرض8،9،10،11،12 ، بسبب العلاقة المباشرة بين وفرة البروتين والمستقلبات والأنشطة الخلوية. البروتينات هي المنفذين الأساسيين للعمليات الخلوية ، في حين أن المستقلبات هي ركائز ومنتجات التفاعلات الكيميائية الحيوية. يوفر تحليل بيانات Multi-omics إمكانية فهم العلاقات المعقدة بين بيانات البروتينات والأيض بدلا من تقديرها بمعزل عن غيرها. Multi-omics هو تخصص يدرس طبقات متعددة من البيانات البيولوجية عالية الأبعاد ، بما في ذلك البيانات الجزيئية (تسلسل الجينوم والطفرات ، والنسخ ، والبروتين ، والأيض) ، وبيانات التصوير السريري ، والميزات السريرية. على وجه الخصوص ، يهدف تحليل البيانات متعددة الأوميكس إلى دمج هذه الطبقات من البيانات البيولوجية ، وفهم تنظيمها المتبادل وديناميكيات التفاعل ، وتقديم فهم شامل لبداية المرض وتطوره. ومع ذلك ، لا تزال طرق دمج البيانات متعددة الأوميكس في المراحل الأولى من التطوير13.
تعد أجهزة التشفير التلقائي ، وهي نوع من الشبكات العصبية غير الخاضعة للإشراف14 ، أداة قوية لتكامل البيانات متعددة الأوميكس. على عكس الشبكات العصبية الخاضعة للإشراف ، لا تقوم أجهزة التشفير الذاتي بتعيين عينات إلى قيم مستهدفة محددة (مثل صحية أو مريضة) ، ولا يتم استخدامها للتنبؤ بالنتائج. يكمن أحد تطبيقاتها الأساسية في تقليل الأبعاد. ومع ذلك ، توفر أجهزة التشفير التلقائي العديد من المزايا مقارنة بطرق تقليل الأبعاد الأبسط مثل تحليل المكون الرئيسي (PCA) ، أو تضمين الجار العشوائي الموزع على t (tSNE) ، أو التقريب والإسقاط المشعب الموحد (UMAP). على عكس PCA ، يمكن لأجهزة التشفير التلقائي التقاط العلاقات غير الخطية داخل البيانات. على عكس tSNE و UMAP ، يمكنهم اكتشاف العلاقات الهرمية ومتعددة الوسائط داخل البيانات لأنها تعتمد على طبقات متعددة من الوحدات الحسابية تحتوي كل منها على وظائف تنشيط غير خطية. لذلك ، فهي تمثل نماذج جذابة لالتقاط تعقيد بيانات الأوميكس المتعددة. أخيرا ، في حين أن التطبيق الأساسي ل PCA و tSNE و UMAP هو تجميع البيانات ، تقوم أجهزة التشفير التلقائي بضغط بيانات الإدخال إلى ميزات مستخرجة مناسبة تماما للمهام التنبؤية النهائية15,16.
باختصار ، تتكون الشبكات العصبية من عدة طبقات ، تحتوي كل منها على وحدات حسابية متعددة أو “خلايا عصبية”. يشار إلى الطبقات الأولى والأخيرة باسم طبقات الإدخال والإخراج ، على التوالي. التشفير الذاتي عبارة عن شبكات عصبية ذات بنية الساعة الرملية ، تتكون من طبقة إدخال ، تليها طبقة واحدة إلى ثلاث طبقات مخفية وطبقة صغيرة “كامنة” تحتوي عادة على ما بين اثنين وستة خلايا عصبية. يعرف النصف الأول من هذا الهيكل باسم التشفير ويتم دمجه مع وحدة فك ترميز تعكس برنامج التشفير. ينتهي جهاز فك التشفير بطبقة خرج تحتوي على نفس عدد الخلايا العصبية مثل طبقة الإدخال. تأخذ أجهزة التشفير التلقائي المدخلات من خلال عنق الزجاجة وتعيد بنائها في طبقة الإخراج ، بهدف إنشاء مخرجات تعكس المعلومات الأصلية بأكبر قدر ممكن. يتم تحقيق ذلك عن طريق التقليل رياضيا من معلمة تسمى “خسارة إعادة الإعمار”. يتكون المدخل من مجموعة من الميزات ، والتي في التطبيق المعروض هنا ستكون وفرة البروتين والأيض ، والخصائص السريرية (أي الجنس والتعليم والعمر عند الوفاة). تحتوي الطبقة الكامنة على تمثيل مضغوط وغني بالمعلومات للمدخلات ، والذي يمكن استخدامه للتطبيقات اللاحقة مثل النماذج التنبؤية17,18.
يقدم هذا البروتوكول سير عمل ، DeepOmicsAE ، والذي يتضمن: 1) المعالجة المسبقة للبروتينات والأيض والبيانات السريرية (أي التطبيع والقياس والإزالة الخارجية) للحصول على بيانات بمقياس ثابت لتحليل التعلم الآلي ؛ 2) اختيار ميزات إدخال التشفير التلقائي المناسبة ، لأن الحمل الزائد للميزة قد يحجب أنماط المرض ذات الصلة ؛ 3) تحسين وتدريب التشفير الذاتي ، بما في ذلك تحديد العدد الأمثل للبروتينات والمستقلبات للاختيار ، والخلايا العصبية للطبقة الكامنة ؛ 4) استخراج الميزات من الطبقة الكامنة ؛ و 5) استخدام الميزات المستخرجة للتفسير البيولوجي من خلال تحديد وحدات الإشارات الجزيئية وعلاقتها بالسمات السريرية.
يهدف هذا البروتوكول إلى أن يكون بسيطا وقابلا للتطبيق من قبل علماء الأحياء ذوي الخبرة الحسابية المحدودة الذين لديهم فهم أساسي للبرمجة باستخدام بايثون. يركز البروتوكول على تحليل بيانات الأوميكس المتعددة ، بما في ذلك البروتينات والأيض والسمات السريرية ، ولكن يمكن توسيع استخدامه ليشمل أنواعا أخرى من بيانات التعبير الجزيئي ، بما في ذلك النسخ. أحد التطبيقات الجديدة المهمة التي قدمها هذا البروتوكول هو تعيين درجات أهمية الميزات الأصلية على الخلايا العصبية الفردية في الطبقة الكامنة. نتيجة لذلك ، تمثل كل خلية عصبية في الطبقة الكامنة وحدة إشارات ، توضح بالتفصيل التفاعلات بين التغيرات الجزيئية المحددة والخصائص السريرية للمرضى. يتم الحصول على التفسير البيولوجي لوحدات الإشارات الجزيئية باستخدام MetaboAnalyst ، وهي أداة متاحة للجمهور تدمج بيانات الجينات / البروتين والأيض لاشتقاق مسارات إشارات التمثيل الغذائي والخليةالمخصب 17.
هيكل مجموعة البيانات أمر بالغ الأهمية لنجاح البروتوكول ويجب التحقق منه بعناية. يجب تنسيق البيانات كما هو موضح في قسم البروتوكول 1. يعد التعيين الصحيح لمواضع الأعمدة أمرا بالغ الأهمية أيضا لنجاح الطريقة. تتم معالجة بيانات البروتيوميات والأيض بشكل مختلف ويتم اختيار الميزة بشكل منفصل بسبب ا…
The authors have nothing to disclose.
تم دعم هذا العمل من قبل CA201402 منحة المعاهد الوطنية للصحة وجائزة الباحث المتميز لمركز كورنيل لعلم جينوم الفقاريات (CVG). تستند النتائج المنشورة هنا كليا أو جزئيا إلى البيانات التي تم الحصول عليها من بوابة المعرفة الخاصة بأبوظبي (https://adknowledgeportal.org). تم توفير بيانات الدراسة من خلال شراكة الطب المسرع لمرض الزهايمر (U01AG046161 و U01AG061357) بناء على العينات المقدمة من مركز مرض الزهايمر راش ، المركز الطبي بجامعة راش ، شيكاغو. تم دعم جمع البيانات من خلال التمويل من قبل منح NIA P30AG10161 و R01AG15819 و R01AG17917 و R01AG30146 و R01AG36836 و U01AG32984 و U01AG46152 وإدارة الصحة العامة في إلينوي ومعهد أبحاث الجينوم الانتقالي. تم إنشاء مجموعة بيانات الأيض في Metabolon ومعالجتها مسبقا بواسطة ADMC.
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |