DeepOmicsAE — это рабочий процесс, основанный на применении метода глубокого обучения (т. е. автоэнкодера) для уменьшения размерности мультиомиксных данных, обеспечивая основу для прогностических моделей и сигнальных модулей, представляющих несколько слоев омиксных данных.
Большие омиксные наборы данных становятся все более доступными для исследований здоровья человека. В этом документе представлен DeepOmicsAE, рабочий процесс, оптимизированный для анализа мультиомиксных наборов данных, включая протеомику, метаболомику и клинические данные. В этом рабочем процессе используется тип нейронной сети, называемый автоэнкодером, для извлечения краткого набора признаков из многомерных многоомиксных входных данных. Кроме того, рабочий процесс предоставляет метод оптимизации ключевых параметров, необходимых для реализации автоэнкодера. Чтобы продемонстрировать этот рабочий процесс, были проанализированы клинические данные когорты из 142 человек, которые были либо здоровы, либо у которых была диагностирована болезнь Альцгеймера, а также протеом и метаболом их посмертных образцов мозга. Признаки, извлеченные из латентного слоя автоэнкодера, сохраняют биологическую информацию, которая разделяет здоровых и больных пациентов. Кроме того, отдельные выделенные признаки представляют собой отдельные молекулярные сигнальные модули, каждый из которых уникально взаимодействует с клиническими особенностями индивидуумов, обеспечивая способ интеграции протеомики, метаболомики и клинических данных.
Все большая часть населения стареет, и ожидается, что вближайшие десятилетия бремя возрастных заболеваний, таких как нейродегенерация, резко возрастет1. Болезнь Альцгеймера является наиболее распространенным типом нейродегенеративного заболевания2. Прогресс в поиске лечения был медленным, учитывая наше плохое понимание фундаментальных молекулярных механизмов, управляющих возникновением и прогрессированием заболевания. Большая часть информации о болезни Альцгеймера получена посмертно при исследовании тканей головного мозга, что сделало различение причин и следствий труднойзадачей. Проект по изучению памяти и старения религиозных орденов (ROSMAP) представляет собой амбициозную попытку получить более широкое понимание нейродегенерации, которая включает в себя изучение тысяч людей, которые взяли на себя обязательство ежегодно проходить медицинские и психологические обследования и предоставлять свой мозг для исследований после своейкончины. Исследование посвящено переходу от нормального функционирования мозга к болезни Альцгеймера2. В рамках проекта посмертные образцы мозга были проанализированы с помощью множества омиксных подходов, включая геномику, эпигеномику, транскриптомику, протеомику5 и метаболомику.
Омиксные технологии, обеспечивающие функциональное считывание клеточных состояний (т.е. протеомики и метаболомики)6,7, являются ключом к интерпретации заболеваний 8,9,10,11,12 из-за прямой связи между содержанием белка и метаболитов и клеточной активностью. Белки являются первичными исполнителями клеточных процессов, а метаболиты – субстратами и продуктами биохимических реакций. Мультиомиксный анализ данных дает возможность понять сложные взаимосвязи между данными протеомики и метаболомики, а не оценивать их по отдельности. Мультиомика — это дисциплина, которая изучает несколько слоев многомерных биологических данных, включая молекулярные данные (последовательность и мутации генома, транскриптом, протеом, метаболом), данные клинической визуализации и клинические особенности. В частности, мультиомиксный анализ данных направлен на интеграцию таких слоев биологических данных, понимание динамики их взаимной регуляции и взаимодействия, а также на обеспечение целостного понимания возникновения и прогрессирования заболевания. Тем не менее, методы интеграции мультиомиксных данных остаются на ранних стадиях разработки13.
Автоэнкодеры, разновидность неконтролируемой нейронной сети14, являются мощным инструментом для интеграции мультиомиксных данных. В отличие от контролируемых нейронных сетей, автоэнкодеры не сопоставляют выборки с конкретными целевыми значениями (например, здоров или болен) и не используются для прогнозирования результатов. Одно из их основных применений заключается в уменьшении размерности. Тем не менее, автоэнкодеры имеют ряд преимуществ по сравнению с более простыми методами уменьшения размерности, такими как анализ главных компонент (PCA), t-распределенное стохастическое вложение соседей (tSNE) или однородная многообразная аппроксимация и проекция (UMAP). В отличие от PCA, автоэнкодеры могут фиксировать нелинейные зависимости в данных. В отличие от tSNE и UMAP, они могут обнаруживать иерархические и мультимодальные отношения в данных, поскольку они полагаются на несколько слоев вычислительных блоков, каждый из которых содержит нелинейные функции активации. Таким образом, они представляют собой привлекательные модели для отражения сложности мультиомиксных данных. Наконец, в то время как основное применение PCA, tSNE и UMAP заключается в кластеризации данных, автоэнкодеры сжимают входные данные в извлеченные признаки, которые хорошо подходят для последующих задач прогнозирования15,16.
Вкратце, нейронные сети состоят из нескольких слоев, каждый из которых содержит несколько вычислительных блоков или «нейронов». Первый и последний слои называются входным и выходным слоями соответственно. Автоэнкодеры — это нейронные сети со структурой «песочные часы», состоящие из входного слоя, за которым следуют от одного до трех скрытых слоев и небольшой «латентный» слой, обычно содержащий от двух до шести нейронов. Первая половина этой структуры известна как энкодер и объединена с декодером, отражающим энкодер. Декодер заканчивается выходным слоем, содержащим то же количество нейронов, что и входной слой. Автоэнкодеры принимают входные данные через узкое место и реконструируют их на выходном уровне с целью создания выходного сигнала, максимально точно отражающего исходную информацию. Это достигается путем математической минимизации параметра, называемого «потерями при восстановлении». Входные данные состоят из набора признаков, которые в демонстрируемой здесь заявке будут включать в себя содержание белка и метаболитов, а также клинические характеристики (т.е. пол, образование и возраст на момент смерти). Скрытый слой содержит сжатое и информационно насыщенное представление входных данных, которое может быть использовано для последующих приложений, таких как прогностические модели17,18.
Этот протокол представляет собой рабочий процесс DeepOmicsAE, который включает в себя: 1) предварительную обработку протеомики, метаболомики и клинических данных (т. е. нормализацию, масштабирование, удаление выбросов) для получения данных с согласованным масштабом для анализа машинного обучения; 2) выбор подходящих входных характеристик автоэнкодера, так как перегрузка признаков может скрывать соответствующие паттерны заболеваний; 3) оптимизация и обучение автоэнкодера, в том числе определение оптимального количества белков и метаболитов для отбора, а также нейронов для латентного слоя; 4) извлечение признаков из латентного слоя; и 5) использование извлеченных признаков для биологической интерпретации путем идентификации молекулярных сигнальных модулей и их связи с клиническими признаками.
Этот протокол призван быть простым и применимым биологами с ограниченным опытом вычислений, которые имеют базовое понимание программирования на Python. Протокол фокусируется на анализе мультиомиксных данных, включая протеомику, метаболомику и клинические особенности, но его использование может быть расширено на другие типы данных молекулярной экспрессии, включая транскриптомику. Одним из важных новых применений, представленных этим протоколом, является отображение оценок важности исходных признаков на отдельные нейроны в латентном слое. В результате каждый нейрон в латентном слое представляет собой сигнальный модуль, детализирующий взаимодействие между конкретными молекулярными изменениями и клиническими характеристиками пациентов. Биологическая интерпретация молекулярных сигнальных модулей получена с помощью общедоступного инструмента MetaboAnalyst, который интегрирует данные о генах/белках и метаболитах для получения обогащенных метаболических и клеточных сигнальных путей17.
Структура набора данных имеет решающее значение для успеха протокола и должна быть тщательно проверена. Данные должны быть отформатированы в соответствии с разделом 1 протокола. Правильное назначение позиций столбцов также имеет решающее значение для успеха метода. Данные протеомики…
The authors have nothing to disclose.
Эта работа была поддержана грантом NIH CA201402 и премией Корнелльского центра геномики позвоночных (CVG) Distinguished Scholar Award. Опубликованные здесь результаты полностью или частично основаны на данных, полученных с портала знаний AD (https://adknowledgeportal.org). Данные исследования были предоставлены через Партнерство по ускорению медицины болезни Альцгеймера (U01AG046161 и U01AG061357) на основе образцов, предоставленных Центром болезни Альцгеймера Раша, Медицинский центр Университета Раш, Чикаго. Сбор данных был поддержан за счет грантов NIA P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Департамента общественного здравоохранения штата Иллинойс и Научно-исследовательского института трансляционной геномики. Набор данных метаболомики был сгенерирован в Metabolon и предварительно обработан ADMC.
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |