Biology

DeepOmicsAE: Alzheimer Hastalığında Sinyal Modüllerinin Proteomik, Metabolomik ve Klinik Verilerin Derin Öğrenme Analizi ile Temsil Edilmesi

Published: December 15, 2023 doi: 10.3791/65910

¹Department of Molecular Medicine, Cornell University

Summary

DeepOmicsAE, çoklu omik verilerin boyutluluğunu azaltmak için bir derin öğrenme yönteminin (yani bir otomatik kodlayıcı) uygulanmasına odaklanan bir iş akışıdır ve birden çok omik veri katmanını temsil eden tahmine dayalı modeller ve sinyal modülleri için bir temel sağlar.

Abstract

Büyük omik veri kümeleri, insan sağlığına yönelik araştırmalar için giderek daha fazla kullanılabilir hale geliyor. Bu makale, proteomik, metabolomik ve klinik veriler dahil olmak üzere çoklu omik veri kümelerinin analizi için optimize edilmiş bir iş akışı olan DeepOmicsAE'yi sunmaktadır. Bu iş akışı, yüksek boyutlu çoklu omik girdi verilerinden kısa bir dizi özellik çıkarmak için otomatik kodlayıcı adı verilen bir tür sinir ağı kullanır. Ayrıca iş akışı, otomatik kodlayıcıyı uygulamak için gereken temel parametreleri optimize etmek için bir yöntem sağlar. Bu iş akışını sergilemek için, sağlıklı veya Alzheimer hastalığı teşhisi konmuş 142 kişiden oluşan bir kohorttan klinik veriler, ölüm sonrası beyin örneklerinin proteomu ve metabolomu ile birlikte analiz edildi. Otomatik kodlayıcının gizli katmanından çıkarılan özellikler, sağlıklı ve hastalıklı hastaları ayıran biyolojik bilgiyi korur. Ek olarak, bireysel ekstrakte edilen özellikler, her biri bireylerin klinik özellikleriyle benzersiz bir şekilde etkileşime giren ve proteomik, metabolomik ve klinik verileri entegre etmek için bir araç sağlayan farklı moleküler sinyal modüllerini temsil eder.

Introduction

Nüfusun giderek daha büyük bir kısmı yaşlanıyor ve nörodejenerasyon gibi yaşa bağlı hastalıkların yükünün önümüzdeki yıllarda keskin bir şekilde artması bekleniyor¹. Alzheimer hastalığı en sık görülen nörodejeneratif hastalık türüdür². Hastalığın başlangıcını ve ilerlemesini yönlendiren temel moleküler mekanizmaları yeterince anlamadığımız göz önüne alındığında, bir tedavi bulmadaki ilerleme yavaş olmuştur. Alzheimer hastalığı ile ilgili bilgilerin çoğu, nedenleri ve sonuçları ayırt etmeyi zor bir görev haline getiren beyin dokusunun incelenmesinden ölüm sonrası elde edilir³. Dini Tarikatlar Çalışması/Hafıza ve Yaşlanma Projesi (ROSMAP), her yıl tıbbi ve psikolojik muayenelerden geçmeyi ve ölümlerinden sonra beyinlerini araştırma için katkıda bulunmayı taahhüt eden binlerce kişinin çalışmasını içeren nörodejenerasyon hakkında daha geniş bir anlayış kazanmak için iddialı bir çabadır⁴. Çalışma, beynin normal işleyişinden Alzheimer hastalığına^geçişe odaklanmaktadır 2. Proje kapsamında, postmortem beyin örnekleri, genomik, epigenomik, transkriptomik, proteomik⁵ ve metabolomik dahil olmak üzere çok sayıda omik yaklaşımla analiz edildi.

Hücresel durumların (yani proteomik ve metabolomiklerin⁾ fonksiyonel okumalarını sunan omik ^{teknolojileri6,7}, protein ve metabolit bolluğu ile hücresel aktiviteler arasındaki doğrudan ilişki nedeniyle^{hastalığı 8,9,10,11,12} yorumlamanın anahtarıdır. Proteinler, hücresel süreçlerin birincil yürütücüleridir, metabolitler ise biyokimyasal reaksiyonlar için substratlar ve ürünlerdir. Multi-omik veri analizi, proteomik ve metabolomik veriler arasındaki karmaşık ilişkileri, bunları tek başına değerlendirmek yerine anlama imkanı sunar. Multi-omik, moleküler veriler (genom dizisi ve mutasyonlar, transkriptom, proteom, metabolom), klinik görüntüleme verileri ve klinik özellikler dahil olmak üzere çok katmanlı yüksek boyutlu biyolojik verileri inceleyen bir disiplindir. Özellikle, multi-omik veri analizi, bu tür biyolojik veri katmanlarını entegre etmeyi, bunların karşılıklı düzenleme ve etkileşim dinamiklerini anlamayı ve hastalığın başlangıcı ve ilerlemesi hakkında bütünsel bir anlayış sunmayı amaçlar. Bununla birlikte, çoklu omik verileri entegre etme yöntemleri, geliştirmenin erken aşamalarında kalmaktadır¹³.

Bir tür denetimsiz sinir ağı¹⁴ olan otomatik kodlayıcılar, çoklu omik veri entegrasyonu için güçlü bir araçtır. Denetimli sinir ağlarının aksine, otomatik kodlayıcılar örnekleri belirli hedef değerlerle (sağlıklı veya hastalıklı gibi) eşlemez ve sonuçları tahmin etmek için kullanılmazlar. Birincil uygulamalarından biri boyutsallığın azaltılmasında yatmaktadır. Bununla birlikte, otomatik kodlayıcılar, temel bileşen analizi (PCA), t-dağıtılmış stokastik komşu gömme (tSNE) veya tekdüze manifold yaklaşımı ve projeksiyonu (UMAP) gibi daha basit boyutsallık azaltma yöntemlerine göre çeşitli avantajlar sunar. PCA'dan farklı olarak, otomatik kodlayıcılar veriler içindeki doğrusal olmayan ilişkileri yakalayabilir. tSNE ve UMAP'den farklı olarak, her biri doğrusal olmayan aktivasyon fonksiyonları içeren birden çok hesaplama birimi katmanına dayandıkları için veriler içindeki hiyerarşik ve çok modlu ilişkileri tespit edebilirler. Bu nedenle, multi-omik verilerin karmaşıklığını yakalamak için çekici modelleri temsil ederler. Son olarak, PCA, tSNE ve UMAP'nin birincil uygulaması verileri kümelemek olsa da, otomatik kodlayıcılar giriş verilerini aşağı akış tahmine dayalı görevler için çok uygun olan çıkarılmış özelliklere sıkıştırır^15,16.

Kısaca, sinir ağları, her biri birden fazla hesaplama birimi veya "nöron" içeren birkaç katmandan oluşur. İlk ve son katmanlar sırasıyla giriş ve çıkış katmanları olarak adlandırılır. Otomatik kodlayıcılar, bir giriş katmanı, ardından bir ila üç gizli katman ve tipik olarak iki ila altı nöron içeren küçük bir "gizli" katmandan oluşan kum saati yapısına sahip sinir ağlarıdır. Bu yapının ilk yarısı kodlayıcı olarak bilinir ve kodlayıcıyı yansıtan bir kod çözücü ile birleştirilir. Kod çözücü, giriş katmanıyla aynı sayıda nöron içeren bir çıkış katmanıyla sona erer. Otomatik kodlayıcılar, girdiyi darboğazdan geçirir ve orijinal bilgileri mümkün olduğunca yakından yansıtan bir çıktı oluşturmak amacıyla çıktı katmanında yeniden oluşturur. Bu, "yeniden yapılanma kaybı" olarak adlandırılan bir parametrenin matematiksel olarak en aza indirilmesiyle elde edilir. Girdi, burada sergilenen uygulamada protein ve metabolit bollukları ve klinik özellikler (yani cinsiyet, eğitim ve ölüm yaşı) olacak bir dizi özellikten oluşur. Gizli katman, tahmine dayalı modeller^17,18 gibi sonraki uygulamalar için kullanılabilecek girdinin sıkıştırılmış ve bilgi açısından zengin bir temsilini içerir.

Bu protokol, aşağıdakileri içeren bir iş akışı olan DeepOmicsAE'yi sunar: 1) makine öğrenimi analizi için tutarlı bir ölçekle veri elde etmek için proteomik, metabolomik ve klinik verilerin (yani normalleştirme, ölçekleme, aykırı değer kaldırma) ön işlenmesi; 2) özellik aşırı yüklenmesi ilgili hastalık modellerini gizleyebileceğinden, uygun otomatik kodlayıcı giriş özelliklerinin seçilmesi; 3) seçilecek en uygun protein ve metabolit sayısının ve gizli tabaka için nöronların belirlenmesi de dahil olmak üzere otomatik kodlayıcıyı optimize etmek ve eğitmek; 4) gizli tabakadan özelliklerin çıkarılması; ve 5) moleküler sinyal modüllerini ve bunların klinik özelliklerle ilişkilerini tanımlayarak biyolojik yorumlama için çıkarılan özelliklerin kullanılması.

Bu protokol, Python ile programlama konusunda temel bir anlayışa sahip, sınırlı hesaplama deneyimine sahip biyologlar tarafından basit ve uygulanabilir olmayı amaçlamaktadır. Protokol, proteomikler, metabolomikler ve klinik özellikler dahil olmak üzere çoklu omik verileri analiz etmeye odaklanır, ancak kullanımı, transkriptomik dahil olmak üzere diğer moleküler ekspresyon verileri türlerine genişletilebilir. Bu protokol tarafından sunulan önemli bir yeni uygulama, orijinal özelliklerin önem puanlarını gizli katmandaki bireysel nöronlara haritalamaktır. Sonuç olarak, gizli katmandaki her nöron, spesifik moleküler değişiklikler ile hastaların klinik özellikleri arasındaki etkileşimleri detaylandıran bir sinyal modülünü temsil eder. Moleküler sinyal modüllerinin biyolojik yorumu, zenginleştirilmiş metabolik ve hücre sinyal yollarını türetmek için gen/protein ve metabolit verilerini entegre eden halka açık bir araç olan MetaboAnalyst kullanılarak elde edilir¹⁷.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOT: Burada kullanılan veriler, AD Bilgi portalından indirilen ROSMAP verileridir. Verileri indirmek ve yeniden kullanmak için bilgilendirilmiş onay gerekli değildir. Burada sunulan protokol, çoklu omik verileri analiz etmek ve örneğin teşhislerine dayalı olarak belirli hasta veya numune gruplarını ayırt eden sinyal modüllerini tanımlamak için derin öğrenmeyi kullanır. Protokol ayrıca, orijinal büyük ölçekli verileri özetleyen ve makine öğrenimi algoritmalarını kullanarak tahmine dayalı bir modeli eğitmek gibi daha fazla analiz için kullanılabilen küçük bir dizi çıkarılmış özellik sunar (Şekil 1). Protokolü gerçekleştirmeden önce koda erişim ve hesaplama ortamının ayarlanması hakkında bilgi için Ek Dosya 1'e ve Malzeme Tablosuna bakın. Yöntemler aşağıda belirtilen sıraya göre gerçekleştirilmelidir.

Şekil 1: DeepOmicsAE iş akışının şeması. İş akışını kullanarak çoklu omik verileri analiz etmek için iş akışının şematik gösterimi. Otomatik kodlayıcı tasvirinde, dikdörtgenler sinir ağının katmanlarını temsil eder ve daireler katmanlar içindeki nöronları temsil eder. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

1. Veri ön işleme

NOT: Bu bölümün amacı, eksik verilerin işlenmesi de dahil olmak üzere verileri önceden işlemektir; proteomik, metabolomik ekspresyon ve klinik verilerin normalleştirilmesi ve ölçeklendirilmesi; ve aykırı değerleri ortadan kaldırmak. Protokol, log₂ (oran) olarak ifade edilen proteomik verileri içeren bir veri kümesi için tasarlanmıştır; kıvrım değişimi olarak ifade edilen metabolomik veriler; ve sürekli ve kategorik özellikler dahil olmak üzere klinik özellikler. Hastalar veya örnekler tanı veya diğer benzer parametrelere göre gruplandırılmalıdır. Numuneler veya hastalar satırlar boyunca ve sütunlar boyunca özellikler boyunca olmalıdır.

Tarayıcıda yeni bir Jupyter Notebook örneği başlatmak için yeni bir terminal penceresi açın, aşağıdakini yazın ve Enter tuşuna basın.
Jupyter Not Defteri
Tarayıcıdaki Jupyter giriş sayfasında, yeni bir sekmede açmak için M01 - expression data pre-processing.ipynb not defterine tıklayın (Ek Dosya 2, Adım 1.1).
Not defterinin ikinci hücresine , your_dataset_name.csv yerine veri kümesi dosyasının adını yazın.
Not defterinin son hücresine , M01_output_data.csv yerine çıktı veri dosyasının istenen adını yazın.
Not defterinin beşinci hücresinde , her veri türü için sütunların konumunu aşağıdaki gibi belirtin: proteomik veriler (cols_prot), metabolomik veriler (cols_met), sürekli klinik veriler (örn. yaş) (cols_clin_con), ikili klinik veriler (örn. cinsiyet) (cols_clin_bin). Her veri türü için col_start yerine ilk sütun dizinini ve col_end yerine son sütun dizinini girin; Örneğin: cols_prot = dilim(0, 8817). Dilim nesnelerinde belirtilen değerlerin, her veri türüne karşılık gelen ilk ve son sütun dizinlerine karşılık geldiğinden emin olun. Her veri türünün başlangıç ve bitiş konumunu belirlemek için aynı not defterinin dördüncü hücresindeki komutu (df.iloc[:, :]) kullanın (Ek Dosya 2, Adım 1.2).
Hücre Seç | Belirtilen klasörde çıkış veri dosyasını oluşturmak için Jupyter'daki menü çubuğundan tümünü çalıştırın (Ek Dosya 2, Adım 1.3).
NOT: Bu veriler, bölüm 2, 3 veya 4'te açıklanan protokoller için girdi olarak kullanılacaktır.

2. İş akışının özel optimizasyonu (isteğe bağlı)

NOT: Bölüm 2, yoğun bilgisayar kullanımı gerektirdiğinden isteğe bağlıdır. Kullanıcılar, bölüm 2'yi gerçekleştirmemeye karar verirlerse doğrudan bölüm 4'e atlamalıdır. Bu protokol, iş akışını otomatik bir şekilde optimize etme konusunda kullanıcıya rehberlik edecektir. Özellikle, yöntem, örnek gruplarını iyi ayıran ayıklanmış özellikler oluşturma açısından otomatik kodlayıcının en iyi performansını sağlayan parametreleri tanımlar. Çıktı olarak oluşturulan optimize edilmiş parametreler, özellik seçimi için kullanılacak özelliklerin sayısını (k_prot ve k_met) ve otomatik kodlayıcı gizli katmanındaki nöronların sayısını (gizli) içerir. Bu parametreler daha sonra modeli oluşturmak için bölüm 3'te açıklanan protokolde kullanılabilir.

Tarayıcıdaki Jupyter giriş sayfasında, yeni bir sekmede açmak için M02 - DeepOmicsAE model optimization.ipynb not defterine tıklayın (Ek Dosya 2, Adım 2.1).
Not defterinin ikinci hücresine, M01_output_data.csv yerine giriş dosyasının adını yazın. Bu fonksiyonun girişi, bölüm 1'deki çıktı verileridir.
Not defterinin beşinci hücresinde, her veri türü için sütunların konumunu aşağıdaki gibi belirtin: proteomik veriler (cols_X_prot), metabolomik veriler (cols_X_met), klinik veriler (cols_clin; tüm klinik verileri içerir), proteomik ve metabolomik veriler (cols_X_expr) dahil olmak üzere tüm moleküler ekspresyon verileri. Her veri türü için col_start yerine ilk sütun dizinini ve col_end yerine son sütun dizinini girin; Örneğin, cols_prot = dilim(0, 8817). Dilim nesnelerinde belirtilen değerlerin her veri türüne karşılık gelen ilk ve son sütun dizinine karşılık geldiğinden emin olun ve verileri araştırmak ve her veri türü için başlangıç ve bitiş konumlarını belirlemek için not defterinin üçüncü ve dördüncü hücrelerindeki komutları kullanın. y_column_name yerine hedef değişkeni içeren sütunun adını y_label olarak belirtin (Ek Dosya 2, Adım 2.2).
NOT: cols_X_prot, cols_X_met, cols_clin ve cols_X_expr'de belirtilen dizinlerin değerleri, veri ön işleme sırasında meydana gelen veri çerçevesinin yeniden şekillendirilmesi nedeniyle bölüm 1'de kullanılanlardan farklı olacaktır.
Not defterinin altıncı hücresinde, n_comb bir değer atayarak kaç iyileştirme turu gerçekleştirileceğini belirtin. İşleme süreleri 10 tur için yaklaşık 4-5 dakikadır; 50 tur için 20 dakika ve 100 tur için 40 dakika (Ek Dosya 2, Adım 2.3).
Hücre Seç | Tümünü Jupyter'daki menü çubuğundan çalıştırın.
NOT: kprot, kmet ve latent çıkış değişkenleri saklanır ve analitik iş akışına devam etmek için kullanılacak diğer not defterlerinden erişilebilir. Çizim AE_optimization_plot.pdf oluşturulacak ve yerel klasöre kaydedilecektir (Şekil 2).

3. Özel olarak optimize edilmiş parametrelerle iş akışı uygulaması

NOT: Bu protokolü yalnızca yöntem optimizasyonunu izleyerek gerçekleştirin (bölüm 2). Kullanıcılar yöntem iyileştirmesi yapmamayı seçerse, doğrudan bölüm 4'e atlayın. Bu protokol, bölüm 2'den türetilen özel olarak optimize edilmiş parametreleri kullanarak bir model oluşturma konusunda kullanıcıya rehberlik edecektir. Otomatik kodlayıcı 1) orijinal verileri özetleyen bir dizi çıkarılmış özellik üretecek ve 2) gizli katmandaki her bir nöronu yönlendiren ve benzersiz sinyal modüllerini etkin bir şekilde temsil eden önemli özellikleri tanımlayacaktır. Sinyal modülleri, bölüm 5'te verilen protokol kullanılarak yorumlanacaktır.

Tarayıcıdaki Jupyter giriş sayfasında, yeni bir sekmede açmak için özel olarak optimize edilmiş parameters.ipynb ile not defteri M03a - DeepOmicsAE uygulamasına tıklayın (Ek Dosya 2, Adım 3.1).
Not defterinin ikinci hücresine, M01_output_data.csv yerine giriş dosyasının adını yazın. Bu fonksiyonun girişi, bölüm 1'deki çıktı verileridir.
Not defterinin beşinci hücresinde, her veri türü için sütunların konumunu aşağıdaki gibi belirtin: proteomik veriler (cols_prot), metabolomik veriler (cols_met), klinik veriler (cols_clin; tüm klinik verileri içerir). Her veri türü için col_start yerine ilk sütun dizinini ve col_end yerine son sütun dizinini girin; Örneğin: cols_prot = dilim(0, 8817). Dilim nesnelerinde belirtilen değerlerin her veri türüne karşılık gelen ilk ve son sütun dizinlerine karşılık geldiğinden emin olun ve verileri araştırmak ve her veri türü için başlangıç ve bitiş konumlarını belirlemek için not defterinin üçüncü ve dördüncü hücrelerindeki komutları kullanın. Hedef değişkeni içeren sütunun adını (ör. sağlıklı veya hastalıklıya karşılık gelen 0 veya 1) y_column_name yerine y_label olarak belirtin.
NOT: cols_X_prot, cols_X_met, cols_clin ve cols_X_expr'de belirtilen dizinlerin değeri, veri ön işleme sırasında meydana gelen veri çerçevesinin yeniden şekillendirilmesi nedeniyle bölüm 1'de kullanılanlardan farklı olacaktır.
Hücre Seç | Yerel klasörde PCA_initial_data.pdf, PCA_extracted_features.pdf ve distribution_important_feature_scores.pdf grafikleri oluşturmak ve kaydetmek için Jupyter'daki menü çubuğundan tümünü çalıştırın (Şekil 3 ve Ek Şekil S1). Ek olarak, tanımlanan her bir sinyal modülü için önemli özelliklerin listeleri, module_n.txt adlı yerel klasördeki metin dosyalarında saklanacak ve burada n, modül numarası ile değiştirilecektir.

4. Önceden ayarlanmış parametrelerle iş akışı uygulaması

Bu yöntemin nasıl çalıştırılacağına ilişkin ayrıntılı talimatlar için bölüm 3'e bakın (Ek Dosya 2, Adım 4.1). Bu iki protokol arasındaki tek fark, kprot, kmet ve latent parametrelerinin (not defterinin yedinci hücresinde) Şekil 2'de gösterildiği gibi gerçekleştirilen optimizasyonun sonuçlarına göre matematiksel olarak türetilmesidir.
NOT: Bölüm 4, örnek grupların yetersiz model performansını gösteren zayıf bir ayrımı sağlıyorsa, model optimizasyonunun (bölüm 2) en az 15 yineleme ve mümkünse en fazla 50 yineleme kullanılarak yürütülmesi önerilir.

5. MetaboAnalyst kullanarak biyolojik yorumlama

MetaboAnalyst web sitesindeki Ortak Yol Analizi işlevine erişmek için tarayıcıyı açın ve aşağıdaki bağlantıya gidin: https://www.metaboanalyst.ca/MetaboAnalyst/upload/JointUploadView.xhtml.
Yöntem 3 veya Yöntem 4'teki çıktı dosyalarının kaydedildiği klasöre erişin ve Yöntem 3 veya Yöntem 4 tarafından oluşturulan her sinyal modülü n için module_n.txt metin dosyalarını açın.
Metin dosyalarındaki proteinleri bulun ve kopyalayın.
Proteinlerin listesini MetaboAnalyst web sayfasındaki isteğe bağlı kat değişiklikleri olan genler/proteinler penceresine yapıştırın.
Metabolitler için yukarıdaki adımı tekrarlayın ve bunları aynı web sayfasındaki isteğe bağlı katlama değişiklikleriyle Bileşik listeye yapıştırın.
Uygun organizmayı ve kimlik türünü seçin, ardından sayfanın altındaki Gönder'e tıklayın (Ek Dosya 2, Adım 5.1).
NOT: Tanımlayıcıların MetaboAnalyst tarafından tanındığından emin olun. Tanınan tanımlayıcılar arasında Entrez ID, resmi gen sembolleri ve proteinler için Uniprot ID; metabolitler için bileşik ad, HMDB kimliği ve KEGG kimliği. Tanımlayıcılar bu türlerin dışındaysa, analizden önce uygun dönüştürme gereklidir.
Sonraki sayfada, tanımlayıcıların tanındığını doğrulamak için Devam Et'e tıklamadan önce kimlik eşlemesini kontrol edin.
Parametre Ayarı sayfasında, girişin yalnızca metabolik yollara veya tüm sinyal yollarına katkısını sırasıyla görselleştirmek için Metabolik yollar (entegre) veya Tüm yollar (entegre) öğesini seçin (Ek Dosya 2, Adım 5.2). Algoritma seçimi panelinde Zenginleştirme analizi: Hipergeometrik test, Topoloji ölçüsü: Derece merkeziliği ve Entegrasyon yöntemi: p değerlerini birleştir (yol düzeyi) seçeneğini belirleyin. Sayfanın altındaki Gönder'e tıklayın.
Son sayfa, zenginleştirme analizinin sonuçlarını sunan Sonuç Görünümü'dür. Zenginleştirilmiş yollar, etkilerine ve önemlerine göre çizilir ve yolların listesi de tablo biçiminde sağlanır.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Protokolü sergilemek için, sağlıklı veya Alzheimer hastalığı teşhisi konmuş 142 bireyin postmortem beyinlerinden elde edilen proteom, metabolom ve klinik bilgileri içeren bir veri setini analiz ettik.

Verileri ön işlemek için protokol bölüm 1'i gerçekleştirdikten sonra, veri seti 6.497 protein, 443 metabolit ve üç klinik özellik (cinsiyet, ölüm yaşı ve eğitim) içeriyordu. Hedef özellik, kogdx olarak kodlanmış, kogdx olarak kodlanmış, bilişsel bozukluk (CI) yok için 1 ve Alzheimer demansı için 4 ve başka bir CI nedeni ile klinik konsensüs tanısıdır. Seksen hastaya sağlıklı, 62 hastaya Alzheimer hastalığı tanısı kondu. Protokol bölüm 2, kprot, kmet ve latent parametreleri için optimal değerleri belirlemek için uygulandı. Optimizasyon algoritması, model parametrelerinin farklı kombinasyonlarını kullanarak özellik seçimi ve özellik ayıklama gerçekleştirir. Ardından, giriş verileri ve ayıklanan özellikler için PCA siluet puanını hesaplar ve döndürür. Optimizasyon yöntemi, kprot ve kmet için olası değerlerin daha düşük aralığının, iki hasta grubu arasında daha yüksek bir ayrılma derecesi ile sonuçlandığını, oysa gizli katmandaki nöron sayısının modelin performansı üzerinde büyük bir etkisi olmadığını ortaya koymuştur (Şekil 2).

Şekil 2: Parametre optimizasyon sonuçları. Protokol bölüm 2 için yineleme sayısı 212 olarak ayarlandı ve sağlıklı ve Alzheimer hastalığı grupları arasındaki ayrım derecesi, PCA siluet skoruna (çıkarılan özelliklerde PCA için siluet skoru) göre görselleştirildi. Gizli katmandaki nöronların sayısı kabarcık boyutu (gizli) olarak gösterilirken, proteomik veriler (kprot) ve metabolomik veriler (kmet) için seçilen özelliklerin sayıları sırasıyla x ve y eksenlerinde çizilir. Kısaltma: PCA = temel bileşen analizi. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Protokol bölüm 3, yukarıda açıklandığı gibi türetilen optimize edilmiş parametreler kullanılarak çıkarılan özellikleri ve sinyal modüllerini elde etmek için uygulanmıştır. Kısaca, model gizli katmanda 804 protein, 67 metabolit ve dört nöron kullanacak şekilde optimize edildi. Tanı grupları, çıkarılan özelliklere göre (siluet skoru = 0.09) orijinal özelliklere göre (siluet skoru = 0.019) daha iyi ayrılırken, orijinal özelliklere göre ayrılmadı, bu da çıkarılan özelliklerin hastalık durumunu belirlemede anahtar olan bilgileri yakaladığını gösterdi (Şekil 3). Gizli katmandaki her bir nörona göre orijinal özelliklerin önem puanları Ek Şekil S1'de gösterilmektedir. Her bir nöronu tanımlayan önemli özellikler, her bir nöron için özellik skoru değerlerinin ilk 10^. yüzdelik dilimi olarak seçilmiştir. Nöronlar ve seçilen özellikler kümesi arasındaki örtüşme sınırlıdır, bu da gizli katmandaki her nöronun Alzheimer hastalığına yol açan sinyal olaylarının farklı yönlerine odaklandığını gösterir (Ek Şekil S2A). Ayrıca, DeepOmicsAE tarafından tanımlanan önemli özellikler ile PCA ile tanımlananlar arasındaki örtüşme de düşüktür ve çoklu omik verilerin kapsamlı bir şekilde anlaşılmasını sağlamak için doğrusal olmayan ilişkileri yakalamanın öneminin altını çizmektedir (Ek Şekil S2B).

Şekil 3: Hastalık gruplarını ayırmak için gerekli bilgileri içeren çıkarılan özellikler. (A) Giriş özelliklerinde PCA. (B) Çıkarılan özelliklerde PCA. Kısaltma: PCA = temel bileşen analizi. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Protokol bölüm 5, yukarıda açıklandığı gibi elde edilen sinyalizasyon modüllerini yorumlamak için gerçekleştirildi. MetaboAnalyst, her bir sinyal modülü için farklı metabolik ve sinyal yollarının zenginleştirilmesini tanımladı (Şekil 4 ve Ek Dosya 3). Özellikle, DeepOmicsAE ayrıca klinik özellikler ve sinyal modülleri arasında meydana gelen etkileşimleri de karakterize eder. Örneğin, cinsiyet ve ölüm yaşı, Alzheimer hastalarında değişmiş gliserolipid metabolizması ile ilişkilidir (Modül 3). Başka bir deyişle, bu metabolik yoldaki değişikliklerin, belirli bir cinsiyet ve yaştaki hastaların alt gruplarında hastalığı belirleme olasılığı daha yüksektir. Tersine, sinaps ve akson işlevselliğindeki değişiklikler (Modül 2), Alzheimer hastalığı hastalarında cinsiyetlerine, eğitim düzeylerine ve uzun ömürlerine bakılmaksızın meydana gelme eğilimindedir. Burada sunulan sonuçlara dayanarak, otokodlayıcı gizli katmanındaki her bir nöronun, hastalığı yönlendiren ayrı bir sinyal modülünü temsil ettiği sonucuna varılabilir.

Şekil 4: Farklı sinyal modüllerine karşılık gelen gizli katmandaki nöronlar. Gizli katmandaki her bir nörondan türetilen önemli özelliklerin MetaboAnalyst kullanılarak analizinden elde edilen sonuçların bir şeması. Zenginleştirilmiş yollar, etki puanının 0.25'ten büyük ve FDR'nin 0.05'ten düşük olmasına göre seçildi; ayrıca, her bir yol için negatif log₁₀FDR değeri ile etki puanının ürünü olarak bir "yol önemi - ortak puan" hesaplanmış ve 0.55'ten büyük bir "ortak puan" olan yollar rapor edilmiştir. Son olarak, her bir sinyalizasyon modülündeki bireysel klinik özelliklerin önem puanı, çubuk grafiklerin y eksenlerinde görüntülenir. Kısaltma: FDR = yanlış keşif oranı. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Ek Dosya 1: Protokolü gerçekleştirmeden önce koda erişim ve hesaplama ortamını ayarlama bilgileri. Bu Dosyayı indirmek için lütfen buraya tıklayın.

Ek Dosya 2: Protokolün nasıl uygulanacağına dair görsel bir açıklama sağlayan ekran görüntüleri. Her sinyalizasyon modülünde zenginleştirilmiş üst yollar. Bu Dosyayı indirmek için lütfen buraya tıklayın.

Ek Dosya 3: MetaboAnalyst'ten zenginleştirme analizi sonuçları. Sekme 1: tüm zenginleştirilmiş terimler. Sekme 2: Her sinyalizasyon modülünde zenginleştirilmiş üst yollar. Bu Dosyayı indirmek için lütfen buraya tıklayın.

Ek Dosya 4: İşlevler ve jupyter not defterleri dahil olmak üzere kod dosyaları. Bu Dosyayı indirmek için lütfen buraya tıklayın.

Ek Şekil S1: Her bir sinyalizasyon modülündeki özellikler için önem puanlarının dağılımı. Gizli katmandaki bir nörona karşılık gelen her modül için önem değerleri ölçeklendirildi ve dağılımları çizildi. Bu Dosyayı indirmek için lütfen buraya tıklayın.

Ek Şekil S2: DeepOmicsAE tarafından üretilen sinyal modülleri benzersiz bilgilere katkıda bulunur. (A) Her bir sinyalizasyon modülünde bulunan özellikler arasındaki örtüşmenin boyutu, çubukların yüksekliği olarak görüntülenir. Çizgilerle bağlanan siyah noktalar, çizimdeki her bir çubuk tarafından hangi çakışan kümenin temsil edildiğini gösterir. (B) DeepOmicsAE ile türetilen dört sinyalizasyon modülünde yer alan tüm özellikler ile PCA kullanılarak elde edilen ilk 100 önemli özellik arasındaki örtüşmeyi temsil eden Venn şeması. Kısaltma: PCA = temel bileşen analizi. Bu Dosyayı indirmek için lütfen buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Veri kümesinin yapısı, protokolün başarısı için kritik öneme sahiptir ve dikkatlice kontrol edilmelidir. Veriler, protokol bölüm 1'de belirtildiği gibi biçimlendirilmelidir. Sütun konumlarının doğru atanması da yöntemin başarısı için kritik öneme sahiptir. Proteomik ve metabolomik veriler farklı şekilde önceden işlenir ve verilerin farklı doğası nedeniyle özellik seçimi ayrı ayrı yapılır. Bu nedenle, protokol adımları 1.5, 2.3 ve 3.3'te sütun konumlarını doğru bir şekilde atamak çok önemlidir.

Klinik veriler sayısal olmayan veri türleri (sürekli veya ikili değerler) içeriyorsa, kullanıcı protokol bölüm 1'deki yöntemi çalıştırırken bir hatayla karşılaşabilir. Bu sorunu düzeltmek için kullanıcılar veri kümelerini yalnızca sayısal klinik verileri içerecek şekilde değiştirebilir. Örneğin, cinsiyet gibi kategorik veriler ikili sayısal verilere dönüştürülebilir. Diğer bir sorun, veri kümesinin protokol bölümü 1-önce proteomik veriler, sonra metabolomik, sonra klinik verilerde belirtildiği gibi sıralanmaması durumunda ortaya çıkabilecek veri ön işlemede bir hatadır. Hedef değişken (örneğin, tanı, derece, evre, tedavi) veri kümesinin son sütununda yer almalıdır. Protokolü başlatmadan önce verileri uygun şekilde yeniden düzenleyin. Sinyalizasyon modüllerinin biyolojik yorumlanması için gen ontolojisi veya gen seti zenginleştirme analizlerinden yararlanmak da mümkündür. Bununla birlikte, MetaboAnalyst, metabolik verileri analize entegre etme avantajını sunar, bu nedenle kapsamlı bir veri yorumlaması sağlar.

Yöntem, log_{2-dönüştürülmüş} oranlar olarak ifade edilen proteomik verilerin ve kat değişiklikleri olarak ifade edilen metabolomik verilerin analizi için optimize edilmiştir. Bu, uygulanabilirliğini bunlardan farklı veri türleriyle sınırladığı için yöntemin olası bir sınırlamasını oluşturur. Bununla birlikte, transkriptomik veriler gibi diğer moleküler ekspresyon verisi türlerine uyarlamak için veri ön işleme komut dosyasında (F01_data_preprocessing_function.py; Ek Dosya 4'e bakınız) değişiklikler yapmak mümkündür. Optimizasyon algoritmasının yürütülmesi (protokol bölüm 2) zaman alıcıdır ve birçok kullanıcı için pratik olmayabilir. Bu sorunun üstesinden gelmenin olası bir yolu, yineleme sayısını sınırlamaktır. Her optimizasyon turu, Şekil 2'de gösterilene benzer bir çizim için bir veri noktası oluşturur. PCA'ya dayalı daha iyi bir grup ayrımına karşılık gelen veri noktaları (otomatik kodlayıcı ile çıkarılan özelliklerde PCA siluet skoru ayrımının ilk 10^. yüzdelik dilimi) seçilir ve seçilen alt küme içindeki ortalama değerleri olarak kprot, kmet ve latent için en uygun değerleri hesaplamak için kullanılır (bkz. Ortalama değeri hesaplamak için ne kadar çok veri noktası kullanılırsa, optimum model performansı için parametrelerin tahmini o kadar doğru olur. F02'deki algoritma, optimize edilecek parametreler için olası değer aralığını doldurmak üzere tasarlandığından, model parametreleri için en uygun değerler için yeterli bir tahmin elde etmek için 15-20 yineleme yeterli olacaktır. Diğer bir olasılık da, protokol bölümü 2'yi atlamak ve önceden optimizasyon gerektirmeyen protokol bölümü 4'ü doğrudan kullanmaktır.

Otomatik kodlayıcılar, boyutsallığı azaltmak için yaygın olarak kullanılan bir araçtır^14,18. DeepOmicsAE, özellikle otomatik kodlayıcı gizli katmanından^{çıkarılan bilgilerin yorumlanabilirliği açısından mevcut} yaklaşımlar üzerinde birkaç önemli iyileştirme sağlar ^19,20. İlk olarak, iş akışı, iş akışı parametreleri için en uygun değerlerin seçilmesini sağlayan otomatik bir optimizasyon adımı sağlar. İkincisi, otomatik kodlayıcı, model performansının bir ölçüsü olarak PCA ile ölçülen sağlıklı ve Alzheimer hastalığı hastaları arasındaki ayrım derecesini kullanır (sonuca dayalı doğrulama). Üçüncüsü, gizli katmandaki her bir nörona göre orijinal özelliklerin önemini hesaplayarak derin öğrenme modelinin yorumlanması için yeni bir matematiksel yaklaşım sağlar. Bunu yapmak için, her özellik için hafif bir bozulma ortaya çıkar ve gizli tabakanın her bir nöronunda ortaya çıkan değişiklik hesaplanır. Yöntem, her bir nöron için tüm örneklerdeki mutlak değişikliklerin ortalamasını alarak, daha büyük bir değerin daha etkili bir özellik anlamına geldiği belirli bir nörona göre her özellik için bir önem puanı hesaplar. Alzheimer hastalığı^21,22 bağlamında moleküler ekspresyon verilerini analiz etmek için daha önce başka derin öğrenme yöntemleri kullanılmış olsa da, otomatik kodlayıcıların sınırlı uygulamaları olmuştur. Önceki yöntemlerle karşılaştırıldığında, burada sunulan iş akışı, klinik özellikler ve moleküler sinyal olayları arasındaki etkileşimleri tanımlayabilir. Ayrıca, DeepOmicsAE, bildiğimiz kadarıyla, Alzheimer hastalığının başlangıcını ve ilerlemesini anlamak için proteomik, metabolomik ve klinik verilerin entegrasyonuna odaklanan ilk iş akışıdır.

Nörodejeneratif hastalıkların multi-ome'u henüz tam olarak belirlenmemiştir. Bu çalışma, Alzheimer hastalığı hastalarının fonksiyonel moleküler manzarasını (yani proteom ve metabolom) ve klinik özelliklerini analiz etmek için tasarlanmış bir yöntem sunmaktadır. Önceki çalışmalar nörodejenerasyonda metabolizmanın önemi hakkında ipuçları vermiştir 23,24,25; Ancak, hala anlaşılması gereken çok şey var. DeepOmicsAE, Alzheimer hastalığının ilerlemesine katkıda bulunan çoklu biyolojik süreçleri doğru bir şekilde tanımladığı için yüksek boyutlu verilerden ilgili biyolojik bilgileri çıkarmak için güçlü bir araçtır. Bunlar arasında glutamaterjik sinapsın düzensizliği, aksonal rehberlik ve uzun süreli güçlendirme yer alır (Şekil 4)^26,27. Bunlar arasında glumaterjik sistem, hastalığın tedavisi için iyi bilinen bir terapötik hedeftir²⁸. Yöntemin önemli bir uygulaması, hastalık durumunu tahmin etmek için modelleri eğitmek için kullanılabilecek bir dizi çıkarılmış özellik sağlamasıdır. Bununla birlikte, otomatik kodlayıcılar, nöronlarda bulunan fonksiyonların ağırlıklarının rastgele başlatılması nedeniyle doğası gereği kararsızdır. Bu nedenle, gelecekteki çalışmalar istikrarı artırmak için stratejiler geliştirmeye odaklanmalıdır. Bu tür bir çalışma, tahmine dayalı görevler için daha uygun olan sağlam ayıklanmış özellikler üreten daha genelleştirilebilir bir model oluşturacaktır. Bu iş akışının ikinci büyük uygulaması, proteomik, metabolomik ve klinik bilgi katmanları arasındaki etkileşimleri yorumlamak için kullanılabilmesidir (Şekil 4), spesifik klinik özelliklerin moleküler modellerle nasıl etkileşime girdiğine dair içgörüler sağlar. Bu nedenle, bu iş akışı, farklı klinik özelliklere sahip alt popülasyonlarda hastalık etkenleri hakkında yeni bilgiler üretebilir.

Özetle, DeepOmicsAE, moleküler ekspresyon verilerine ve klinik özelliklere özel önem vererek multi-omik verileri analiz etmek için bir iş akışı sağlar. İş akışı, transkriptomik verileri analiz etmek için uyarlanabilir ve ayrıca kanser, diyabet ve kalp, akciğer veya böbrek hastalığı dahil olmak üzere farklı hastalıklardan veri kümelerini incelemek için kullanılabilir.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazar, herhangi bir çıkar çatışması olmadığını beyan eder.

Acknowledgments

Bu çalışma, NIH hibe CA201402 ve Cornell Omurgalı Genomik Merkezi (CVG) Seçkin Bilim Adamı Ödülü tarafından desteklenmiştir. Burada yayınlanan sonuçlar tamamen veya kısmen AD Bilgi Portalı'ndan (https://adknowledgeportal.org) elde edilen verilere dayanmaktadır. Çalışma verileri, Rush Alzheimer Hastalığı Merkezi, Rush Üniversitesi Tıp Merkezi, Chicago tarafından sağlanan örneklere dayanarak AD için Hızlandırıcı Tıp Ortaklığı (U01AG046161 ve U01AG061357) aracılığıyla sağlandı. Veri toplama, NIA hibeleri P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, Illinois Halk Sağlığı Departmanı ve Translasyonel Genomik Araştırma Enstitüsü tarafından finanse edilerek desteklendi. Metabolomik veri seti Metabolon'da oluşturuldu ve ADMC tarafından önceden işlendi.

Materials

Name	Company	Catalog Number	Comments
Computer	Apple	Mac Studio	Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1	Anaconda, Inc.	N/A	package management system and environment manager
conda environment DeepOmicsAE	N/A	DeepOmicsAE_env.yml	contains packages necessary to run the worflow
github repository DeepOmicsAE	Microsoft	https://github.com/elepan84/DeepOmicsAE/	provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4	Project Jupyter	N/A	a platform for interactive data science and scientific computing
DT01-metabolomics data	N/A	ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv	This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics data	N/A	C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv
DT03-clinical data	N/A	ROSMAP_clinical.csv
DT04-biospecimen metadata	N/A	ROSMAP_biospecimen_metadata .csv
Python 3.11.3	Python Software Foundation	N/A	programming language

DOWNLOAD MATERIALS LIST

References

Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
Breijyeh, Z., Karaman, R. Comprehensive review on Alzheimer’s disease: causes and treatment. Molecules. 25 (24), 5789 (2020).
Bennett, D. A., et al. Religious Orders Study and Rush Memory and Aging Project. Journal of Alzheimer’s Disease. 64 (s1), S161-S189 (2018).
Higginbotham, L., et al. Integrated proteomics reveals brain-based cerebrospinal fluid biomarkers in asymptomatic and symptomatic Alzheimer’s disease. Science Advances. 6 (43), eaaz9360 (2020).
Aebersold, R., et al. How many human proteoforms are there. Nature Chemical Biology. 14 (3), 206-214 (2018).
Nusinow, D. P., et al. Quantitative proteomics of the cancer cell line encyclopedia. Cell. 180 (2), 387-402.e16 (2020).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer’s disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26 (5), 769-780 (2020).
Geyer, P. E., et al. Plasma proteome profiling to assess human health and disease. Cell Systems. 2 (3), 185-195 (2016).
Akbani, R., et al. A pan-cancer proteomic perspective on the cancer genome atlas. Nature Communications. 5, 3887 (2014).
Panizza, E., et al. Proteomic analysis reveals microvesicles containing NAMPT as mediators of radioresistance in glioma. Life Science Alliance. 6 (6), e202201680 (2023).
Li, Z., Vacanti, N. M. A tale of three proteomes: visualizing protein and transcript abundance relationships in the Breast Cancer Proteome Portal. Journal of Proteome Research. 22 (8), 2727-2733 (2023).
Subramanian, I., Verma, S., Kumar, S., Jere, A., Anamika, K. Multi-omics Data Integration, Interpretation, and Its Application. Bioinformatics and Biology Insights. 14, 1177932219899051 (2020).
Wang, Y., Yao, H., Zhao, S. Auto-encoder based dimensionality reduction. Neurocomputing. 184, 232-242 (2016).
Mulla, F. R., Gupta, A. K. A review paper on dimensionality reduction techniques. Journal of Pharmaceutical Negative Results. 13, 1263-1272 (2022).
Shrestha, A., Mahmood, A. Review of deep learning algorithms and architectures. IEEE Access. 7, 53040-53065 (2019).
Pang, Z., et al. MetaboAnalyst 5.0: Narrowing the gap between raw spectra and functional insights. Nucleic Acids Research. 49 (W1), W388-W396 (2021).
Hinton, G. E., Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science. 313 (5786), 504-507 (2006).
Altmann, A., Toloşi, L., Sander, O., Lengauer, T. Permutation importance: a corrected feature importance measure. Bioinformatics. 26 (10), 1340-1347 (2010).
A unified approach to interpreting model predictions. Lundberg, S. M., Allen, P. G., Lee, S. -I. 31st Conference on Neural Information Processing Systems (NIPS 2017), , Long Beach, CA, USA. (2017).
Wang, Q., et al. Deep learning-based brain transcriptomic signatures associated with the neuropathological and clinical severity of Alzheimer’s disease. Brain Communications. 4 (1), (2021).
Beebe-Wang, N., et al. Unified AI framework to uncover deep interrelationships between gene expression and Alzheimer’s disease neuropathologies. Nature Communications. 12 (1), 5369 (2021).
Camandola, S., Mattson, M. P. Brain metabolism in health, aging, and neurodegeneration. The EMBO Journal. 36 (11), 1474-1492 (2017).
Verdin, E. NAD+ in aging, metabolism, and neurodegeneration. Science. 350 (6265), 1208-1213 (2015).
Platten, M., Nollen, E. A. A., Röhrig, U. F., Fallarino, F., Opitz, C. A. Tryptophan metabolism as a common therapeutic target in cancer, neurodegeneration and beyond. Nature Reviews Drug Discovery. 18 (5), 379-401 (2019).
Wang, R., Reddy, P. H. Role of glutamate and NMDA receptors in Alzheimer’s disease. Journal of Alzheimer’s Disease. 57 (4), 1041-1048 (2017).
Skaper, S. D., Facci, L., Zusso, M., Giusti, P. Synaptic plasticity, dementia and Alzheimer disease. CNS & Neurological Disorders - Drug Targets. 16 (3), 220-233 (2017).
Reisberg, B., et al. Memantine in moderate-to-severe Alzheimer’s disease. New England Journal of Medicine. 348 (14), 1333-1341 (2003).

Biology

DeepOmicsAE: Alzheimer Hastalığında Sinyal Modüllerinin Proteomik, Metabolomik ve Klinik Verilerin Derin Öğrenme Analizi ile Temsil Edilmesi

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.