Summary

Mikrobiyom Verilerinde Doğrusal Diskriminant Analizi Etki Boyutu (LEfSe) ile Biyobelirteçlerin Yardımlı Seçimi

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Etki Boyutu), mikrobiyom verilerinde iki veya daha fazla grubu önemli ölçüde karakterize eden genomik özellikleri (genler, yollar ve taksonomiler gibi) tanımlamak için yüksek boyutlu biyobelirteç madenciliği için bir araçtır.

Abstract

Çevrede ve sağlıkta kapalı biyolojik genomlara yönelik artan bir ilgi var. Farklı örnekler veya ortamlar arasındaki gruplar arası farklılıkları keşfetmek ve ortaya çıkarmak için, gruplar arasında istatistiksel farklılıklar olan biyobelirteçleri keşfetmek çok önemlidir. Doğrusal diskriminant analizi Etki Boyutu (LEfSe) uygulaması, iyi biyobelirteçlerin bulunmasına yardımcı olabilir. Orijinal genom verilerine dayanarak, kalite kontrolü ve taksonlara veya genlere dayalı farklı dizilerin nicelleştirilmesi gerçekleştirilir. İlk olarak, Kruskal-Wallis sıralama testi, istatistiksel ve biyolojik gruplar arasındaki spesifik farklılıkları ayırt etmek için kullanıldı. Daha sonra, farklılıkların tutarlı olup olmadığını değerlendirmek için önceki adımda elde edilen iki grup arasında Wilcoxon rütbe testi yapıldı. Son olarak, biyobelirteçlerin LDA skorlarına göre anlamlı derecede farklı gruplar üzerindeki etkisini değerlendirmek için doğrusal bir diskriminant analizi (LDA) yapılmıştır. Özetlemek gerekirse, LEfSe, biyolojik gruplar arasındaki istatistiksel farklılıkları karakterize eden genomik biyobelirteçleri tanımlamak için kolaylık sağlamıştır.

Introduction

Biyobelirteçler, ölçülebilen biyolojik özelliklerdir ve enfeksiyon, hastalık veya çevre gibi bazı fenomenleri gösterebilir. Bunlar arasında, fonksiyonel biyobelirteçler, tek bir türün spesifik biyolojik fonksiyonları olabilir veya gen, protein, metabolit ve yollar gibi bazı türler için ortak olabilir. Ayrıca, taksonomik biyobelirteçler alışılmadık bir türü, bir grup organizmayı (krallık, filum, sınıf, düzen, aile, cins, tür), Amplikon Dizisi Varyansı (ASV)1 veya Operasyonel Taksonomik Birim (OTU)2’yi gösterir. Biyobelirteçleri daha hızlı ve doğru bir şekilde bulmak için, biyolojik verileri analiz etmek için bir araç gereklidir. Sınıflar arasındaki farklar, istatistiksel anlamlılık için standart testler ve biyolojik tutarlılığı ve etki alaka düzeyini kodlayan ek testlerle birlikte LEfSe ile açıklanabilir3. LEfSe, bir galaksi modülü, bir conda formülü, bir docker görüntüsü olarak mevcuttur ve bioBakery (VM ve bulut)4’e dahil edilmiştir. Genel olarak, mikrobiyal çeşitliliğin analizi genellikle bir örnek topluluğunun belirsiz dağılımı için parametrik olmayan bir test kullanır. Sıralama toplamı testi, numunelerin değerini değiştirmek için numunelerin sıralamasını kullanan parametrik olmayan bir test yöntemidir. Örneklem gruplarının farklılığına göre Wilcoxon rütbe toplamı testi ile iki numuneye, Kruskal-Wallis testi 5,6 ile birden fazla numuneye ayrılabilir. Özellikle, birden fazla numune grubu arasında önemli farklılıklar olduğunda, birden fazla numunenin çift yönlü karşılaştırılması için bir rank-sum testi yapılmalıdır. 1936’da Ronald Fisher tarafından icat edilen LDA (Doğrusal Diskriminant Analizi anlamına gelir), Fisher’s Linear Discriminant7 olarak da bilinen bir denetimli öğrenme türüdür. Makine öğrenimi veri madenciliğinin mevcut alanında klasik ve popüler bir algoritmadır.

Burada, LEfSe testi Conda ve Galaxy sunucuları tarafından optimize edilmiştir. Mikrobiyal toplulukların LDA skorları ve görselleştirme sonuçları ile farklı gruplar arasındaki anlamlı farklılıkları göstermek için üç grup 16S rRNA gen dizisi analiz edilmiştir.

Protocol

NOT: Protokol, Segata ve ark.3’ün araştırmasından kaynaklanmış ve değiştirilmiştir. Yöntem https://bitbucket.org/biobakery/biobakery/wiki/lefse’de sağlanır. 1. Analiz için giriş dosyasının hazırlanması Orijinal dosyalarla (örnek dosya ve ilgili tür ek açıklama dosyası) birçok iş akışı8 veya önceki protokol9 tarafından kolayca oluşturulabilen LEfSe’nin giriş dosyasını (Tab…

Representative Results

Üç numunenin 16S rRNA gen dizilerini analiz ederek her grupta anlamlı farklılıklar gösteren mikrobiyal toplulukların LDA skorları Şekil 8’de gösterilmiştir. Histogramın rengi farklı grupları temsil ederken, uzunluk, farklı gruplar arasında önemli farklılıklar olan türlerin etkisi olan LDA skorunu temsil eder. Histogram, LDA skoru önceden ayarlanmış değerden daha büyük olan önemli farklılıklara sahip türleri gösterir. Varsayılan hazır ayar değeri 2,0’dır, bu…

Discussion

Burada, farklı gruplardaki biyobelirteçlerin tanımlanması ve karakterizasyonu için protokol açıklanmaktadır. Bu protokol, mikroorganizmaların OTU’ları gibi diğer numune türleri için kolayca uyarlanabilir. LEfSe’nin istatistiksel yöntemi, her gruptaki karakteristik mikroorganizmaları (varsayılan LDA >2), yani bu grupta diğerlerine göre daha bol bulunan mikroorganizmaları bulabilir12. LEfSe, kullanıcıların web sayfalarında da LEfSe analizi yapabileceği hem yerel hem de web Li…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Bu çalışma, Merkezi Kamu Refahı Araştırma Enstitüleri (TKS170205) ve Bilim ve Teknoloji Geliştirme Vakfı için Temel Araştırma Fonları ve Tianjin Su Taşımacılığı Mühendisliği Araştırma Enstitüsü (TIWTE), M.O.T. (KJFZJJ170201) tarafından desteklenmiştir.

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).
check_url/61715?article_type=t

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video