Summary

Bakteriyel Popülasyonlarda Hiyerarşik Genotiplerin ve Aksesuar Genom Loci'nin Sezgisel Madenciliği

Published: December 07, 2021
doi:

Summary

Bu analitik hesaplama platformu, bakteriyel popülasyon genomiği ile ilgilenen mikrobiyologlar, ekolojistler ve epidemiyologlar için pratik rehberlik sağlar. Özellikle, burada sunulan çalışma nasıl gerçekleştirileceğini göstermiştir: i) hiyerarşik genotiplerin filogeni rehberliğinde haritalanması; ii) genotiplerin frekansa dayalı analizi; iii) akrabalık ve klonalite analizleri; iv) Soy farklılaştırıcı aksesuar lokuslarının tanımlanması.

Abstract

Bakteriyel tüm genom dizilemesinin (WGS) rutin ve sistematik kullanımı, Halk Sağlığı laboratuvarları ve düzenleyici kurumlar tarafından yürütülen epidemiyolojik araştırmaların doğruluğunu ve çözünürlüğünü arttırmaktadır. Halka açık WGS verilerinin büyük hacimleri, patojenik popülasyonları büyük ölçekte incelemek için kullanılabilir. Son zamanlarda, bakteriyel WGS verilerini kullanarak tekrarlanabilir, otomatik ve ölçeklenebilir hiyerarşik tabanlı popülasyon genomik analizlerini mümkün kılmak için ProkEvo adlı ücretsiz olarak kullanılabilen bir hesaplama platformu yayınlandı. ProkEvo’nun bu uygulaması, popülasyonların standart genotipik haritalamasını ekolojik çıkarım için aksesuar genomik içerik madenciliği ile birleştirmenin önemini göstermiştir. Özellikle, burada vurgulanan çalışma, R programlama dilini kullanarak popülasyon ölçekli hiyerarşik analizler için ProkEvo’dan türetilmiş çıktıları kullandı. Temel amaç, mikrobiyologlar, ekolojistler ve epidemiyologlar için nasıl yapılacağını göstererek pratik bir rehber sağlamaktı: i) hiyerarşik genotiplerin filogeni rehberliğinde bir haritasını kullanmak; ii) genotiplerin frekans dağılımlarını ekolojik uygunluk için bir vekil olarak değerlendirmek; iii) belirli genotipik sınıflandırmaları kullanarak akrabalık ilişkilerini ve genetik çeşitliliği belirlemek; ve iv) aksesuar lokuslarını farklılaştıran harita soyu. Tekrarlanabilirliği ve taşınabilirliği artırmak için, tüm analitik yaklaşımı göstermek için R markdown dosyaları kullanılmıştır. Örnek veri kümesi, zoonotik gıda kaynaklı patojen Salmonella Newport’un 2.365 izolatından genomik veriler içeriyordu. Hiyerarşik genotiplerin (Serovar -> BAPS1 -> ST -> cgMLST) filogeni bağlantılı haritalanması, genotipi farklılaştıran kilit taşı olarak dizi tiplerini (ST’ler) vurgulayarak popülasyon genetik yapısını ortaya koymuştur. En baskın üç soy boyunca, ST5 ve ST118, yüksek klonal ST45 filotipinden daha yakın zamanda ortak bir atayı paylaştı. ST bazlı farklılıklar, aksesuar antimikrobiyal direnç (AMR) lokuslarının dağılımı ile daha da vurgulanmıştır. Son olarak, akrabalık yapısını ve soya özgü genomik imzaları ortaya çıkarmak için hiyerarşik genotipleri ve AMR içeriğini birleştirmek için filogeni bağlantılı bir görselleştirme kullanıldı. Kombine olarak, bu analitik yaklaşım, pan-genomik bilgileri kullanarak sezgisel bakteri popülasyonu genomik analizleri yapmak için bazı kılavuzlar sağlar.

Introduction

Halk Sağlığı laboratuvarları ve düzenleyici kurumlar tarafından rutin sürveyans ve epidemiyolojik araştırmalar için bir temel olarak bakteriyel tüm genom dizilemesinin (WGS) artan kullanımı, patojen salgın araştırmalarını önemli ölçüde artırmıştır 1,2,3,4. Sonuç olarak, büyük hacimli kimliksizleştirilmiş WGS verileri artık kamuya açıktır ve patojenik türlerin popülasyon biyolojisinin yönlerini benzeri görülmemiş bir ölçekte incelemek için kullanılabilir: popülasyon yapıları, genotip frekansları ve çoklu rezervuarlar, coğrafi bölgeler ve ortam türleri arasındaki gen / alel frekansları5 . En sık kullanılan WGS rehberliğindeki epidemiyolojik araştırmalar, yalnızca paylaşılan (korunmuş) içeriğin tek başına genotipik sınıflandırma (örneğin, varyant çağrısı) için kullanıldığı paylaşılan çekirdek-genomik içeriği kullanan analizlere dayanır ve bu varyantlar epidemiyolojik analiz ve izleme için temel oluşturur 1,2,6,7 . Tipik olarak, bakteriyel çekirdek-genom tabanlı genotipleme, yedi ila birkaç bin lokus 8,9,10 kullanılarak çok lokuslu dizi tipleme (MLST) yaklaşımlarıyla gerçekleştirilir. Bu MLST tabanlı stratejiler, önceden monte edilmiş veya bir araya getirilmiş genomik dizilerin yüksek küratörlü veritabanlarına haritalandırılmasını kapsar, böylece allelik bilgileri epidemiyolojik ve ekolojik analiz için tekrarlanabilir genotipik birimlerde birleştirir11,12. Örneğin, bu MLST tabanlı sınıflandırma iki çözünürlük düzeyinde genotipik bilgi üretebilir: düşük seviyeli dizi tipleri (ST’ler) veya ST soyları (7 lokus) ve daha üst düzey çekirdek-genom MLST (cgMLST) varyantları (~ 300-3.000 lokus)10.

MLST tabanlı genotipik sınıflandırma, hesaplamalı olarak taşınabilir ve laboratuvarlar arasında yüksek oranda tekrarlanabilir, bu da bakteri türü seviyesi 13,14’ün altında doğru bir alt tipleme yaklaşımı olarak yaygın olarak kabul edilmesini sağlar. Bununla birlikte, bakteri popülasyonları, türe özgü değişen klonalite dereceleri (yani, genotipik homojenlik), genotipler arasındaki hiyerarşik akrabalığın karmaşık kalıpları 15,16,17 ve aksesuar genomik içeriğinin dağılımındaki geniş bir varyasyon yelpazesi ile yapılandırılmıştır18,19 . Bu nedenle, daha bütünsel bir yaklaşım, MLST genotiplerine ayrık sınıflandırmaların ötesine geçer ve farklı çözünürlük ölçeklerinde genotiplerin hiyerarşik ilişkilerini, aksesuar genomik içeriğin genotipik sınıflandırmalara eşlenmesiyle birlikte dahil eder, bu da popülasyon tabanlı çıkarımı kolaylaştırır 18,20,21 . Dahası, analizler ayrıca uzaktan ilişkili genotipler21,22 arasında aksesuar genomik lokusların ortak kalıtım kalıplarına da odaklanabilir. Genel olarak, kombine yaklaşım, popülasyon yapısı arasındaki ilişkilerin agnostik sorgulanmasını ve belirli genomik bileşimlerin (örneğin, lokuslar) jeo-uzamsal veya çevresel gradyanlar arasında dağılımını sağlar. Böyle bir yaklaşım, belirli popülasyonların ekolojik özellikleri hakkında hem temel hem de pratik bilgiler verebilir ve bu da tropizmlerini ve gıda hayvanları veya insanlar gibi rezervuarlar arasındaki dağılım modellerini açıklayabilir.

Bu sistem tabanlı hiyerarşik popülasyon odaklı yaklaşım, ayırt edilebilir genomik imzaları tahmin etmek için yeterli istatistiksel güç için büyük miktarda WGS verisi gerektirir. Sonuç olarak, yaklaşım aynı anda binlerce bakteri genomunu işleyebilen bir hesaplama platformu gerektirir. Son zamanlarda, ProkEvo geliştirilmiştir ve pan-genomik haritalama20 dahil olmak üzere bütünleştirici hiyerarşik tabanlı bakteri popülasyonu analizlerine izin veren serbestçe kullanılabilir, otomatik, taşınabilir ve ölçeklenebilir bir biyoinformatik platformudur. ProkEvo, orta ila büyük ölçekli bakteri veri kümelerinin incelenmesine izin verirken, kullanıcı tarafından özelleştirilebilen test edilebilir ve çıkarılabilir epidemiyolojik ve ekolojik hipotezler ve fenotipik tahminler üretmek için bir çerçeve sağlar. Bu çalışma, ProkEvo’dan türetilmiş çıktı dosyalarının hiyerarşik popülasyon sınıflandırmalarının ve aksesuar genomik madenciliğinin analizi ve yorumlanması için girdi olarak nasıl kullanılacağına dair bir kılavuz sağlamada bu boru hattını tamamlamaktadır. Burada sunulan vaka çalışmasında Salmonella enterica soyu I zoonotik serovar S popülasyonu kullanılmıştır. Örnek olarak Newport ve özellikle mikrobiyologlar, ekolojistler ve epidemiyologlar için aşağıdaki konularda pratik kılavuzlar sağlamayı amaçlamıştır: i) hiyerarşik genotipleri haritalamak için otomatik filogeniye bağımlı bir yaklaşım kullanmak; ii) genotiplerin frekans dağılımını ekolojik uygunluğu değerlendirmek için bir vekil olarak değerlendirmek; iii) bağımsız istatistiksel yaklaşımlar kullanarak soya özgü klonalite derecelerini belirlemek; ve iv) popülasyon yapısı bağlamında aksesuar genomik içeriğinin nasıl çıkarılacağına dair bir örnek olarak soy farklılaştırıcı AMR lokuslarını haritalandırın. Daha geniş anlamda, bu analitik yaklaşım, hedeflenen türlerden bağımsız olarak evrimsel ve ekolojik kalıpları çıkarmak için kullanılabilecek bir ölçekte popülasyon tabanlı bir genomik analiz gerçekleştirmek için genelleştirilebilir bir çerçeve sağlar.

Protocol

1. Giriş dosyalarını hazırlama NOT: Protokol burada mevcuttur – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Protokol, araştırmacının bu Figshare deposunda gerekli çıktıları elde etmek için özellikle ProkEvo’yu (veya karşılaştırılabilir bir boru hattını) kullandığını varsayar (https://figshare.com/account/projects/116625/articles/15097503 – giriş kimlik bilgileri gereklidir – Kullanıcı dosya erişimine sahip olmak iç…

Representative Results

Popülasyon genomik analizleri için hesaplama platformu ProkEvo’yu kullanarak, bakteriyel WGS veri madenciliğinde ilk adım, hiyerarşik popülasyon yapısını bir çekirdek-genom filogenisi bağlamında incelemekten ibarettir (Şekil 1). S. durumunda. enterica soyu I, S tarafından örneklendiği gibi . Newport veri kümesi, popülasyon hiyerarşik olarak aşağıdaki gibi yapılandırılmıştır: serovar (en düşük çözünürlük düzeyi), BAPS1 alt grupl…

Discussion

Sistem tabanlı sezgisel ve hiyerarşik popülasyon yapısı analizinin kullanılması, benzersiz ekolojik ve epidemiyolojik kalıpları açıklama potansiyeline sahip bakteri veri kümelerindeki yeni genomik imzaları tanımlamak için bir çerçeve sağlar20. Ek olarak, aksesuar genom verilerinin popülasyon yapısına haritalanması, ST soylarının veya cgMLST varyantlarının rezervuarlar 6,20,21,45,46 arasında yayılmasını kolaylaştıran atalardan edinilmiş ve / veya yakın …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Bu çalışma, UNL-IANR Tarımsal Araştırma Bölümü ve Ulusal Antimikrobiyal Direnç Araştırma ve Eğitim Enstitüsü ve Gıda Bilimi ve Teknolojisi Departmanı’ndaki (UNL) Nebraska Sağlık için Gıda Merkezi tarafından sağlanan fonlarla desteklenmiştir. Bu araştırma ancak Nebraska Araştırma Girişimi’nden destek alan UNL’deki Hollanda Bilgi İşlem Merkezi’ni (HCC) kullanarak tamamlanabildi. Ayrıca, HCC aracılığıyla, Ulusal Bilim Vakfı ve ABD Enerji Bakanlığı Bilim Ofisi tarafından desteklenen Açık Bilim Şebekesi (OSG) tarafından sağlanan kaynaklara erişebildiğimiz için minnettarız. Bu çalışmada Ulusal Bilim Vakfı tarafından finanse edilen Pegasus İş Akışı Yönetim Yazılımı kullanılmıştır (hibe #1664162).

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).
check_url/63115?article_type=t

Play Video

Cite This Article
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video