Summary

박테리아 집단에서 계층적 유전자형과 부속 게놈 유전자형의 휴리스틱 마이닝

Published: December 07, 2021
doi:

Summary

이 분석 전산 플랫폼은 박테리아 집단 유전체학에 관심이있는 미생물 학자, 생태 학자 및 역학자에게 실질적인 지침을 제공합니다. 구체적으로, 여기에 제시된 연구는 수행 방법을 보여주었습니다 : i) 계층 적 유전자형의 계통 유도 매핑; ii) 유전자형의 빈도 기반 분석; iii) 친족관계 및 클론성 분석; iv) 혈통 차별화 액세서리 유전자좌의 확인.

Abstract

박테리아 전체 게놈 시퀀싱 (WGS)의 일상적이고 체계적인 사용은 공중 보건 실험실 및 규제 기관이 수행하는 역학 조사의 정확성과 해상도를 향상시키고 있습니다. 공개적으로 이용 가능한 대량의 WGS 데이터를 사용하여 병원성 집단을 대규모로 연구 할 수 있습니다. 최근에는 박테리아 WGS 데이터를 사용하여 재현 가능하고 자동화되고 확장 가능한 계층 적 기반 집단 게놈 분석을 가능하게하기 위해 ProkEvo라는 자유롭게 사용할 수있는 계산 플랫폼이 게시되었습니다. ProkEvo의 이러한 구현은 생태 추론을위한 액세서리 게놈 콘텐츠의 마이닝과 인구의 표준 유전자형 매핑을 결합하는 것이 중요하다는 것을 보여주었습니다. 특히, 여기서 강조된 연구는 R 프로그래밍 언어를 사용한 인구 규모 계층적 분석을 위해 ProkEvo 파생 출력을 사용했습니다. 주요 목표는 미생물 학자, 생태 학자 및 역학자를위한 실용적인 가이드를 제공하는 것이 었습니다 : i) 계층 적 유전자형의 계통 안내 매핑을 사용하는 방법; ii) 생태적 적합성을 위한 프록시로서 유전자형의 빈도 분포를 평가하고; iii) 특정 유전자형 분류를 사용하여 혈연 관계 및 유전 적 다양성을 결정; iv) 부속 유전자좌를 차별화하는 계보를 지도한다. 재현성과 이식성을 향상시키기 위해 R markdown 파일을 사용하여 전체 분석 접근 방식을 시연했습니다. 예제 데이터 세트에는 동물 유행성 식품 매개 병원균 살모넬라 뉴포트의 2,365 단리물로부터의 게놈 데이터가 포함되었습니다. 계층적 유전자형(Serovar -> BAPS1 -> ST-> cgMLST)의 계통-앵커 매핑은 집단 유전 구조를 밝혀내고, 서열 유형(ST)을 키스톤 분화 유전자형으로 강조했다. 세 가지 가장 지배적 인 혈통에 걸쳐, ST5와 ST118은 고도로 클론 ST45 계통형보다 더 최근에 공통 조상을 공유했습니다. ST-기반 차이는 부속 항미생물 내성 (AMR) 유전자좌의 분포에 의해 더욱 강조되었다. 마지막으로, 계통 고정 시각화를 사용하여 계층 적 유전자형과 AMR 함량을 결합하여 혈연 구조 및 혈통 별 게놈 서명을 밝혀 냈습니다. 결합된이 분석 접근법은 범 게놈 정보를 사용하여 휴리스틱 박테리아 집단 게놈 분석을 수행하기위한 몇 가지 지침을 제공합니다.

Introduction

공중 보건 실험실 및 규제 기관의 일상적인 감시 및 역학 조사의 기초로 박테리아 전체 게놈 시퀀싱 (WGS)의 사용이 증가함에 따라 병원체 발병 조사 1,2,3,4가 크게 향상되었습니다. 그 결과, 대량의 비식별된 WGS 데이터가 현재 공개적으로 이용 가능하며, 여러 저장소, 지리적 지역 및 환경 유형에 걸친 집단 구조, 유전자형 빈도 및 유전자/대립유전자 빈도에 기초한 연구를 포함하여 전례 없는 규모로 병원성 종의 집단 생물학의 측면을 연구하는 데 사용될 수 있습니다5 . 가장 일반적으로 사용되는 WGS 유도 역학 조사는 공유 코어 게놈 콘텐츠만을 사용하는 분석을 기반으로하며, 공유 (보존 된) 콘텐츠 만으로는 유전자형 분류 (예 : 변형 호출)에 사용되며 이러한 변형은 역학 분석 및 추적 1,2,6,7의 기초가됩니다. . 전형적으로, 박테리아 코어-게놈-기반 유전자형은 7 내지 수천 개의 유전자좌 8,9,10을 사용하는 다중 유전자좌 서열 타이핑(MLST) 접근법으로 수행된다. 이러한 MLST 기반 전략은 고도로 큐레이팅된 데이터베이스 상에 미리 조립되거나 조립된 게놈 서열의 매핑을 포함하며, 이에 따라 대립유전자 정보를 역학 및 생태학적 분석을 위한 재현 가능한 유전자형 단위로 결합한다(11,12). 예를 들어, 이러한 MLST 기반 분류는 두 가지 수준의 분해능에서 유전자형 정보를 생성할 수 있다: 저수준 서열 유형(STs) 또는 ST 계보(7개 유전자좌), 및 상위 레벨 코어-게놈 MLST(cgMLST) 변이체(~300-3,000 유전자좌)10.

MLST 기반 유전자형 분류는 실험실에서 계산적으로 휴대가 용이하고 재현성이 높기 때문에 박테리아 종 수준13,14 아래의 정확한 하위 타이핑 접근법으로 널리 받아 들여지고 있습니다. 그러나, 박테리아 집단은 종-특이적 다양한 정도의 클론성(즉, 유전자형 균질성), 유전자형 15,16,17 사이의 계층적 친족관계의 복잡한 패턴, 및 부속 게놈 함량의 분포에서의 광범위한 변동으로 구조화된다 18,19 . 따라서보다 전체적인 접근 방식은 MLST 유전자형으로의 개별 분류를 넘어 다양한 해상도의 유전자형의 계층 적 관계를 통합하고 액세서리 게놈 내용을 유전자형 분류에 매핑하여 인구 기반 추론을 용이하게합니다 18,20,21 . 더욱이, 분석은 또한 멀리 관련된 유전자형21,22 사이에서 액세서리 게놈 유전자좌의 상속의 공유 패턴에 초점을 맞출 수 있다. 전반적으로, 결합된 접근법은 집단 구조 사이의 관계와 지리공간적 또는 환경적 구배들 사이의 특정 게놈 조성물(예를 들어, 유전자좌)의 분포에 대한 불가지론적 심문을 가능하게 한다. 이러한 접근법은 특정 집단의 생태 학적 특성에 대한 근본적이고 실용적인 정보를 제공 할 수 있으며, 이는 차례로 식량 동물이나 인간과 같은 저수지에 걸친 그들의 트로피즘과 분산 패턴을 설명 할 수 있습니다.

이 시스템 기반 계층적 집단 중심 접근법은 구별 가능한 게놈 서명을 예측하기에 충분한 통계적 능력을 위해 대량의 WGS 데이터를 필요로 한다. 결과적으로이 접근법은 수천 개의 박테리아 게놈을 한 번에 처리 할 수있는 전산 플랫폼을 필요로합니다. 최근에, ProkEvo는 개발되었으며 자유롭게 이용 가능하고, 자동화되고, 휴대가 가능하며, 확장 가능한 생물 정보학 플랫폼으로, 범게놈 매핑(pan-genomic mapping)(20)을 포함한 통합 계층적 기반 박테리아 집단 분석을 가능하게 한다. ProkEvo는 중대형 박테리아 데이터 세트를 연구하는 동시에 사용자가 사용자 정의 할 수있는 검증 가능하고 추론 가능한 역학 및 생태 학적 가설 및 표현형 예측을 생성하는 프레임 워크를 제공합니다. 이 작업은 ProkEvo 파생 출력 파일을 계층 적 집단 분류 및 액세서리 게놈 마이닝의 분석 및 해석을위한 입력으로 활용하는 방법에 대한 가이드를 제공하는 파이프 라인을 보완합니다. 여기에 제시된 사례 연구는 살모넬라 엔테리카 혈통 I zoonotic serovar S의 인구를 활용했습니다. Newport를 예로 들자면, 미생물학자, 생태학자 및 역학자에게 다음과 같은 방법에 대한 실질적인 지침을 제공하는 것을 특별히 목표로 하였다: i) 계층적 유전자형을 매핑하기 위해 자동화된 계통학-의존적 접근법을 사용한다; ii) 생태학적 적합성을 평가하기 위한 프록시로서 유전자형의 빈도 분포를 평가하는 단계; iii) 독립적 인 통계적 접근법을 사용하여 혈통 별 클론성 정도를 결정; iv) 집단 구조의 맥락에서 부속 게놈 함량을 마이닝하는 방법의 예로서 혈통-차별화 AMR 유전자좌를 지도화한다. 보다 광범위하게,이 분석 접근법은 표적 종에 관계없이 진화 및 생태 패턴을 추론하는 데 사용할 수있는 규모로 인구 기반 게놈 분석을 수행하는 일반화 가능한 프레임 워크를 제공합니다.

Protocol

1. 입력 파일 준비 참고: 프로토콜은 여기에서 사용할 수 있습니다 – https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. 이 프로토콜은 연구원이이 Figshare 저장소에서 사용할 수있는 필요한 출력을 얻기 위해 ProkEvo (또는 유사한 파이프 라인)를 특별히 사용했다고 가정합니다 (https://figshare.com/account/projects/116625/articles/15097503 – 로그인 자격 증명이 필요합니다 -…

Representative Results

집단 유전체학 분석을 위해 전산 플랫폼 ProkEvo를 활용함으로써, 박테리아 WGS 데이터 마이닝의 첫 번째 단계는 코어-게놈 계통학의 맥락에서 계층적 집단 구조를 조사하는 것으로 구성됩니다(그림 1). S의 경우. 엔테리카 계보 I, S에 의해 예시된 바와 같이 . 뉴포트 데이터 세트는, 모집단이 다음과 같이 계층적으로 구조화된다: 세로바(최저 해상도 수준), B…

Discussion

시스템 기반 휴리스틱 및 계층적 집단 구조 분석의 활용은 독특한 생태학적 및 역학적 패턴(20)을 설명할 수 있는 잠재력을 갖는 박테리아 데이터세트에서 새로운 게놈 서명을 식별하기 위한 프레임워크를 제공한다. 추가적으로, 집단 구조에 대한 부속 게놈 데이터의 매핑은 저장고(6,20,21,45,46)에 걸?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

이 연구는 UNL-IANR 농업 연구 부서와 국립 항균 내성 연구 및 교육 연구소 및 식품 과학 기술부 (UNL)의 네브래스카 식품 보건 센터에서 제공하는 기금으로 지원되었습니다. 이 연구는 네브래스카 연구 이니셔티브의 지원을받는 UNL의 네덜란드 컴퓨팅 센터 (HCC)를 활용해야만 완료 될 수 있습니다. 우리는 또한 HCC를 통해 국립 과학 재단과 미국 에너지부의 과학 사무소가 지원하는 개방형 과학 그리드 (OSG)가 제공하는 자원에 액세스 할 수있게 해줘서 고맙습니다. 이 작품은 국립 과학 재단 (보조금 #1664162)이 자금을 지원하는 페가수스 워크 플로우 관리 소프트웨어를 사용했습니다.

Materials

amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

Riferimenti

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetica. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user’s guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 – Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: “ggplot2” Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with “ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).
check_url/it/63115?article_type=t

Play Video

Citazione di questo articolo
Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

View Video