Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Heuristische mijnbouw van hiërarchische genotypen en accessoire genoom loci in bacteriële populaties

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Dit analytische computationele platform biedt praktische richtlijnen voor microbiologen, ecologen en epidemiologen die geïnteresseerd zijn in bacteriële populatiegenomica. In het bijzonder demonstreerde het hier gepresenteerde werk hoe uit te voeren: i) fylogenie-geleide mapping van hiërarchische genotypen; ii) op frequentie gebaseerde analyse van genotypen; iii) verwantschaps- en klonaliteitsanalyses; iv) identificatie van afstammingsonderscheidende accessoire loci.

Abstract

Routinematig en systematisch gebruik van bacteriële whole-genome sequencing (WGS) verbetert de nauwkeurigheid en oplossing van epidemiologisch onderzoek uitgevoerd door volksgezondheidslaboratoria en regelgevende instanties. Grote hoeveelheden openbaar beschikbare WGS-gegevens kunnen worden gebruikt om pathogene populaties op grote schaal te bestuderen. Onlangs werd een vrij beschikbaar computationeel platform genaamd ProkEvo gepubliceerd om reproduceerbare, geautomatiseerde en schaalbare hiërarchische populatie-genomische analyses mogelijk te maken met behulp van bacteriële WGS-gegevens. Deze implementatie van ProkEvo toonde het belang aan van het combineren van standaard genotypische mapping van populaties met mijnbouw van accessoire genomische inhoud voor ecologische gevolgtrekking. In het bijzonder gebruikte het hier belichte werk ProkEvo-afgeleide outputs voor hiërarchische analyses op populatieschaal met behulp van de R-programmeertaal. Het belangrijkste doel was om microbiologen, ecologen en epidemiologen een praktische gids te bieden door te laten zien hoe: i) een fylogenie-geleide mapping van hiërarchische genotypen kan worden gebruikt; ii) frequentieverdelingen van genotypen te beoordelen als een proxy voor ecologische fitheid; iii) verwantschapsrelaties en genetische diversiteit te bepalen met behulp van specifieke genotypische classificaties; en iv) kaartlijn differentiërende accessoire loci. Om de reproduceerbaarheid en draagbaarheid te verbeteren, werden R-afwaarderingsbestanden gebruikt om de volledige analytische benadering te demonstreren. De voorbeelddataset bevatte genomische gegevens van 2.365 isolaten van de zoönotische voedselpathogeen Salmonella Newport. Fylogenie-verankerde mapping van hiërarchische genotypen (Serovar -> BAPS1 -> ST -> cgMLST) onthulde de populatiegenetische structuur, waarbij sequentietypen (ST's) werden benadrukt als de hoeksteen die het genotype onderscheidt. Over de drie meest dominante afstammingslijnen deelden ST5 en ST118 recenter een gemeenschappelijke voorouder dan met het zeer klonale ST45-fylogenylotype. Op ST gebaseerde verschillen werden verder benadrukt door de verdeling van accessoire antimicrobiële resistentie (AMR) loci. Ten slotte werd een fylogenie-verankerde visualisatie gebruikt om hiërarchische genotypen en AMR-inhoud te combineren om de verwantschapsstructuur en afstammingsspecifieke genomische handtekeningen te onthullen. Gecombineerd biedt deze analytische benadering enkele richtlijnen voor het uitvoeren van heuristische bacteriële populatie genomische analyses met behulp van pan-genomische informatie.

Introduction

Het toenemende gebruik van bacteriële whole-genome sequencing (WGS) als basis voor routinematige surveillance en epidemiologisch onderzoek door volksgezondheidslaboratoria en regelgevende instanties heeft het onderzoek naar het uitbreken van pathogenen aanzienlijk verbeterd 1,2,3,4. Als gevolg hiervan zijn grote hoeveelheden geanonimiseerde WGS-gegevens nu openbaar beschikbaar en kunnen ze worden gebruikt om aspecten van de populatiebiologie van pathogene soorten op een ongekende schaal te bestuderen, inclusief studies op basis van: populatiestructuren, genotypefrequenties en gen / allelfrequenties in meerdere reservoirs, geografische regio's en soorten omgevingen5 . De meest gebruikte WGS-geleide epidemiologische onderzoeken zijn gebaseerd op analyses met alleen de gedeelde kern-genomische inhoud, waarbij de gedeelde (geconserveerde) inhoud alleen wordt gebruikt voor genotypische classificatie (bijv. Variant calling), en deze varianten worden de basis voor epidemiologische analyse en tracering 1,2,6,7 . Typisch, bacteriële kern-genoom-gebaseerde genotypering wordt uitgevoerd met multi-locus sequence typing (MLST) benaderingen met behulp van zeven tot een paar duizend loci 8,9,10. Deze MLST-gebaseerde strategieën omvatten het in kaart brengen van voorgeassembleerde of geassembleerde genomische sequenties op sterk samengestelde databases, waardoor allelische informatie wordt gecombineerd tot reproduceerbare genotypische eenheden voor epidemiologische en ecologische analyse11,12. Deze MLST-gebaseerde classificatie kan bijvoorbeeld genotypische informatie genereren op twee resolutieniveaus: sequentietypen op een lager niveau (ST's) of ST-afstammingslijnen (7 loci) en mlst-varianten (cgMLST) op een hoger niveau (~ 300-3.000 loci)10.

MLST-gebaseerde genotypische classificatie is computationeel draagbaar en zeer reproduceerbaar tussen laboratoria, waardoor het algemeen wordt geaccepteerd als een nauwkeurige subtyperingsbenadering onder het bacteriesoortniveau13,14. Bacteriële populaties zijn echter gestructureerd met soortspecifieke verschillende gradaties van klonaliteit (d.w.z. genotypische homogeniteit), complexe patronen van hiërarchische verwantschap tussen genotypen 15,16,17 en een breed scala aan variatie in de verdeling van accessoire genomische inhoud 18,19 . Een meer holistische benadering gaat dus verder dan discrete classificaties in MLST-genotypen en omvat de hiërarchische relaties van genotypen op verschillende resolutieschalen, samen met het in kaart brengen van accessoire genomische inhoud op genotypische classificaties, wat populatiegebaseerde gevolgtrekkingen 18,20,21 vergemakkelijkt . Bovendien kunnen analyses zich ook richten op gedeelde patronen van overerving van accessoire genomische loci bij zelfs ver verwante genotypen 21,22. Over het algemeen maakt de gecombineerde aanpak agnostische ondervraging mogelijk van relaties tussen populatiestructuur en de verdeling van specifieke genomische samenstellingen (bijv. Loci) over geospatiale of omgevingsgradiënten. Een dergelijke benadering kan zowel fundamentele als praktische informatie opleveren over de ecologische kenmerken van specifieke populaties die op hun beurt hun tropisme en verspreidingspatronen over reservoirs, zoals voedseldieren of mensen, kunnen verklaren.

Deze op systemen gebaseerde hiërarchische populatiegerichte benadering vereist grote hoeveelheden WGS-gegevens voor voldoende statistische kracht om onderscheidbare genomische handtekeningen te voorspellen. Bijgevolg vereist de aanpak een computationeel platform dat in staat is om vele duizenden bacteriële genomen tegelijk te verwerken. Onlangs is ProkEvo ontwikkeld en is het een vrij beschikbaar, geautomatiseerd, draagbaar en schaalbaar bioinformaticaplatform dat integratieve hiërarchische bacteriële populatieanalyses mogelijk maakt, inclusief pan-genomische mapping20. ProkEvo maakt de studie van matige tot grootschalige bacteriële datasets mogelijk en biedt tegelijkertijd een kader om testbare en afleidbare epidemiologische en ecologische hypothesen en fenotypische voorspellingen te genereren die door de gebruiker kunnen worden aangepast. Dit werk vormt een aanvulling op die pijplijn door een gids te bieden voor het gebruik van prokevo-afgeleide outputbestanden als input voor analyses en interpretatie van hiërarchische populatieclassificaties en accessoire genomische mijnbouw. De hier gepresenteerde casestudy maakte gebruik van de populatie van Salmonella enterica-afstamming I zoönotische serovar S. Newport als voorbeeld en was specifiek gericht op het verstrekken van praktische richtlijnen voor microbiologen, ecologen en epidemiologen over hoe: i) een geautomatiseerde fylogenie-afhankelijke benadering te gebruiken om hiërarchische genotypen in kaart te brengen; ii) de frequentieverdeling van genotypen te beoordelen als een proxy voor het evalueren van ecologische fitheid; iii) afstammingsspecifieke graden van klonaliteit te bepalen met behulp van onafhankelijke statistische benaderingen; en iv) amr-loci in kaart te brengen als een voorbeeld van hoe accessoire genomische inhoud kan worden ontginnen in de context van de populatiestructuur. Meer in het algemeen biedt deze analytische benadering een generaliseerbaar kader om een populatiegebaseerde genomische analyse uit te voeren op een schaal die kan worden gebruikt om evolutionaire en ecologische patronen af te leiden, ongeacht de beoogde soort.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Bereid invoerbestanden voor

OPMERKING: Het protocol is hier beschikbaar - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Het protocol gaat ervan uit dat de onderzoeker specifiek ProkEvo (of een vergelijkbare pijplijn) heeft gebruikt om de benodigde uitvoer beschikbaar te krijgen in deze Figshare-repository (https://figshare.com/account/projects/116625/articles/15097503 - inloggegevens zijn vereist - De gebruiker moet een gratis account aanmaken om toegang tot bestanden te hebben!). Van belang is dat ProkEvo automatisch genomische sequenties downloadt uit de NCBI-SRA-repository en alleen een .txt bestand nodig heeft met een lijst met genoomidentificaties als input20, en degene die voor dit werk op S wordt gebruikt. Newport USA isolaten wordt hier verstrekt (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Gedetailleerde informatie over het installeren en gebruiken van dit bacteriële genomics-platform is hier beschikbaar (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Genereer kerngenoom fylogenie met FastTree23 zoals eerder beschreven20, dat geen deel uitmaakt van het bioinformaticaplatform20. FastTree vereist de Roary24 core-genome alignment als invoerbestand. Het fylogeniebestand heeft de naam newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Genereer SISTR25-uitvoer met de informatie over serovarsclassificaties voor Salmonella en cgMLST-variant aanroepgegevens (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Genereer EEN BAPS-bestand door fastbaps26,27 met de BAPS-niveaus 1-6 classificatie van genomen in subgroepen of haplotypen (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Genereer MLST-gebaseerde classificatie van genomen in ST's met behulp van het MLST-programma (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Genereer ABRicate (https://github.com/tseemann/abricate)29-uitvoer als een .csv bestand met AMR-loci in kaart gebracht per genoom (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    OPMERKING: De gebruiker kan specifieke delen van de ProkEvo bioinformatica pijplijn uitschakelen (kijk hier voor meer informatie - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). De hier gepresenteerde analytische benadering biedt richtlijnen voor het uitvoeren van een populatiegebaseerde analyse nadat de bioinformatica-pijplijn is uitgevoerd.

2. Download en installeer de statistische software en de IDE-applicatie (Integrated Development Environment)

  1. Download de meest up-to-date gratis beschikbare versie van de R-software voor Linux, Mac of PC30. Volg de standaardinstallatiestappen.
  2. Download hier de meest up-to-date vrij beschikbare versie van de RStudio desktop IDE31. Volg de standaardstappen voor de installatie.
    OPMERKING: De volgende stappen zijn opgenomen in het beschikbare script, inclusief gedetailleerde informatie over het codegebruik, en moeten sequentieel worden uitgevoerd om de uitvoer en cijfers te genereren die in dit werk worden gepresenteerd (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). De gebruiker kan besluiten om een andere programmeertaal te gebruiken om deze analytische / statistische analyse uit te voeren, zoals Python. Gebruik in dat geval de stappen in de scripts als raamwerk om de analyse uit te voeren.

3. Installeer en activeer data science libraries

  1. Installeer alle data science libraries in één keer als eerste stap in de analyse. Vermijd het installeren van de bibliotheken telkens wanneer het script opnieuw moet worden uitgevoerd. Gebruik de functie install.packages() voor de installatie van de bibliotheek. Als alternatief kan de gebruiker op het tabblad Pakketten in de IDE klikken en de pakketten automatisch installeren. De code die wordt gebruikt om alle benodigde bibliotheken te installeren, wordt hier gepresenteerd:
    # Installeer Tidyverse
    install.packages("tidyverse")
    # Installeer skimr

    install.packages("skimr")
    # Installeer vegan
    install.packages("vegan")
    # Installeer forcats
    install.packages("forcats")
    # Installeer naniar
    install.packages("naniar")
    # Installeer ggpubr
    install.packages("ggpubr")
    # Installeer ggrepel
    install.packages("ggrepel")
    # Installeer reshape2
    install.packages("reshape2")
    # Installeer RColorBrewer
    install.packages("RColorBrewer")
    # Installeer ggtree
    if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # Installatie van ggtree zal een vraag over de installatie vragen - antwoord is "a" om alle afhankelijkheden te installeren / bij te werken
  2. Activeer alle bibliotheken of pakketten met de functie library() aan het begin van het script, direct na de installatie. Hier is een demonstratie over het activeren van alle benodigde pakketten:
    # Activeer de bibliotheken en pakketten
    bibliotheek(tidyverse)
    bibliotheek(skimr)
    bibliotheek(vegan)
    bibliotheek(forcats)
    bibliotheek(naniar)
    bibliotheek(ggtree)
    bibliotheek(ggpubr)
    bibliotheek(ggrepel)
    bibliotheek(reshape2)
    bibliotheek(RColorBrewer)
  3. Onderdruk het uitvoeren van de code die wordt gebruikt voor de installatie en activering van de bibliotheek en het pakket met {r, include = FALSE} in de code chuck, als volgt:
    ''' {r, include = ONWAAR}
    # Installeer Tidyverse

    install.packages("tidyverse")
    ```

    OPMERKING: Deze stap is optioneel, maar voorkomt dat er stukjes onnodige code worden weergegeven in het uiteindelijke html-, doc- of pdf-rapport.
  4. Voor een korte beschrijving van de specifieke functies van alle bibliotheken, samen met enkele nuttige links om meer informatie te verzamelen, raadpleegt u stap 3.4.1-3.4.11.
    1. Tidyverse - gebruik deze verzameling pakketten die worden gebruikt voor data science, waaronder gegevensinvoer, visualisatie, parsing en aggregatie en statistische modellering. Typisch, ggplot2 (data visualisatie) en dplyr (data wrangling en modeling) zijn praktische pakketten aanwezig in deze bibliotheek32.
    2. skimr - gebruik dit pakket voor het genereren van samenvattende statistieken van gegevensframes, inclusief identificatie van ontbrekende waarden33.
    3. vegan - gebruik dit pakket voor statistische analyses van gemeenschapsecologie, zoals het berekenen van op diversiteit gebaseerde statistieken (bijv. Alfa- en bètadiversiteit)34.
    4. forcats - gebruik dit pakket om te werken met categorische variabelen zoals het opnieuw ordenen van classificaties. Dit pakket is onderdeel van de Tidyverse library32.
    5. naniar - gebruik dit pakket om de verdeling van ontbrekende waarden over variabelen in een gegevensframe te visualiseren met behulp van de viss_miss() functie35.
    6. ggtree - gebruik dit pakket voor de visualisatie van fylogenetische bomen36.
    7. ggpubr - gebruik dit pakket om de kwaliteit van ggplot2-gebaseerde visualisaties37 te verbeteren.
    8. ggrepel - gebruik dit pakket voor tekstetikettering in grafieken38.
    9. reshape2 - gebruik de functie melt() uit dit pakket voor de transformatie van gegevensframes van breed naar lang formaat39.
    10. RColorBrewer - gebruik dit pakket om kleuren te beheren in ggplot2-gebaseerde visualisaties40.
    11. Gebruik de volgende basisfuncties voor verkennende gegevensanalyse: head() om de eerste waarnemingen in een gegevensframe te controleren, tail() om de laatste waarnemingen van een gegevensframe te controleren, is.na() om het aantal rijen met ontbrekende waarden in een gegevensframe te tellen, dim() om het aantal rijen en kolommen in een gegevensset te controleren, table() om waarnemingen over een variabele te tellen, en sum() om het totale aantal waarnemingen of instanties te tellen.

4. Gegevensinvoer en -analyse

OPMERKING: Gedetailleerde informatie over elke stap van deze analyse is te vinden in het beschikbare script (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Hier zijn echter enkele belangrijke punten waarmee rekening moet worden gehouden:

  1. Voer alle genomische gegevens in, inclusief alle genotypische classificaties (serovar, BAPS, ST en cgMLST) met de functie read_csv().
  2. Wijzig de naam, maak nieuwe variabelen en selecteer interessante kolommen uit elke gegevensset voordat u meerdere gegevenssets aggregatiet.
  3. Verwijder ontbrekende waarden niet uit een onafhankelijke gegevensset. Wacht totdat alle gegevenssets zijn samengevoegd om ontbrekende waarden te wijzigen of uit te sluiten. Als er voor elke gegevensset nieuwe variabelen worden gemaakt, worden ontbrekende waarden standaard gecategoriseerd in een van de nieuw gegenereerde classificaties.
  4. Controleer op foutieve tekens zoals koppeltekens of ondervragingstekens en vervang deze door NA (niet van toepassing). Doe hetzelfde voor ontbrekende waarden.
  5. Geaggregeerde gegevens op basis van de hiërarchische volgorde van genotypen (serovar -> BAPS1 -> ST -> cgMLST), en door groepering op basis van de individuele genoomidentificaties.
  6. Controleer op ontbrekende waarden met behulp van meerdere strategieën en behandel dergelijke inconsistenties expliciet. Verwijder alleen een genoom of isoleer uit de gegevens als de classificatie onbetrouwbaar is. Overweeg anders dat de analyse wordt uitgevoerd en verwijder NA's per geval.
    OPMERKING: Het wordt ten zeerste aanbevolen om een strategie op te stellen om a priori met dergelijke waarden om te gaan. Vermijd het verwijderen van alle genomen of isolaten met ontbrekende waarden voor variabelen. Een genoom kan bijvoorbeeld ST-classificatie hebben zonder cgMLST-variantnummer te hebben. In dat geval kan het genoom nog steeds worden gebruikt voor de op ST gebaseerde analyse.
  7. Zodra alle datasets zijn samengevoegd, wijst u ze toe aan een gegevensframenaam of -object dat op meerdere locaties kan worden gebruikt in de vervolganalyse, om te voorkomen dat u voor elke figuur in de paper hetzelfde metadatabestand moet genereren.

5. Voer analyses uit en genereer visualisaties

OPMERKING: Een gedetailleerde beschrijving van elke stap die nodig is om alle analyses en visualisaties te produceren, is te vinden in het afwaarderingsbestand voor dit artikel (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Code voor elke figuur wordt in stukjes gescheiden en het hele script moet sequentieel worden uitgevoerd. Bovendien wordt de code voor elk hoofd- en aanvullend cijfer als een afzonderlijk bestand verstrekt (zie Aanvullend dossier 1 en Aanvullend dossier 2). Hier zijn enkele essentiële punten (met codefragmenten) waarmee rekening moet worden gehouden bij het genereren van hoofd- en aanvullende cijfers.

  1. Gebruik ggtree om een fylogenetische boom samen met genotypische informatie te plotten (figuur 1).
    1. Optimaliseer de ggtree-figuurgrootte, inclusief diameter en breedte van ringen, door de numerieke waarden in respectievelijk de functies xlim() en gheatmap(width = ) te wijzigen (zie onderstaande voorbeeldcode).
      tree_plot <- ggtree(boom, lay-out = "cirkelvormig") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      OPMERKING: Voor een meer gedetailleerde vergelijking van programma's die kunnen worden gebruikt voor fylogenetische plotting, controleert u dit werk20. Het werk benadrukte een poging om strategieën te identificeren om op ggtree gebaseerde visualisaties te verbeteren, zoals het verkleinen van de datasetgrootte, maar taklengtes en boomtopologie waren niet zo duidelijk discriminerend in vergelijking met phandango41.
    2. Verzamel alle metagegevens in zo min mogelijk categorieën om de keuze van het kleurpaneel te vergemakkelijken bij het plotten van meerdere gegevenslagen met de fylogenetische boom (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Voer de gegevensaggregatie uit op basis van de vraag naar interesse en domeinkennis.
  2. Gebruik een staafdiagram om relatieve frequenties te beoordelen (figuur 2).
    1. Verzamel gegevens voor zowel ST-afstammingslijnen als cgMLST-varianten om visualisaties te vergemakkelijken. Kies een empirische of statistische drempel die wordt gebruikt voor gegevensaggregatie, terwijl u de vraag overweegt die wordt gesteld.
    2. Voor een voorbeeldcode die kan worden gebruikt om de frequentieverdeling van ST-afstammingslijnen te inspecteren om de afsnijding te bepalen, zie hieronder:
      st_dist <- d2 %>% group_by(ST) %>% # groep volgens de ST kolom
      count() %>% # tel het aantal waarnemingen
      arrange(desc(n)) # rangschik de tellingen in afnemende volgorde
    3. Voor een voorbeeldcode die laat zien hoe kleine (laagfrequente) ST's kunnen worden samengevoegd, raadpleegt u hieronder. Zoals hieronder wordt aangetoond, worden ST's die niet zijn genummerd als 5, 31, 45, 46, 118, 132 of 350, gegroepeerd als "Andere ST's". Gebruik een vergelijkbare code voor cgMLST-varianten (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # maak een nieuwe ST-kolom waarvoor kleine S T's worden samengevoegd als Anderen
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Andere ST's")))))))
  3. Gebruik een geneste benadering om het aandeel van elke ST-afstamming binnen elke BAPS1-subgroep te berekenen om ST's te identificeren die voorouderlijk gerelateerd zijn (behoren tot dezelfde BAPS1-subgroep) (figuur 3). De onderstaande code illustreert hoe de op ST gebaseerde verhouding kan worden berekend over BAPS1-subgroepen (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
    select(baps_1, ST) %>% # selecteer baps_1 en ST kolommen
    mutate(ST = as.numeric(ST)) %>% # verander ST kolom in numeriek
    drop_na(baps_1, ST) %>% # drop NA's
    group_by(baps_1, ST) %>% # groep op baps_1 en ST
    sum(n = n()) %>% # aantal waarnemingen
    mutate(prop = n/sum(n)*100) # verhoudingen berekenen
  4. Plot de verdeling van AMR-loci over ST-afstammingslijnen met behulp van de op Resfinder gebaseerde genannotatieresultaten (figuur 4).
    OPMERKING: Resfinder is op grote schaal gebruikt in ecologische en epidemiologische studies42. Annotatie van eiwitcoderende genen kan variëren, afhankelijk van hoe vaak databases worden samengesteld en bijgewerkt. Als de voorgestelde bioinformatica-pijplijn wordt gebruikt, kan de onderzoeker op AMR gebaseerde loci-classificaties in verschillende databases vergelijken20. Controleer welke databases voortdurend worden bijgewerkt. Gebruik geen verouderde of slecht beheerde databases om miscalls te voorkomen.
    1. Gebruik een empirische of statistische drempel om de belangrijkste AMR-loci eruit te filteren om visualisaties te vergemakkelijken. Geef een onbewerkt .csv bestand op met de berekende verhoudingen van alle AMR-loci over alle ST-afstammingslijnen, zoals hier weergegeven (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Bereken de AMR-verhouding voor elke ST met behulp van de volgende code (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Berekeningen voor ST45
      d2c <- data6 %>% filter(st == "ST45") # filter EERST ST45-gegevens
      # voor ST45, bereken het aandeel AMR loci en houd alleen een aandeel groter dan 10%

      d3c <- d2c %>% select(id, gen) %>% # select kolommen
      group_by(id, gen) %>% # groep op id en gen
      summarize(count = n()) %>% # aantal waarnemingen
      mutate(count = replace(count, count == 2, 1)) %>% # replace counts gelijk aan 2 met 1 om slechts één kopie van elk gen te overwegen (duplicaties zijn mogelijk niet betrouwbaar), maar de onderzoeker kan besluiten om ze uit te sluiten of te behouden. Als de onderzoeker ze wil uitsluiten, gebruik dan de filter(count != 2) functie of laat zoals het is
      filter(aantal <= 1) # filteraantallen onder of gelijk aan 1
      d4c <- d3c %>% group_by(gen) %>% # groep per gen
      summarize(value = n()) %>% # aantal waarnemingen
      mutate(total = table(data1$st)[6]) %>% # get the total counts of st mutate(prop = (value/total)*100) # calculate proportions
      d5c <- d4c %>% mutate(st = "ST45") # maak een st kolom en voeg ST informatie toe
    3. Nadat de berekeningen voor alle ST's zijn uitgevoerd, combineert u gegevenssets als één gegevensframe met behulp van de volgende code:
      # Combineer datasets
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # row bind datasets
    4. Als u het .csv bestand met de berekende verhoudingen wilt exporteren, gebruikt u de code:
      # Exporteer gegevenstabel met ST- en AMR-loci-informatie
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Voordat u de op AMR gebaseerde verdeling over ST-afstammingslijnen plot, filtert u de gegevens op basis van een drempelwaarde om visualisaties te vergemakkelijken, zoals hieronder wordt weergegeven:
      # Filter AMR loci met een verhouding hoger dan of gelijk aan 10%
      d7 <- d6 %>% filter(prop >= 10) # bepaal de drempel empirisch of statistisch
  5. Plot de kern-genoom fylogenie samen met de hiërarchische genotypische classificaties en AMR-gegevens in een enkele plot met behulp van ggtree (figuur 5).
    1. Optimaliseer de figuurgrootte in ggtree met behulp van de bovengenoemde parameters (zie stap 5.1.1.).
    2. Optimaliseer visualisaties door variabelen samen te voegen of binaire classificatie te gebruiken, zoals de aan- of afwezigheid van genen. Hoe meer functies aan de plot worden toegevoegd, hoe moeilijker het kleurselectieproces wordt (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      OPMERKING: Aanvullende cijfers - gedetailleerde beschrijving van de volledige code vindt u hier (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Gebruik een scatterplot in ggplot2, zonder gegevensaggregatie, om de verdeling van ST-afstammingslijnen of cgMLST-varianten weer te geven en tegelijkertijd de meest voorkomende genotypen te markeren (aanvullende figuur 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Voer een geneste analyse uit om de samenstelling van ST-afstammingslijnen te beoordelen aan de hand van het aandeel cgMLST-varianten om een glimp op te vangen van de op ST gebaseerde genetische diversiteit, terwijl de meest voorkomende varianten en hun genetische relaties worden geïdentificeerd (d.w.z. cgMLST-varianten die tot dezelfde ST behoren, deelden een voorouder recenter dan die van verschillende ST's) (aanvullende figuur 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Gebruik de gemeenschapsecologiemetrie, namelijk Simpson's D-index van diversiteit, om de mate van klonaliteit of genotypische diversiteit van elk van de belangrijkste ST-afstammingslijnen43 te meten (aanvullende figuur 3).
    1. Bereken de index van diversiteit tussen ST-afstammingslijnen op verschillende niveaus van genotypische resolutie, waaronder BAPS-niveau 1 tot en met 6 en cgMLST. Hieronder vindt u het codevoorbeeld over hoe u deze berekening uitvoert op BAPS-niveau 1 (BAPS1) van genotypische resolutie:
      # BAPS niveau 1 (BAPS1)
      # laat de ST's en BAPS1 vallen met NA's, groepeer op ST en BAPS1 en bereken vervolgens de simpsonsindex
      baps1 <- data6 %>%
      select(st, BAPS1) %>% # select kolommen
      drop_na(st, BAPS1) %>% # drop NA's
      group_by(st, BAPS1) %>% # groeperen op kolommen
      sum(n = n()) %>% # aantal waarnemingen
      mutate(simpson = diversity(n, "simpson")) %>% # bereken diversiteit
      group_by(st) %>% # groep per kolom
      summarise(simpson = mean(simpson)) %>% # bereken het gemiddelde van de index
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="waarde") %>% # verborgen in lang formaat
      mutate(strat = "BAPS1") # create a strat column
      OPMERKING: Een meer genetisch diverse populatie (d.w.z. meer varianten op verschillende lagen van genotypische resolutie) heeft een hogere index op cgMLST-niveau en produceert een toenemende indexgebaseerde waarden gaande van BAPS-niveau 2 tot 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Onderzoek de mate van genotypische diversiteit van ST-afstammingslijnen door de relatieve frequentie van BAPS-subgroepen op alle resolutieniveaus uit te zetten (BAPS1-6) (aanvullende figuur 4). Hoe diverser de populatie is, hoe spaarzamer de verdeling van BAPS-subgroepen (haplotypes) wordt van BAPS1 (lager resolutieniveau) naar BAPS6 (hoger resolutieniveau) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Door gebruik te maken van het computationele platform ProkEvo voor populatiegenomics-analyses, bestaat de eerste stap in bacteriële WGS-datamining uit het onderzoeken van de hiërarchische populatiestructuur in de context van een kerngenoomfylogenie (figuur 1). In het geval van S. enterica afstamming I, zoals geïllustreerd door de S. Newport dataset, is de populatie hiërarchisch gestructureerd als volgt: serovar (laagste resolutieniveau), BAPS1-subgroepen of haplotypen, ST-afstammingslijnen en cgMLST-varianten (hoogste resolutieniveau)20. Deze fylogenie-geleide analyse van de hiërarchische populatiestructuur maakt het specifiek mogelijk om de volgende punten te onderzoeken: i) fylogenetische distributie van sistr-gebaseerde verkeerd geclassificeerde genomen in andere serovars in het geval van Salmonella; ii) genetische of verwantschapsstructuur van de populatie; iii) patroon van diversificatie op verschillende niveaus van genotypische resolutie; iv) identificatie van belangrijke genotypische eenheden die ten grondslag liggen aan een evolutionair, ecologisch of epidemiologisch patroon; v) voorouderlijke relaties tussen ST-afstammingslijnen via BAPS1-subgroepen of haplotypesamenstelling, en tussen cgMLST-varianten binnen ST-afstammingslijnen; en vi) gedeeltelijk beeld van de mate van genotypische homogeniteit van een ST-afstamming door de samenstelling van de cgMLST-variant.

Figure 1
Figuur 1: Fylogenie-geleide mapping van hiërarchische genotypen voor de S. Newport bevolking. Een kerngenoom fylogenie (zwart gecentreerde cirkel) werd gebruikt om hiërarchische genotypen in kaart te brengen, waaronder serovar (laagste resolutieniveau - binnenste gekleurde cirkel), BAPS-niveau 1 (BAPS1) subgroepen of haplotypen, ST-afstammingslijnen en cgMLST-varianten (hoogste resolutieniveau - buitenste gekleurde cirkel). Serovars werden gegroepeerd in Newport (S. Newport) of "Andere serovars" gebaseerd op de SISTR algoritmische classificatie van genomen, die gebruik maakten van kerngenoom MLST-informatie, en liep als onderdeel van het computationele platform ProkEvo. BAPS1 stratificeert de populatie agnostisch in subgroepen of clusters van gerelateerde haplotypes met behulp van kern-genomische gegevens binnen ProkEvo. BAPS1 is hiërarchisch geplaatst tussen serovar- en ST-afstammingslijnen omdat het nauwkeurig de voorouderlijke relaties tussen ST's vastlegde. ST-afstammingslijnen worden gevormd op basis van canonieke MLST-analyse met behulp van zeven genoomverstrooide loci. Alleen grote of meest voorkomende ST's (aandeel >1%) werden in de grafiek weergegeven. Ten slotte werden alleen de meest voorkomende cgMLST-varianten (verhouding >3,5%) gebruikt om de volledige hiërarchische structuur voor de S weer te geven . Newport-populatie (n = 2.365 vs-isolaten alleen). De categorie "Andere ST's" of "Andere cgMLST's" bestond uit respectievelijk kleine of laagfrequente afstammingslijnen of varianten, waarbij willekeurig drempelwaarden werden gedaan die empirisch of statistisch op basis van de dataset moesten worden vastgesteld. Klik hier om een grotere versie van deze figuur te bekijken.

Relatieve frequenties van alle hiërarchische genotypen werden vervolgens gebruikt om de totale verdeling en de meest frequent waargenomen classificaties (d.w.z. genotypen) te evalueren (figuur 2). In figuur 2C-D werden minder frequente (kleine) ST-afstammingslijnen of cgMLST-varianten samengevoegd als respectievelijk "Andere ST's" of "Andere cgMLST's", om gegevensvisualisatie (dimensionaliteitsreductie) te vergemakkelijken. Als bemonstering systematisch wordt uitgevoerd in omgevingen en/of gastheren en statistisch op de juiste manier wordt aangedreven, kan frequentieverdeling een proxy worden voor ecologische fitheid. Dat wil zeggen dat de meest voorkomende afstammingslijnen of varianten dan kunnen worden voorspeld om een hogere fitheid te hebben, wat volgt op verder onderzoek om de oorzakelijke genetische determinanten te bepalen die ten grondslag liggen aan een dergelijke kwantitatieve eigenschap 6,30.

Figure 2
Figuur 2: Aandeel van S. Newport hiërarchische genotypen op verschillende resolutieniveaus. (A) Serovars zijn fenotypen van de S. enterica lineage I populatie die uitsluitend kan worden voorspeld op basis van kern-genomische gegevens als gevolg van de erfelijke hoge linkage disequilibrium tussen core-loci en O en H antigene-coderende loci (oppervlakte-eiwitten). Bij gebruik van ProkEvo worden Salmonella-genomen automatisch geclassificeerd als serovars met behulp van het SISTR-programma. Hoewel alleen S. Newport (Newport) genomen van NCBI werden naar verluidt gedownload, sommige zijn geclassificeerd als "Andere serovars" binnen ProkEvo. Ongeveer 2% (48 van de 2.365) van alle genomen werden geclassificeerd als anders dan S. Newport serovar. (B) Het aandeel van BAPS niveau 1 (BAPS1) subgroepen of haplotypen. BAPS1 wordt ingevoegd tussen serovar- en ST-afstammingslijnen in het hiërarchische schema omdat het nauwkeurig en agnostisch de voorouderlijke relaties tussen ST's vastlegde. (C) Het aandeel van de belangrijkste ST-afstammingslijnen toonde alleen ST's die werden > 1% in relatieve frequentie. Kleine ST's werden gegroepeerd als "Andere ST's". D) Het aandeel van de belangrijkste cgMLST-varianten vertoonde slechts vier overheersende cgMLST's die in relatieve frequentie >3% waren. De overige cgMLST's werden gegroepeerd als "Andere cgMLST's". (B-D) Genomen geclassificeerd door SISTR als "Andere serovars" (2,03%) werden uit de gegevens gefilterd voordat de relatieve frequenties van BAPS1, ST en cgMLST werden uitgezet. (C-D) Drempels die werden gebruikt om zowel ST- als cgMLST-gegevens te plotten, werden willekeurig gedefinieerd en moeten per geval empirisch worden vastgesteld. Klik hier om een grotere versie van deze figuur te bekijken.

Als alternatief kan een scatter-plot worden gebruikt om de verdeling en het aandeel van beide ST-afstammingslijnen of cgMLST-varianten te beoordelen, zonder enige gegevensaggregatie (aanvullende figuur 1). Dit gebruik van een scatter-plot is vooral nuttig voor ST-afstammingslijnen en cgMLST-varianten vanwege het typische voorkomen van honderdsten, zo niet duizenden, classificaties voor beide genotypen. Deze schaarse verdeling komt meestal niet voor voor de serovar- en BAPS1-resolutieniveaus, omdat ze zich op een lager resolutieniveau bevinden met sequenties die overerf in een paar subgroepen of categorieën samenvallen.

Vervolgens werden de voorouderlijke relaties tussen ST's onderzocht met behulp van een geneste benadering die de beoordeling van de relatieve frequentie van ST-afstammingslijnen door BAPS1-subgroepen of haplotypen omvat (figuur 3). ST-afstammingslijnen die tot dezelfde BAPS1-subgroep behoorden, hadden meer kans om recenter een gemeenschappelijke voorouder te delen dan met andere ST's (d.w.z. ST5 en ST118 versus ST45). Evenzo kan door de verdeling van cgMLST-varianten binnen ST-afstammingslijnen te onderzoeken, de mate van genotypische heterogeniteit tussen ST's worden vastgelegd, terwijl hun genetische samenstelling wordt beoordeeld en de voorouderlijke relatie tussen cgMLST's wordt onthuld (d.w.z. nauw verwante cgMLST-varianten behoren tot dezelfde ST-afstamming of klooncomplex) (aanvullende figuur 2).

Figure 3
Figuur 3: Verdeling van ST-afstammingslijnen genest binnen BAPS1-subgroepen voor de S. Newport bevolking. Deze grafiek toont de ST-afstammingsverdeling binnen elke BAPS-niveau 1-subgroep of haplotype, met uitzondering van genomen geclassificeerd als "Andere serovars" (2,03% van de volledige gegevens). Belangrijke ST's (aandeel >1%) voor elke BAPS1-subgroep worden in elke grafiek gemarkeerd. Hoe groter de cirkeldiameter, hoe hoger de verhouding voor de specifieke ST-afstamming. Klik hier om een grotere versie van deze figuur te bekijken.

Gezien het patroon van S. De diversificatie van de newportpopulatie bleek voornamelijk te worden aangedreven door de samenstelling van ST (figuur 1), twee statistische benaderingen werden gebruikt om de op ST gebaseerde mate van klonaliteit (d.w.z. genetische homogeniteit) te beoordelen, waaronder Simpson's D-index van diversiteit (aanvullende figuur 3), en de verdeling van BAPS-subgroepen of haplotypen met behulp van BAPS-niveaus 1-6 (aanvullende figuur 4 ). Het beoordelen van de mate van klonaliteit van een populatie kan de volgende aspecten verduidelijken: i) een beter begrip van genetische diversiteit en populatiestructuur; ii) een verfijnde analyse van diversificatiepatronen over belangrijke genotypische eenheden zoals ST-afstammingslijnen; en iii) een indicator zijn van de noodzaak van het gebruik van accessoire genoommining om cryptische genotypische eenheden te vinden die nieuwe subclusters in de populatie kunnen onthullen. Hoe klonaler een populatie is op het niveau van het kerngenoom, hoe moeilijker het wordt om onderscheid te maken tussen varianten, en hoe waarschijnlijker het is dat de accessoire genoominhoud informatief zal zijn om de populatie te stratificeren in zinvolle genotypische eenheden geassocieerd met unieke ecologische distributies 18,19,21.

De relatieve frequentie van ST-afstamming die AMR loci onderscheidt, werd beoordeeld om unieke accessoire genomische handtekeningen te identificeren die verband houden met de S. Bevolkingsstructuur Newport (figuur 4). Deze stap van de analyse was gericht op AMR-distributie omdat het een volksgezondheidsgerelateerde eigenschap is, maar dezelfde benadering kan op een gecontroleerde (gerichte) of agnostische manier worden toegepast om andere componenten van het accessoire genoom te onderzoeken, waaronder metabole routes, virulentiefactoren, enz. Opvallend is dat mdf(A)_1 en aac(6')-Iaa_1 loci voorouderlijk overgenomen lijken te zijn door de S. Newport bevolking; terwijl st45 naar verwachting multi-drug resistent is. Opvallend is dat deze gegevens ook suggereren dat de andere belangrijke ST-afstammingslijnen, ST5 en ST118, waarschijnlijker vatbaar zijn voor meerdere geneesmiddelen in vergelijking met ST45. Deze punten moeten zorgvuldig worden overwogen vanwege de vooroordelen die in de dataset aanwezig zijn; dit vertegenwoordigt echter een potentiële epidemiologische gevolgtrekking die kan worden gemaakt uit robuustere WGS-gegevensverzamelingen.

Over het algemeen zijn hier enkele punten waarmee rekening moet worden gehouden bij het uitvoeren van een accessoire genoomkartering op hiërarchische genotypen: i) beschouw de frequentieverdeling als een kwantitatieve eigenschap, maar houd er rekening mee dat de allelische samenstelling van een locus de variantie van eigenschappen kan veranderen. Bovendien moet de aanwezigheid van een locus of loci indicatief zijn voor de functie, maar niet voor oorzakelijk, omdat het fenotype polygeen kan zijn of kan variëren afhankelijk van de allelische samenstelling voor de oorzakelijke locus (bijvoorbeeld een niet-synonieme mutatie op de actieve plaats van een eiwit heeft meer kans om de functie te beïnvloeden); ii) loci-distributie kan genen aantonen die vastzitten in de populatie (bv. in hoge frequentie worden aangetroffen in alle ST-afstammingslijnen) of recent zijn verworven door specifieke ST-afstammingslijnen en cgMLST-varianten, en kan het ecologische of epidemiologische patroon weerspiegelen; iii) multi-drug resistentie kan worden voorspeld op basis van genomics-gegevens. En als de verdeling van AMR-loci, of andere routes, sterk verbonden is of vaak wordt geërfd door specifieke afstammingslijnen, dan kunnen fenotypen worden voorspeld door gevolgtrekking uit hiërarchische genotypen, zoals in het geval van ST-afstammingslijnen45,46; en iv) het meten van fenotypen in het laboratorium is nog steeds deterministisch om computationele voorspellingen te valideren.

Figure 4
Figuur 4: Verdeling van AMR-loci over belangrijke ST-afstammingslijnen van de S. Newport bevolking. Relatieve frequentiegebaseerde verdeling van een geselecteerd aantal AMR-loci over belangrijke ST-afstammingslijnen (>1% van de bevolking). Kleine ST's werden gegroepeerd als "Andere ST's". Alleen genomen geclassificeerd als S. Newport door het SISTR-algoritme werd in de analyse gehouden. AMR-loci met een relatieve frequentie groter dan of gelijk aan 10% werden geselecteerd voor datavisualisatie. Dit is een willekeurige drempel die voor elke dataset moet worden bepaald. De verhoudingen werden berekend met behulp van een binaire matrix samengesteld uit de aan- of afwezigheid van genen. Klik hier om een grotere versie van deze figuur te bekijken.

Ten slotte werd een fylogenie-verankerde visualisatie gebruikt om systematisch de hiërarchische populatiestructuurgegevens te integreren, samen met ST-afstammingslijn die AMR-loci-distributie differentieert op basis van het voorkomen van genen (figuur 5). Door de populatiestructuur te combineren met de bijbehorende genomische samenstelling, kan de volgende reeks vragen in een bepaalde dataset worden behandeld: 1) Hoe is de populatie gestructureerd? Hoe verhouden ST's zich tot elkaar en voorouderlijk via BAPS1-subgroepen? Hoe variabel is de cgMLST-samenstelling tussen ST's? 2) Wat is het fylogenetische vertakkingspatroon en de algehele boomtopologie? en 3) Hoe wordt het accessoire genoom verdeeld? Is de accessoire genomische samenstelling meestal waarschijnlijk voorouderlijk verworven of recent afgeleid? Wat is de afstamming of variant-specifiek patroon? Wat is de fenotypische voorspelling en ecologische gevolgtrekking? Is er sprake van niche-overstijgende versus niche-specificerende genen? Hoe verhoudt of informeert het waargenomen patroon de epidemiologie in het geval van pathogenen? Kunnen afstammingslijnen of varianten informatief worden geclusterd op basis van accessoire genomische inhoud?

Figure 5
Figuur 5: Fylogenie-geleide mapping van hiërarchische genotypen en accessoire AMR loci die onderscheid maken tussen belangrijke ST-afstammingslijnen binnen de S. Newport bevolking. Een kerngenoom fylogenie (zwart gecentreerde cirkel) werd gebruikt om hiërarchische genotypen in kaart te brengen, waaronder serovar (laagste resolutieniveau - binnenste gekleurde cirkel), BAPS niveau 1 (BAPS1) subgroepen of haplotypes, ST-afstammingslijnen en cgMLST-varianten (hoogste resolutieniveau - buitenste gekleurde cirkel), samen met AMR-loci gekleurd als donkerblauw indien aanwezig of grijs indien afwezig. Serovars werden gegroepeerd in Newport (S. Newport) of "Andere serovars" op basis van de SISTR algoritmische classificatie. BAPS1 is hiërarchisch geplaatst tussen serovar- en ST-afstammingslijnen omdat het nauwkeurig en agnostisch de voorouderlijke relaties tussen ST's vastlegde. ST-afstammingslijnen worden gevormd op basis van canonieke MLST-analyse met behulp van zeven genoomverstrooide loci. Alleen grote of meest voorkomende ST's (aandeel >1%) werden in de grafiek weergegeven. Ook werden alleen de meest dominante cgMLST-varianten (verhouding >3,5%) gebruikt om de volledige hiërarchische structuur voor de S weer te geven. Newport-populatie (n = 2.365 vs-isolaten alleen). De categorie "Andere ST's" of "Andere cgMLST's" bestond uit respectievelijk kleine of laagfrequente afstammingslijnen of varianten, en drempelvorming werd willekeurig uitgevoerd en moet worden ingesteld op basis van de dataset. AMR-loci met een relatieve frequentie groter dan of gelijk aan 10% werden geselecteerd voor datavisualisatie. Deze specifieke grafiek toont een unieke verdeling van AMR-loci die voornamelijk voorkomt in ST31-, ST45- en ST132-afstammingslijnen. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullende figuur 1: Schaarse verdeling van ST-afstammingslijnen en cgMLST-varianten voor de S. Newport bevolking. (A) Het aandeel ST-afstammingslijnen zonder laagfrequente ST's samen te voegen. ST's met een aandeel >1% worden in het waarnemingspunt gemarkeerd. (B) Het aandeel cgMLST-varianten zonder laagfrequente cgMLST's te aggregeren. cgMLST's met een verhouding > 3% worden in de plot gemarkeerd. (A-B) Drempels die worden gebruikt om zowel ST- als cgMLST-gegevens te plotten, zijn willekeurig gedefinieerd en moeten worden vastgesteld op basis van de dataset. Genomen geclassificeerd door SISTR als "Andere serovars" (2,03%) werden uit de gegevens gefilterd voordat zowel ST- als cgMLST-relatieve frequenties werden uitgezet. Hoe groter de cirkeldiameter, hoe hoger de verhouding voor de ST-afstamming of cgMLST-variant. Klik hier om dit bestand te downloaden.

Aanvullende figuur 2: Verdeling van cgMLST-varianten genest binnen ST-afstammingslijnen voor de S. Newport bevolking. Deze plot toont de verdeling van de cgMLST-variant over ST-afstammingslijnen, met uitzondering van genomen geclassificeerd als "Andere serovars" (2,03% van de volledige gegevens). Belangrijke cgMLST's (verhouding >15%) voor elke ST-afstamming worden in elke grafiek gemarkeerd. Hoe groter de cirkeldiameter, hoe hoger de verhouding voor de specifieke cgMSLT-variant. Laagfrequente ST's werden gegroepeerd als "Andere ST's". Klik hier om dit bestand te downloaden.

Aanvullende figuur 3: Simpson's D-gebaseerde mate van genetische diversiteit over ST-afstammingslijnen met BAPS-niveaus 1-6 haplotypen of cgMLST-genotypen als invoergegevens voor de S. Newport bevolking. De mate van klonaliteit of genetische diversiteit van elke ST-afstamming werd berekend over verschillende genotypische resolutielagen, waaronder BAPS-niveaus 1 (laagste resolutieniveau) tot 6 (hoogste resolutieniveau) subgroepen of haplotypen, en door bovendien de op cgMLST gebaseerde verdeling van varianten te gebruiken. Hoe hoger de indexwaarde, hoe hoger de mate van genetische diversiteit. Zeer diverse ST-afstammingslijnen hebben hogere indexwaarden die gaan van BAPS1 tot BAPS6 (d.w.z. meestal neemt de index toe en plateaus uiteindelijk wanneer ze van BAPS1 naar BAPS6 gaan). Alleen genomen geclassificeerd als S. Newport door het SISTR-programma werden in de analyse gehouden. Laagfrequente ST's werden gegroepeerd als "Andere ST's". Klik hier om dit bestand te downloaden.

Aanvullende figuur 4: Verdeling van BAPS-niveaus 1-6 subgroepen of haplotypen over belangrijke ST-afstammingslijnen van de S. Newport-populatie. Relatieve frequentiegebaseerde verdeling van BAPS-subgroepen of haplotypen, over belangrijke ST-afstammingslijnen, van het laagste (BAPS1) tot het hoogste resolutieniveau (BAPS6). Grote ST's werden geselecteerd op basis van een aandeel >1%. Alleen genomen geclassificeerd als S. Newport door het SISTR-programma werden in de analyse gehouden. Hoe hoger de mate van klonaliteit, hoe minder schaars of verspreid de verdeling van BAPS-subgroepen of haplotypen wordt bij het overgaan van BAPS1 naar BAPS6. Met andere woorden, een meer genetisch diverse ST-afstamming heeft een breder scala aan BAPS-subgroepen op BAPS-niveau 6 (hoogste mate van resolutie). Laagfrequente ST's werden gegroepeerd als "Andere ST's". Klik hier om dit bestand te downloaden.

Aanvullend bestand 1: Links naar materiaallijst en namenlijst Klik hier om dit bestand te downloaden.

Aanvullend bestand 2: Hiërarchische bacteriële populatie genomica analyse met behulp van R Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Het gebruik van een systeemgebaseerde heuristische en hiërarchische populatiestructuuranalyse biedt een kader om nieuwe genomische handtekeningen in bacteriële datasets te identificeren die het potentieel hebben om unieke ecologische en epidemiologische patronen te verklaren20. Bovendien kan het in kaart brengen van accessoire genoomgegevens op de populatiestructuur worden gebruikt om voorouderlijk verworven en / of recent afgeleide eigenschappen af te leiden die de verspreiding van ST-afstammingslijnen of cgMLST-varianten over reservoirsvergemakkelijken 6,20,21,45,46. Meer in het algemeen kan een globale beoordeling van pan-genomische inhoudsverdeling in bacteriële populaties patronen van diversificatie onthullen die ten grondslag liggen aan de ecologische tropismen of geospatiale / temporele knelpunten die een populatie onlangs zou kunnen hebben doorstaan18,21. In het geval van pathogene soorten kunnen genetische determinanten die verband houden met zoönotische gebeurtenissen worden geïdentificeerd en gebruikt om de diagnostiek en bewaking te verbeterendoor de populatiestructuur van klinische versus milieuisolaten te ontginnen 33,34. Dezelfde benadering kan worden toegepast op niet-pathogene soorten om genotypen met wenselijke nichespecifieke enterende eigenschappen te identificeren, zoals in het geval van gastro-intestinale probiotische stammen die worden gebruikt om de menselijke gezondheid te verbeteren 49,50,51. Toch vereist het gebruik van bacteriële WGS-gegevens voor populatiegebaseerde onderzoeken het gebruik van reproduceerbare, geautomatiseerde en schaalbare computationele platforms zoals ProkEvo20. Elke computationele benadering komt met zijn kanttekeningen en nuances, maar over het algemeen kunnen vrij beschikbare, goed gedocumenteerde, draagbare en gebruiksvriendelijke platforms zoals ProkEvo het werk van microbiologen, ecologen en epidemiologen die heuristische bacteriële populatiegebaseerde genomica uitvoeren, vergemakkelijken.

In het huidige werk werd aangetoond hoe prokevo-afgeleide outputs kunnen worden gebruikt om een hiërarchische populatiestructuuranalyse uit te voeren die kan worden gebruikt om genotypen van belang op verschillende resolutieniveaus in kaart te brengen en te volgen, samen met het voorspellen van nuttige eigenschappen uit WGS-gegevens. Dit computationele protocol is geschreven met behulp van de programmeertaal R, maar het framework of de conceptuele benadering is generaliseerbaar naar andere talen zoals Python door het gebruik van de Pandas-bibliotheek, bijvoorbeeld. De invoergegevens worden gegenereerd door ProkEvo20, wat voorkomt dat er enkele hindernissen worden genomen in termen van het standaardiseren van uitvoer en gegevensformaten voor latere analyse. Met uitzondering van fylogenieën worden alle andere invoergegevenssets geleverd in een tabelformaat dat eenvoudig kan worden gecontroleerd, geaggregeerd, geparseerd en geïntegreerd om nuttige rapporten voor gegevensinterpretatie te genereren. Het is echter belangrijk om een paar kritieke stappen te benadrukken om de reproduceerbaarheid te verbeteren tijdens het gebruik van dit protocol: i) zorg ervoor dat de softwareversies altijd worden bijgewerkt en bijgehouden; ii) de versies van de gebruikte data science-bibliotheken bij te houden en bij voorkeur in de loop van de tijd bij te werken; iii) kwaliteitscontrole van de gegevens met behulp van domeinkennisexpertise om de door ProkEvo gegenereerde outputs, of een vergelijkbare pijplijn, te begrijpen in het licht van wat wordt begrepen voor de beoogde bacteriële populatie; iv) een verkennende gegevensanalyse uit te voeren voordat een modelleringsbenadering wordt gebruikt; v) de gegevens aggregeren op basis van empirische kennis en/of statistische beoordelingen; vi) een strategie te definiëren om a priori om te gaan met ontbrekende waarden en hierover consistent en volledig transparant te zijn; vii) als u R gebruikt, probeer dan alle pakketten van Tidyverse te gebruiken, omdat deze verzameling functionele programmering, draagbaarheid, optimalisatie vergemakkelijkt en vrij beschikbaar is; en viii) wees je ervan bewust dat visualisatiebenaderingen moeilijk kunnen zijn omdat het wat vallen en opstaan vergt om het juiste type plot en kleurschema te krijgen dat het meest geschikt is voor de vraag die wordt gesteld en de gegevens die worden weergegeven.

Let op, dit protocol wordt geleverd met enkele beperkingen die verder kunnen worden verbeterd. ProkEvo heeft bijvoorbeeld een intrinsieke limiet aan het aantal genomen dat kan worden gebruikt voor pan-genomische analyse, als de kern-genoomuitlijningsstap gelijktijdig wordt gegenereerd, terwijl het Roary-programma wordt gebruikt (~ 2.000-3.000 genomen)24. Dat is een zeer specifiek knelpunt in de pijplijn dat van invloed zal zijn op het aantal genomen dat kan worden ingedeeld in BAPS-haplotypen, omdat het afhankelijk is van kern-genoomuitlijning (d.w.z. zeer computationeel veeleisende stap). Kern-genoomuitlijning kan echter worden gedaan met andere programma's52, en dergelijke algoritmen kunnen in theorie gemakkelijk worden opgenomen in ProkEvo. Anders kunnen datasets strategisch worden opgesplitst in willekeurige subsets, of in een andere basis, zoals door rekening te houden met de populatiestructuur van het organisme in kwestie. Als alternatief kan ProkEvo worden uitgevoerd met een enkel genoom om ST-gebaseerde annotatie, antibioticaresistentie en virulentie-gensamenstelling en het in kaart brengen van plasmiden te krijgen, maar de pijplijn is ontworpen voor populatiegebaseerde genomica. Opmerkelijk, als de BAPS1-6-classificaties niet nodig zijn, kan de optie voor het uitlijnen van het kerngenoom van Roary worden uitgeschakeld, en in dat geval kan ProkEvo worden gebruikt met vele honderdsten van duizenden genomen - het is slechts beperkt op basis van het aantal beschikbare computerkernen. Een voorbeeld van het implementeren van een nieuw programma of het uitschakelen van de kern-genoomuitlijningsoptie in Roary binnen ProkEvo is te vinden in de volgende GitHub-koppelingen (respectievelijk https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) en (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo). In het geval van accessoire genomische mijnbouw hangt een agnostische analyse af van het gebruik van de pan-genomische . Rtab-bestand gegenereerd door Roary24, dat hier niet specifiek werd gebruikt, maar in plaats daarvan werd strategisch gedemonstreerd hoe AMR loci met ABRicate in kaart te brengen met behulp van de Resfinder-database (https://github.com/tseemann/abricate). Niettemin is er een optie om de reikwijdte van de accessoire genomische mapping uit te breiden door in plaats daarvan een pan-genomisch bestand te gebruiken, wat praktisch kan worden gezien als een uitbreiding van de huidige aanpak (bijvoorbeeld meer loci opgenomen in de tabellaire dataset als nieuwe kolommen). Het is belangrijk om te vermelden dat de pan-genomische mapping uitgevoerd door ProkEvo alleen binaire informatie opleverde in termen van loci-samenstelling en momenteel niet kan worden gebruikt voor de identificatie van enkele nucleotidepolymorfismen over genen.

Een andere beperking van dit protocol is de visualisatie van de fylogenetische boom. Momenteel is ggtree het programma bij uitstek, maar dat gaat ten koste van het niet nauwkeurig kunnen inspecteren van taklengtes en wordt omslachtig wanneer veel gegevenslagen aan de fylogenie moeten worden toegevoegd. Als alternatief is phandango41 een gebruiksvriendelijke, schaalbare GUI (https://jameshadfield.github.io/phandango/#/)41 met webpagina-indeling die gemakkelijk kan worden gebruikt om hetzelfde doel te bereiken, en verdere gedetailleerde informatie over het gebruik ervan met ProkEvo-uitgangen is onlangs gepubliceerd20. Andere tools zoals iTOL kunnen ook worden gebruikt voor fylogenie-afhankelijke visualisatie van gegevens53, maar ze vereisen het gebruik van een GUI en kunnen niet worden opgenomen in geautomatiseerde scripts. Ook kunnen nauwkeurige kern-genoomfylogenieën moeilijk in te schatten zijn vanwege de cryptische dataset-afhankelijke impact van horizontale genoverdracht. Programma's zoals Gubbins54 kunnen voor dat doel worden gebruikt, maar ze hebben ook bepaalde beperkingen, zoals de noodzaak om hele genoomuitlijning en ST-afstammingsspecifieke datasets te gebruiken voor de juiste schatting van fylogenieën. In plaats daarvan kunnen andere fylogenie-onafhankelijke benaderingen worden ingezet, die vervolgens andere soorten visualisaties vereisen om metadata of accessoire genomische informatie te integreren, zoals in het geval van multidimensionale analyse55,56. Ten slotte werd een empirische en willekeurige benadering gebruikt om kleine ST-afstammingslijnen en cgMLST-varianten te aggregeren, naast het filteren van de belangrijkste AMR-loci die moeten worden gekwantificeerd. Dit type gegevensaggregatie kan empirisch worden uitgevoerd met behulp van domeinkennisexpertise, maar kan ook statistisch worden bereikt door a priori criterium te definiëren van het aandeel van de verdeling dat moet worden weergegeven, of door distributiegerelateerde metrieken zoals interkwartielbereik, standaarddeviatie of scheefheid te gebruiken om uiteindelijk een drempel te definiëren. Belangrijk is dat de definitie voor kleine genotypen direct wordt beïnvloed door de aard van de gegevens, aangezien de steekproefgrootte en vertekening in de soorten omgevingsmonsters de genotypische samenstelling rechtstreeks kunnen beïnvloeden. Hoe dan ook, de belangrijkste overweging is dat het in kaart brengen van accessoire genoominhoud op de populatiestructuur het mogelijk maakt om potentiële genetische determinanten van ecologische diversificatie te identificeren, zoals niche-transcenderende of niche-specificerende genen 57,58,59.

Hoewel de beschikbare R-scripts zijn ontworpen voor automatisering van het huidige werk, zouden alle geleverde scripts verder moeten worden ontwikkeld om een abstracte en inzetbare data science-bibliotheek te worden, die bijvoorbeeld een integraal onderdeel van de ProkEvo-pijplijn zou kunnen zijn. Niettemin zijn er enkele specifieke voordelen van het gebruik van deze aanpak, zoals het gebruik van het BAPS-niveau 1 genotyperings- of clusteringschema. De plaatsing van BAPS niveau 1 subgroepen of haplotypes tussen serovar en ST afstammingslijnen werd empirisch gedefinieerd op basis van de genetische structuur van de Salmonella populatie, maar het lijkt van toepassing te zijn op andere soorten zoals Campylobacter jejuni en Staphylococcus aureus20. Bovendien legt BAPS1 nauwkeurig de voorouderlijke relatie tussen ST-afstammingslijnen vast en biedt het een schaalbare benadering voor evolutionaire analyse, vooral wanneer fylogenetische toepassingen beperkt zijn20. Bovendien vergemakkelijkt het gebruik van een geneste benadering voor het onderzoeken van hiërarchische relaties en patronen van diversificatie de identificatie van afstamming tussen ST-afstammingslijnen met behulp van BAPS1-subgroepen en over cgMLST-varianten met behulp van ST-afstammingslijnen, achtereenvolgens van lagere naar hogere genotypische resolutie bij het beoordelen van de populatiestructuur. Het is belangrijk om te herhalen dat de frequentieverdeling van ST-afstammingslijnen en cgMLST-varianten, indien getrokken uit een systematisch verzamelde en statistisch aangedreven steekproef, een proxy kan worden voor ecologische fitheid 1,6,43. Bijgevolg zullen dominante ST-afstammingslijnen en cgMLST-varianten waarschijnlijk unieke genomische kenmerken bevatten die de basis kunnen vormen van het biologische mechanisme voor hun dominantie in de populatie in die specifieke omgeving of gastheer.

Hierin werden twee onafhankelijke statistische metrieken gebruikt om de mate van klonaliteit van de populatie te beoordelen, wat een aanvullend begrip van de genetische diversiteit van de populatie mogelijk maakt, wat kan wijzen op het optreden van steekproefbias, populatieknelpunten of stichtereffect in het verleden. In het bijzonder kan de agnostische beoordeling van BAPS-niveaus 1-6 subgroepen over ST-afstammingslijnen het begrip van genetische diversiteit verfijnen dat doorgaans niet kan worden opgelost door simpelweg te kijken naar Salmonella cgMLST-variantniveau gegenereerd door SISTR. Zoals eerder vermeld, kunnen andere kenmerken van het pan-genoom in kaart worden gebracht op de populatiestructuur en worden bestanden met plasmide en virulentiegensamenstelling, naast het gebruik van andere AMR-databases samen met agnostische pan-genoomdataset, automatisch gegenereerd door ProkEvo20. Van belang is dat ProkEvo momenteel geen differentiatie toestaat tussen AMR-loci aanwezig in het bacteriële chromosoom versus plasmiden. Ecologische en epidemiologische metadata kunnen ook eenvoudig worden geïntegreerd in deze analytische benadering door andere variabelen op te nemen in een .csv bestand met alle genomische informatie. In het bijzonder vormt het hier gepresenteerde werk specifiek een aanvulling op het gebruik van het schaalbare en draagbare computationele platform ProkEvo, dat is ontworpen om te worden gebruikt door onderzoekers die zich richten op heuristische populatiegenomica-analyses die datamining en maatwerk door de gebruiker vergemakkelijken. Andere platforms kunnen worden gebruikt voor genotypering, populatiestructuuranalyse en / of het in kaart brengen van accessoire genomen zoals Enterobase5, PATRIC60 enBacWGSTdb61. De laatste zijn uitstekende bronnen die genomics datamining vergemakkelijken voor onderzoekers die niet op zoek zijn naar het aanpassen en gebruiken van cluster computing voor schaalbare en complexe analyse. De hier gepresenteerde analytische benadering is specifiek afgestemd op onderzoekers die de flexibiliteit willen hebben om een populatiegenomica-analyse uit te voeren met behulp van reproduceerbare scripts op hun lokale machine of door gebruik te maken van een cloud- of high-performance computationeel platform.

Kortom, het analytische R-gebaseerde platform dat in dit werk werd gepresenteerd, was gericht op het bieden van een praktische gids voor microbiologen, ecologen en epidemiologen over hoe: i) fylogenie-afhankelijke benaderingen kunnen worden gebruikt om hiërarchische genotypen in kaart te brengen; ii) de frequentieverdeling van genotypen te beoordelen als een proxy voor het evalueren van ecologische fitheid; iii) afstammingsspecifieke graden van klonaliteit te bepalen met behulp van onafhankelijke statistische benaderingen; en iv) amr-loci in kaart te brengen als een voorbeeld van hoe accessoire genomische inhoud kan worden ontginnen in de context van de populatiestructuur. De scripts die hier worden geleverd, kunnen worden gebruikt op een lokale machine of een krachtig rekenplatform. Voor experimentele en milieumicrobiologen vergemakkelijkt deze aanpak studies van datasets gericht op het identificeren van unieke eigenschappen en kandidaatpaden voor verdere mechanistische studies die uiteindelijk op populatieniveau kunnen worden gecontextualiseerd. Ecologen kunnen van deze benadering profiteren door gematigde tot grote datasets te kunnen analyseren, die in theorie de statistische kracht vergroten die nodig is om handtekeningen van selectie in een populatie te vinden, terwijl ze rekening houden met verwantschapsrelaties en patronen van diversificatie. Ten slotte kunnen epidemiologen unieke praktische informatie gebruiken voor diagnostiek en surveillance door genotypische eenheden van belang te definiëren en volksgezondheidsgerelateerde kenmerken zoals AMR te voorspellen. Meer in het algemeen biedt deze analytische leidraad een generaliseerbaar kader om ProkEvo te gebruiken om een populatiegebaseerde genomische analyse uit te voeren die kan worden gebruikt om evolutionaire en ecologische patronen voor pathogene en niet-pathogene soorten af te leiden, omdat de aanpak generaliseerbaar is naar andere bacteriesoorten.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben verklaard dat er geen tegenstrijdige belangen bestaan.

Acknowledgments

Dit werk werd ondersteund door financiering door de UNL-IANR Agricultural Research Division en het National Institute for Antimicrobial Resistance Research and Education en door het Nebraska Food for Health Center van de Food Science and Technology Department (UNL). Dit onderzoek kon alleen worden voltooid door gebruik te maken van het Holland Computing Center (HCC) bij UNL, dat steun krijgt van het Nebraska Research Initiative. We zijn ook dankbaar dat we via de HCC toegang hebben tot middelen die worden geleverd door het Open Science Grid (OSG), dat wordt ondersteund door de National Science Foundation en het Office of Science van het Amerikaanse ministerie van Energie. Dit werk maakte gebruik van de Pegasus Workflow Management Software die wordt gefinancierd door de National Science Foundation (grant #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetica Nummer 178
Heuristische mijnbouw van hiërarchische genotypen en accessoire genoom loci in bacteriële populaties
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter