

Published: December 07, 2021




細菌の全ゲノムシーケンシング(WGS)の日常的かつ体系的な使用は、公衆衛生研究所および規制当局によって実施される疫学的調査の精度および分解能を向上させている。公開されている大量のWGSデータは、病原性集団を大規模に研究するために使用することができる。最近、細菌のWGSデータを用いた再現性、自動化、スケーラブルな階層ベースの集団ゲノム解析を可能にするために、ProkEvoと呼ばれる自由に利用可能な計算プラットフォームが公開されました。ProkEvoのこの実装は、集団の標準的な遺伝子型マッピングと、生態学的推論のためのアクセサリーゲノムコンテンツのマイニングを組み合わせることの重要性を実証しました。特に、ここで強調した研究は、Rプログラミング言語を使用した母集団スケールの階層分析にProkEvo派生出力を使用しました。主な目的は、微生物学者、生態学者、疫学者に実用的なガイドを提供することでした。ii)生態学的適合性の代理としての遺伝子型の頻度分布を評価すること。iii)特定の遺伝子型分類を用いて親族関係および遺伝的多様性を決定すること。iv)アクセサリー遺伝子座を区別する系統をマップする。再現性と移植性を高めるために、Rマークダウンファイルを使用して分析アプローチ全体を実証しました。サンプルデータセットには、人獣共通感染症の食品媒介病原体 サルモネラ・ ニューポートの2,365の分離株からのゲノムデータが含まれていました。階層的遺伝子型(Serovar -> BAPS1 -> ST -> cgMLST)の系統発生に基づくマッピングは、集団の遺伝子構造を明らかにし、配列型(ST)を分化遺伝子型の要石として強調した。最も優勢な3つの系統にわたって、ST5とST118はクローン性の高いST45系統型よりも最近になって共通の祖先を共有した。STベースの相違は、補助抗菌薬耐性(AMR)遺伝子座の分布によってさらに強調された。最後に、系統学にアンカーされたビジュアライゼーションを使用して、階層的な遺伝子型とAMRコンテンツを組み合わせて、血縁関係構造と系統特異的なゲノムシグネチャを明らかにしました。この分析アプローチを組み合わせることで、汎ゲノム情報を使用してヒューリスティック細菌集団ゲノム解析を実施するためのガイドラインがいくつか提供されます。




このシステムベースの階層的集団指向アプローチでは、識別可能なゲノムシグネチャを予測するのに十分な統計的検出力を得るために、大量のWGSデータが必要です。したがって、このアプローチには、何千もの細菌ゲノムを一度に処理できる計算プラットフォームが必要です。最近、ProkEvoが開発され、パンゲノムマッピング20を含む統合的な階層ベースの細菌集団分析を可能にする、自由に利用可能で、自動化され、ポータブルで、スケーラブルなバイオインフォマティクスプラットフォームです。ProkEvoは、中規模から大規模の細菌データセットの研究を可能にしながら、ユーザーがカスタマイズできるテスト可能で推論可能な疫学的および生態学的仮説および表現型予測を生成するためのフレームワークを提供します。この研究は、ProkEvo 由来の出力ファイルを階層的な集団分類とアクセサリゲノムマイニングの分析と解釈のための入力として利用する方法に関するガイドを提供することで、そのパイプラインを補完します。ここで提示された症例研究は、 サルモネラ・エンテリカ 系統I人獣共通感染症血清Sの個体群を利用し た。例としてニューポートは、微生物学者、生態学者、疫学者に、i)階層遺伝子型をマッピングするために自動化された系統発生依存アプローチを使用する方法についての実用的なガイドラインを提供することを特に目的としていました。ii)生態学的適合性を評価するための代理として遺伝子型の頻度分布を評価すること。iii)独立した統計的アプローチを用いて系統特異的なクローン性の程度を決定すること。iv)集団構造の文脈においてアクセサリゲノムコンテンツをマイニングする方法の例として、系統分化性AMR遺伝子座をマッピングする。より広義には、この分析アプローチは、標的種に関係なく進化的および生態学的パターンを推測するために使用できる規模で集団ベースのゲノム解析を実行するための一般化可能なフレームワークを提供する。


1. 入力ファイルの準備 メモ: プロトコルはこちらから入手できます –。このプロトコルは、研究者がこのFigshareリポジトリで利用可能な必要な出力を得るためにProkEvo(または同等のパイプライン)を特に使用していることを前提としています( – ログイン資格情…

Representative Results

集団ゲノミクス解析に計算プラットフォームProkEvoを利用することで、細菌WGSデータマイニングの最初のステップは、コアゲノム系統発生の文脈で階層的な集団構造を調べることからなる(図1)。 Sの場合。 エンテリカ 系統Iは、Sで例示される 。 ニューポートデータセットは、母集団が以下のように階層的に構造化されている:血清(最低レベルの分解?…




The authors have nothing to disclose.


この研究は、UNL-IANR農業研究部門と国立抗菌薬耐性研究教育研究所、および食品科学技術局(UNL)のネブラスカ州食品保健センターから提供された資金によって支援された。この研究は、ネブラスカ研究イニシアチブの支援を受けているUNLのHolland Computing Center(HCC)を利用することによってのみ完了することができました。また、HCCを通じて、米国国立科学財団と米国エネルギー省の科学局が支援するオープンサイエンスグリッド(OSG)が提供するリソースにアクセスできることにも感謝しています。この研究は、国立科学財団(助成金#1664162)から資金提供を受けているPegasus Workflow Management Softwareを使用した。


Core-genome phylogeny
Linux, Mac, or PC any high-performance platform
figshare credentials are required for login and have access to the files


