Summary

短読シーケンシング技術を用いた尿細菌の完全ゲノム生成のためのハイブリッド デノボ ゲノムアセンブリ

Published: August 20, 2021
doi:

Summary

このプロトコルは、尿細菌の培養、シーケンシング、および デノボ ハイブリッドゲノムアセンブリのための包括的なアプローチを詳述する。それは、尿中の植民地化、病原性、および抗菌性の普及に寄与する染色体および染色体外の両方の遺伝子要素を研究するのに有用な完全な、円形ゲノム配列の生成のための再現可能な手順を提供する。

Abstract

完全なゲノム配列は、尿中微生物の遺伝的多様性とユニークなコロニー形成因子を理解するための貴重なデータを提供します。これらのデータには、抗菌性の普及に寄与し、尿路感染症(UTI)の治療をさらに複雑にするプラスミドや染色体外ファージなどの移動遺伝子要素が含まれる可能性があります。ゲノム構造の微細な解決を提供することに加えて、完全な閉じたゲノムは、詳細な比較ゲノムおよび進化的分析を可能にする。完全なゲノム デノボ の生成は、利用可能なシーケンシング技術の限界のために長い間困難な作業でした。ペアエンド次世代シーケンシング(NGS)は、多くの場合、正確だが断片化したゲノムアセンブリをもたらす高品質のショート読み取りを生成します。それどころか、Nanoporeシーケンシングは、通常、エラーが起こりやすい完全なアセンブリにつながる低品質の長い読み取りを提供します。このようなエラーは、ゲノム全体の関連研究を妨げたり、誤解を招く変異体解析結果を提供したりする可能性があります。したがって、短い読み取りと長い読み取りの両方を組み合わせたハイブリッドアプローチは、高精度の閉じた細菌ゲノムを達成するための信頼性の高い方法として出現しています。本明細書に報告されているのは、多様な尿細菌の培養、16S rRNA遺伝子シーケンシングによる種同定、ゲノムDNA(gDNA)の抽出、およびNGSおよびナノポアプラットフォームによる短い読み取りおよび長い読み取りの生成に関する包括的な方法である。さらに、この方法は、全ゲノム配列の生成のための品質管理、組立、および遺伝子予測アルゴリズムのバイオインフォマティクスパイプラインを記述する。バイオインフォマティクスツールの組み合わせにより、ハイブリッドゲノムアセンブリおよびダウンストリーム解析のための高品質の読み取りデータを選択できます。このプロトコルに記載されているハイブリッド ・デ・ノボゲノム アセンブリの合理化されたアプローチは、任意の可進性細菌での使用に適応され得る。

Introduction

尿マイクロバイオームは、尿路が健康な個人で無菌であるという数十年にわたる誤解を打ち砕いた研究の新興分野です。尿中微生物叢のメンバーは、尿環境のバランスをとり、尿路感染症(UTI)1、2を予防するのに役立ちます。泌尿器病原性細菌は尿路に侵入し、生体内微生物叢を置き換え、尿路上皮を植民地化し、免疫応答を回避し、環境圧力3,4に対抗する多様な病原性メカニズムを採用する。尿は、高い浸透性、限られた窒素と炭水化物の可用性、低酸素化、および低pH5、6、7によって特徴づけられる比較的栄養が限られた媒体である。尿はまた、抗菌性であると考えられ、ヒトカテリシジンLL-378のような高濃度の阻害性尿素および抗菌ペプチドから構成される。尿路の健康を理解し、UTI治療のための新しい戦略を開発するためには、尿路を植民地化するために、常駐細菌と泌尿器病原体の両方で採用されているメカニズムを調査することが重要です。さらに、第一線の抗菌療法の不全がより一般的になるにつれて、尿細菌9,10の集団内で抗菌性決定基を担う移動性遺伝要素の普及を監視することがますます重要になっている

尿細菌の遺伝子型や型を調べるには、その培養の成功とその後の全ゲノムシーケンシング(WGS)が不可欠です。培養依存的な方法は、尿サンプル11中の生き生き微生物を検出し同定するために必要である。標準的な臨床尿培養は、5%の羊の血液寒天(BAP)とマッコンキー寒天に尿をめっきし、24時間12のために35°Cで好気的にインキュベートすることを含む。しかし、検出閾値≥105 CFU/mL13では、尿中微生物叢の多くのメンバーはこの方法では報告されない。強化された定量尿培養(EQUC)11などの改善された培養技術は、標準的な尿培養によって一般的に見逃される微生物を同定するために、異なる尿量、インキュベーション時間、培養培地、大気条件の様々な組み合わせを採用しています。このプロトコルに記載されているEQUCの改変版は、ここで修正された強化尿培養プロトコルと呼ばれ、選択的培地および最適な大気条件を使用して多様な尿細菌および泌尿器病原体の培養を可能にするが、本質的には定量的ではない。尿細菌の分離に成功すると、下流のWGSおよびゲノムアセンブリのゲノムDNA(gDNA)の抽出が可能になります。

ゲノムアセンブリは、特に完全な集合体であり、居住微生物叢および泌尿病原性細菌の両方の間でコロニー形成、ニッチ維持、および病原性に寄与し得る遺伝的要因の発見を可能にする。ドラフトゲノムアセンブリには、シーケンスエラーを含み、オリエンテーション情報が不足している連続配列(コンティグ)が多様に含まれています。完全なゲノムアセンブリでは、すべてのベースペアの向きと精度の両方が14.さらに、完全なゲノム配列を得て、ゲノム構造、遺伝的多様性、および移動遺伝子要素15に関する洞察を提供する。短い読み取りだけでは重要な遺伝子の有無を特定するが、ゲノムコンテキスト16を特定できない場合がある。オックスフォードナノポアやPacBioなどの長期読み取りシーケンシング技術を可能にすることで、細菌ゲノムのクローズドノボアセンブリを生成するには、マルチプレックスPCR17、18によるデノボアセンブリの手動閉鎖などの激しい方法が必要なくなりました。次世代の短読シーケンシングとNanoporeロングリードシーケンシング技術の組み合わせは、比較的低コストで正確で完全で閉じた細菌ゲノムアセンブリのファシリティ生成を可能にします19.短読シーケンシングは、一般的に平均40〜100個のコンティグからなる正確でありながら断片化されたゲノムアセンブリを生成し、ナノポアシーケンシングは、精度が低いが、コンティグに結合し、ゲノムシンテンションを解決するための足場として役立つ長さ約5〜100kbの長い読み取りを生成します。短読と長期読み取りの両方の技術を利用したハイブリッドアプローチは、正確で完全な細菌ゲノムを生成することができます19.

ここでは、ハイブリッドアセンブリアプローチを用いたヒト尿、ゲノムDNA抽出、シーケンシング、および完全なゲノムアセンブリからの細菌の単離および同定のための包括的なプロトコルを説明する。このプロトコルは、閉じた細菌染色体およびプラスミドなどの染色体外要素の正確な組み立てのために、短読および長読のシーケンシングによって生成される読み取りを適切に変更するために必要なステップに特に重点を置きます。

Protocol

細菌は、機関審査委員会承認研究19MR0011(UTD)およびSTU 032016-006(UTSW)の一環として、同意した女性から採取された尿から培養された。 1. 改良尿培養 注:すべての培養ステップは、無菌条件下で行う必要があります。すべての器具、ソリューション、メディアを殺菌します。70%エタノールで作業領域を清掃し、ブンゼンバーナーを設置し、炎の近くに慎重に作業して汚染の可能性を減らします。あるいは、クラスIIのバイオセーフティキャビネットは、無菌環境を維持するために使用され得る。病原性の可能性がある微生物への暴露を避けるために、適切な個人用保護具(PPE)を着用してください。 メッキグリセロールストック尿とコロニー分離 室温(RT)でグリセロールストック尿を解凍します。一度解凍し、5sの混合物を混合するためにサンプルを渦を出す。無菌マイクロ遠心チューブで、尿の1:3と1:30希釈液を無菌1xリン酸緩衝塩(PBS)で100 μLの最終体積に調製します。注:グリセロールストック尿は、500μLの希釈されていない尿と500μLの500μLの無菌グリセロールを凍結し、-80°Cで保存することによって調製されます。 37°Cで寒天プレートを15分間使用してください。一般的な尿中細菌属に適した培地の種類や培養条件については 、図1 をご覧ください。めっきする前にピペット加工して希釈した尿をよく混ぜ、希望の寒天板に希釈した尿のプレート100μLをプレートし、滅菌ガラスビーズを使用してサンプルを広げます。1xPBS希釈液のプレート100μLを、成長制御なしとして別のプレート上に取り付ける。注意:一般的な泌尿器病原種(例えば、 大腸菌、クレブシエラ属、エンテロコッカス・フェカリス など)を培養しようとする場合、泌尿器系細菌種の同定が容易となるため、染色体寒天(材料表)を使用することが推奨される(図1)。コリスチンナリジキシック酸(CNA)またはMRS寒天は、非選択的寒天で食潔種を上回る可能性があるグラム陰性泌尿器原体を含むことが知られている尿から潔癖性グラム陽性種(例えば、 ラクトバチルスspp.)を単離するのに有用である。 尿病原菌の場合は24時間、食潔菌では3~5日間、35°Cで所望の大気条件でプレートを反転させる(図1)。 インキュベート期間の後、インキュベーターからプレートを取り出します。各プレートから、独特の色、形態、または血分解パターンを示すコロニーを選びます。 対応する寒天に滅菌ループを使用して細菌コロニーを再ストリークし、望ましい雰囲気の中で2〜5日間反転したプレートをインキュベートし、十分に分離されたコロニーを得る。注:BAPを一次培養に利用する場合、染色原性寒天にコロニーをパッチさせることは、サンプル中の細菌集団の不均一性に関する有用な情報を提供するかもしれない。 液体ブロスおよびグリセロールストッキング細菌分離株の培養 親コロニーの形態に一致する単離されたコロニーが得られたら、単一のコロニーを選び、滅菌接種ループを使用して3mLの液体ブロスに接種する。一般的な尿中微生物叢属の成長をサポートすることができるブロスについては 図1 を参照してください。寒天プレートをパラフィルムで密封し、4°Cで2~4日間保管します。培養物が目に見えて濁るまで、所望の大気条件で液体培養物を1〜5日間インキュベートする。 成長が観察された後、培養物をボルテックスし、2 mLのグリセロール中の500μLの無菌500μLに一晩培養物1mLを加える。シールし、反転によって穏やかに混ぜます。各コロニーに2つのグリセロールストックを用意し(1つはバックアップとして機能します)、-80°Cで保管してください。 2. 16S rRNA遺伝子サンガーシーケンシングによる細菌種の同定 注:微生物の同一性は、代わりに、飛行質量分析(MALDI-TOF)20のマトリックス支援レーザー脱離イオン化時間を使用して確認することができます。 コロニー-ポリメラーゼ連鎖反応(PCR) PCRチューブに25 μLのPCR反応を調製するには、12.5 μLの2x Taqポリメラーゼマスターミックス、0.5 μLの10 μM 8Fプライマー、0.5 μLの10 μM 1492Rプライマー(材料表)、ヌクレアーゼフリー水21.5μL を加えます。注: 複数のサンプルに PCR を実行する場合は、Taq ポリメラーゼ ミックス、プライマー、および無菌ヌクレアーゼフリー水の反応マスター ミックスを作成します。次いで、各PCRチューブに25μLをアリコートした。 コロニーPCRを実行するには、滅菌爪楊枝またはピペットチップを使用して再ストリークからよく隔離されたコロニーをスワイプします。ステップ2.1.1で調製したPCR反応ミックス中のコロニーを再懸濁させる。やさしく混ぜます。2000 x gでクイック スピンでチューブの底にある液体を収集します。注:サンプルに気泡がないことを確認してください。PCR反応ミックスを単独で含有する非鋳型制御(NTC)サンプルを含む。 サンプルチューブをサーモサイクラーに入れ、次のプログラムを実行します: 95 °C 3分間;40サイクル:30sの95°C、30sの51°C、1分30sの72°C;72 °C 10分間10 °Cで保持します。 ゲル抽出と種同定 PCR の実行が完了したら、0.5x トリス-ホレート EDTA (TBE) バッファーで調製した 1% アガロースゲルで PCR 産物を確認します。ゲルを鋳造する前に、臭化エチジウム(EtBr)を加える。次に、少なくとも20 μLのサンプル量を保持するウェルに対して、くしを使用してゲルをキャストします。注意:EtBrは発がん性があると疑われるインターカリング剤です。取り扱い時には必ず手袋とPPEを着用し、機関のガイドラインに従ってEtBrを含む材料を廃棄してください。 ゲルをセットしたら、0.5x TBEバッファーを充填した電気泳動タンクにゲルを入れ、くしを取り除きます。1 kb のラダーを最初のウェルに、10~20 μL の PCR 反応を後続のウェルにロードします。解決されるまで 100 ~ 140 V で実行します。UV光の下でゲルを視覚化し、NTCウェルに存在しない〜1.5キロバイトで明確に定義されたバンドの存在を確認します。注意:紫外線は皮膚や目に有害であり、ゲルを視覚化する際に適切なガードを使用し、適切なPPEを着用してください。注意:コロニーPCRは、いくつかの細菌のために失敗する可能性があります。単離されたgDNAからのPCRを進め、代替オプション22です。 カミソリを使用して〜1.5キロバンドを物品切りし、ゲル切削をきれいなマイクロ遠心チューブに移します。メーカーの指示に従ってゲル抽出プロトコルを進める (資料一覧)。マイクロボリューム分光光度計で精製されたDNAの濃度を測定します。注: 10 ng/μL >濃度が望ましく、A260/280 の間では 1.7~2.0 が許容されます。 各サンプルに対して2つのサンガーシーケンシング反応を準備し、1つは8Fを使用し、もう1つは1492Rプライマーをヌクレアーゼフリーウォーターで使用し、選択したサンガーシーケンシングサービスのガイドラインに従います。 シーケンシングデータを受信したら、DNA配列をNCBI基本局所アライメント検索ツール(BLAST)ウェブサイト(blast.ncbi.nlm.nih.gov/Blast.cgi blastn)にアップロードし、ヌクレオチドBLAST(blastn)を選択し、rRNA/ITSデータベース16SリボソームRNA配列(細菌および古細菌)を選択し、メガブラストプログラムを実行します。分離は、データベースからの参照に対する最高品質のヒットによって識別される可能性があります。注:一部の細菌種は、その16S rRNA配列において高い同一性を示し、この方法だけでは区別できない場合があります。スペシレーションは、同じ属のメンバーを自信を持って区別するためにDNA相同性と生化学的分析を必要とします23. 3. ゲノムDNA(gDNA)の抽出 注:このセクションでは、多様な細菌種からの高品質のゲノムDNAの高収率抽出のために 、材料表 に記載されているgDNA抽出キットで提供される試薬とスピンカラムを利用します。以下に示す推奨される変更と手順を示します。 メーカーの指示に従ってキット試薬を準備します。 適切な滅菌ブロス(図1)で、十分な増殖が観察されるまで、十分な増殖が観察されるまで、図1に示された温度と大気圧で細菌を注入することによって、適切な滅菌ブロス( 図1) に3〜10mL培養を調製する。 インキュベーション後、分光光度計24を用いて培養物の光学濃度を600nm(OD600)で測定する。 一晩培養物を1:10比で希釈して定量化するためのサンプルを準備します。同様に測定のための無菌培養培地のブランクを含める。サンプルの読み取り値から空白の読み取り値を減算し、希釈係数 10 を掛けることで光学密度を計算します。 OD600測定と、種に対するCFU/mL比を事前に確立したOD600を用いて、2 x 109細胞を得るために必要な培養量を算出する。 ペレットに5000 x g で5分間必要な培養量を遠心分離する。上清を吸引し、200 μLの冷たいTEバッファー(手順の開始時に氷上でのプレチル)でペレットを再懸濁します。 5000 x gで 2 分間サンプルを遠心分離します。上清を取り出し、180 μLの酵素リシスバッファー(ELB)でペレットを再懸濁し、20 μLの予熱したRNase A(10 mg/mL)を加えます。グラム陽性菌の効率的なリシスのために、18 μLの変異不反応(25 kU/mL)を加えます。ボルテックスウェル、次いで、2時間回転器上の37°Cでサンプルをインキュベートする。注: グラム陽性菌とグラム陰性菌の両方に対して、メーカーのプロトコルに記載されている ELB を使用することをお勧めします。 製造元の指示に従って進みます。注:必要に応じて、さらに1〜2回溶出手順を繰り返して、追加のgDNA収量を得る。 セクション4で指示された抽出gDNAの品質を評価し、1週間以内に使用する場合は4°CでgDNAを保存します。あるいは、gDNAを-20°Cに保ち、長期保存を行います。 4. 抽出したgDNAの品質の評価 ゲル電気泳動による品質を評価するために、サブセクション2.2に記載されているように1%のアガロースゲルを調製する。きれいなチューブでサンプルを準備する:抽出されたgDNAの1-2 μLとパラフィルム上の2x負荷染料の3 μLを混ぜます。ゲルを一度ロードして実行し、UV ライトの下で視覚化します。注:gDNA抽出の成功は、ゲルの上部にある離散バンドと最小限のスミアによって明らかになります(図2A)。塗り傷はせん断を示す。gDNAバンドが明らかでない場合やスメリングが実質的である場合は、gDNA抽出を繰り返します。RNase AおよびプロテアーゼKのインキュベーション時間を短縮することを検討してください。1.5~3 kb前後の2つのバンドが観察された場合、RNA汚染が示唆される(図2B)。新鮮なRNase Aを準備し、抽出を繰り返します。 マイクロボリューム分光光度計で品質を評価するには、マイクロボリューム分光光度計でgDNA濃度と吸光度比A260/280を測定します。濃度は、1.7~2.0の間で>50 ng/μLおよびA260/280の間で許容されます。注:低gDNA収量は、低入力、高入力、ヌクレアーゼの汚染、不十分なリシスが原因である可能性があります。上記範囲の吸光度比は、RNA汚染を示す。gDNAの品質が悪い場合は抽出を繰り返します。 フルオロメーターによる品質を評価するには、高感度アッセイキットと蛍光計計器を使用してgDNA濃度を定量化するメーカーの指示に従ってください(材料表)。濃度>50 ng/μLが望ましい。 5. ペアエンド次世代短読シーケンシングとライブラリの準備 メモ:短読シーケンスは、異なる読み取り長さと向きで様々な楽器に対して実行することができます。150 bp (300 サイクル) ペアエンドシーケンシングは、細菌の WGS に推奨されます。ライブラリの準備とシーケンシングの両方をコア施設または商業研究所に委託することができます。 メーカーの指示に従ってシーケンスライブラリを準備します (資料一覧)。メーカーの推奨最終ローディングライブラリ濃度に従ってください。ただし、NextSeq インストゥルメントでの読み取り生成を最適化するために、プールされたライブラリを 1.8 pM でロードすることをお勧めします。 オプションですが、バイオアナライザー(材料表)を使用して、プールされたライブラリのフラグメント分布を評価し、フラグメントサイズが平均600 bpであることを確認します。 6. ナノポア MinION シーケンシングライブラリの準備 製造元のプロトコルに従ってシーケンス ライブラリを準備します (資料一覧)。2つのバーコード拡張キットを使用すると、1つのフローセルで最大24個のサンプルを多重化できます。24個のサンプルを多重化する場合は、2つの部分、12個のサンプルでライブラリの準備を行うことをお勧めします。24個のサンプルは、以下に記載されているようにプールすることができる。注:サンプルは、ネイティブバーコードライゲーションを終了すると一晩で4°Cで保存することができます – これは、必要に応じて、プロトコルの停止点を提供します。ライブラリー調製プロトコルのネイティブバーコードライゲーションセクションの終わりには、可能な最大DNA質量(ng)まで各サンプルの正モル量をプールすることが推奨されます。 これを行うには、メーカーの指示に従ってフルオロメーター(材料表)を使用して、バーコードライゲーションに続くすべてのサンプルを定量化します。dsDNA濃度が最も低いサンプルの量を推定し、このサンプルで見つかったdsDNAの合計を計算します。この数を使用して、一緒にプールされる他のすべてのサンプルの等量を決定します。注意:等量計計算はプールされたdsDNAの量を最大にし、大量のプール(>65 μL)を生成するため、プールを集中させるためにクリーンアップが必要です。 dsDNAプールのクリーンアップと濃度 2.5倍の常磁性ビーズ(材料表)をDNAプールに加え、チューブを軽くフリックして内容物を混ぜます。チューブをRTで5分間ローテーターに入れ、サンプルを2000 x g でスピンダウンし、ペレットを磁石に置きます。 250 μL を加えて、作りたての 70% エタノール (ヌクレアーゼを含まない水) を加え、ペレットを乱さないよう注意してください。エタノールを吸引し、エタノールを一度洗浄します。 2回目の吸引の後、サンプルを2000 x g で回転させ、磁石の上に戻します。任意の残留エタノールをピペットオフし、サンプルが約30 sのために乾燥することを可能にする。 マグネットからチューブを取り出し、60~70μLのヌクレアーゼフリー水でペレットを再懸濁します。RTで2分間インキュベートします。ペレットは、エルテが透明になるまで磁石上のサンプルをペレットにし、その後、エルテを除去し、きれいな1.5 mLマイクロ遠心チューブに移します。 フルオロメーターを使用して濃縮プールを定量化し、次にアダプタライゲーションステップに進むアリコートを準備します:65 μL最終体積でサンプルの700 ngを調製します。プールの残りの部分を 4 °C に保持し、最初の実行が終了した後に 2 回目の実行を完了します。 メーカーの指示に従ってアダプターの結紮を進め、フローセルにサンプルをロードします。シーケンス実行を開始します。注:サンプルローディング前のフローセルプライミングポートからの吸気空気および約200 μLの貯蔵バッファー。これは、フローセルのプライミングとサンプルの読み込みが成功するために重要です。フローセルのプライミングポートを介してソリューションを描画および堆積する際に、p1000ピペットとヒントを使用してください。 製造元の指示に従ってライブラリを並び順に指定します。 シーケンス用のオペレーティング・ソフトウェアを開き、 開始をクリックします。実験の名前を入力すると、推奨される命名法には実行日とユーザー名が含まれます。[ キットの選択に進む] をクリックし、使用するライブラリの準備キットとバーコード拡張パックを選択し、[ 実行オプションへ進む] をクリックします。 2 回目の実行に十分なライブラリを準備する場合は、実行の長さを 48 時間に調整します (それ以外の場合は、デフォルトの 72 時間のままにします)。[ ベースコールに進む] をクリックします。 ベースコールオプションの「Config: 高速ベース呼び出し」をチェックし、出力 FASTQ ファイルがバーコードシーケンスからトリミングされ、バーコードに基づいて別々のディレクトリにデマルチプレクスされるように、バーコードが有効に設定されていることを確認します。 [出力に進む ] をクリックします。 出力シーケンスデータを保存する場所を選択します。FASTQ 出力を保存するだけで、FAST5 出力も保存する場合は、約 30 ~ 50 Gb のデータ>予想します。フィルタリングオプションの Qscore: 7 |のチェックを外しますReadlength: セクション 7.2 で説明されているフィルタリングを続行する場合は、フィルタなし、それ以外の場合はオンのままにして 、Readlength を 200 に調整します。 [ セットアップの実行に進む] をクリックし、すべての設定を確認します。設定が正しい場合は、[ スタート]をクリックし、[ 戻る ]をクリックして必要な調整を行います。 必要に応じて、フローセルは、製造業者の指示に従って洗浄され、残りのプールで再ロードされてもよい。最初の実行が完了し、フローセルが洗浄されたら、残りのプールに対して6.2の手順を繰り返します。注:2回目の実行を設定する場合は、48時間を超えるランで以前使用したフローセルに関するメーカーの推奨に従って、バイアス電圧を-250 mVに調整してください。 7. 読み取りの評価と準備 注 : 推奨ディレクトリ構造を 図 4に示します。以下の計算手順に進む前に、 デスクトップ、Long_Reads、Short_Reads、Trimmed_Readsで見つかったディレクトリを作成します。 短い読み取り (図 3)注: 短い読み取りは FASTQ 形式で生成されます。ファイルには、FASTQ ごとに最大 4000 読み取りが含まれています。これらは、多くの場合、圧縮 (.gzアーカイブ) され、複数のファイルに編成されます。プラットフォームによっては、バーコードは通常トリミングされます。zip形式のファイルを受け入れるプログラムもあれば、インポートする前に抽出が必要なものもあります。読み取りは、ゲノムアセンブリ中のデータ精度を確保するために、品質管理(QC)の手順に合格する必要があります。CLCゲノミクスワークベンチが利用できない場合、トリムモマティックなどのQCショート読み取りとトリムに代替プログラムを使用できます。25 またはトリミングのためのトリムガロア(https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)と読み取り品質を評価するためのFastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)読み取りの数を平均読み取り長さで乗算し、ゲノムサイズで割ることによって推定される平均短い読み取りカバレッジは、>100xであることが推奨されます。ゲノミクスワークベンチソフトウェア(材料表)を開き、すべてのペアエンドの短読み取りFASTQファイルをインポートします。ペアファイルは自動的に生成されます。 CLC_Dataの下に新しいフォルダを作成するには、上部のツールバーで [新規作成 ]をクリックし、[ フォルダ..]を選択します。をクリックしてファイルを保存します。必要に応じてフォルダに名前を付けるため、推奨される規則ではサンプル ID を使用します。 上部のツールバーで、[ インポート ] ボタンをクリックし、[ イルミナ] を選択します。サンプルに対応する短読み取りファイルに移動し、選択します。ペアリングされた読み取りオプションが選択されていることを確認し、[ 失敗した読み取り] オプションをオフにします。[ 次へ] をクリックし、[ 保存] を選択して、[ 次へ ] をもう一度クリックします。インポートしたファイルを前の手順で作成した新しいフォルダに保存し、[ 完了] をクリックします。 分離のためのすべてのペアファイルのシーケンスリストを作成します。これにより、分析を簡略化するために、読み取りデータが 1 つのファイルに連結されます。 上部のツールバーで、[ 新規 ] ボタンをクリックし、[ シーケンス リスト] を選択します。左側のディレクトリリストで、連結するファイルを選択し、矢印を使用して右側の選択したファイルリストに移動します。[ 次へ] をクリックし、[ 保存] を選択して、[ 次へ ] をもう一度クリックします。シーケンスリストを保存することを選択し、[ 完了]をクリックします。 シーケンスリストが生成されたら、すぐにサンプル ID で名前を変更します。 シーケンス リストでシーケンス読 み込み 用 QC ツールを実行する: この手順では、読み取りが短い NGS によって生成される読み取りの全体的な品質パラメータを評価します。 ツールボックスメニュー(左下ウィンドウ)で 「シーケンス読み込み QC」ツールを検索します。ツールをダブルクリックし、解析するシーケンス リストを選択して [ 次へ] をクリックします。 すべての出力オプションがオンになっていることを確認し、[結果処理] の下の[保存]を選択します。[次へ] をクリックし、出力ファイルを保存するように指定し、[完了] をクリックします。 シーケンスリストで トリム読み込み ツールを実行する:トリムは品質、長さ、およびあいまいさに基づいて行われます。このプロセスでは、シーケンスで使用されるバーコードが、この手順の前にトリミングされていることを前提としています。 ツールボックス (左下) で [読み取り] ツールを検索します。 [Trim Reads]をダブルクリックし、分析するシーケンスリストを選択して[ 次へ]をクリックします。 品質トリミング: 品質スコアの制限を 0.01 に設定し、あいまいなヌクレオチドを 2 のままにします。[ 次へ] をクリックします。注: パラメータはユーザーの裁量で調整できます。推奨される設定です。 [ 自動リードスルー アダプター トリミング ] をオフにします (CLC にインポートする前に、アダプタが読み取りからトリミングされている場合にのみ行います)。[ 次へ ] をクリックし、[ 読み取り時間を次の長さにする]をオンにして、デフォルトの 15 を使用します。 [ 次へ] をクリックし、[ レポートの作成] をオンにして 、[ 保存] をクリックします。[ 次へ ]をクリックし、出力ファイルを保存する場所を指定します。[ 完了 ] をクリックします。 トリムシーケンスリストをエクスポート: 後続のハイブリッドアセンブリと解析はCLCの外部で完了し、トリムされたショート読み取りファイルをエクスポートする必要があります。 左上のディレクトリナビゲーションから、ステップ7.1.4で生成されたトリミングされたファイルを選択し、上部のツールバーで [エクスポート ]をクリックします。エクスポート ファイルの種類として Fastq を選択し、[ 次へ] をクリックします。 [ペア化シーケンスリストを 2 つのファイルにエクスポート]をオンにします。次に、[ 次へ ] をクリックして、ファイルをエクスポートするTrimmed_Readsディレクトリを選択します。[ 完了 ] をクリックします。トリミングされた短読み取りファイルが、拡張子 .fastqの 2 つのファイル (R1 と R2) として正常にエクスポートされたことを確認します。注: トリムされたシーケンス・リストは、通常 CLC によって R1 および R2 として指定される 2 つのファイルにエクスポートする必要があります。ダウンストリームのハイブリッド アセンブリでは、短読データ入力をそのように設定する必要があるため、このことは重要です。 エクスポートしたファイルの名前を変更し、ファイル名にスペースや特殊文字を使用しないでください。わかりやすくするために、推奨される形式はtrimmed_short_fileです。R1.fastq. 長い (最小) 読み取り (図 3)注: ハイブリッド アセンブリの Long (MinION) シーケンス読み取りを準備するための次のパイプラインは、コマンド ラインで実行される NanoFilt および Nanostat プログラム26 を利用します。先に進む前にツールをインストールし、UNIX の基本を理解してこれらのコマンドを実行してください。デフォルトの端末と Bash シェルが推奨されます。一般的なターミナル コマンドと使用方法のレッスン ガイドは、ソフトウェア大工27にあります。以下の手順では、生成されたファイルがバーコード命名法(NB01、NB02など)で命名され、Long_Readsディレクトリに保存されることを前提としています。または、シーケンス実行を設定するときに MinKNOW を使用して読み取りフィルターを実行できます。平均ロング読み取りカバレッジは、>100xであることが推奨されます。推奨される平均読み取り長さは >2000 bp です。したがって、必要な長い読み取りの数は、短い読み取りの数よりも少ないです。 Long_Reads ディレクトリ内の実行で使用される各バーコード (barcode01、barcode02 など) に対して新しいディレクトリを作成します (図 4)。各バーコードに対応するすべての .fastq ファイルを適切なフォルダにコピーします。各実行から各バーコードのすべての .fastq ファイルを結合します。 ターミナルを開き、cdコマンドを使用してLong_Readsディレクトリ内のバーコードディレクトリに移動します: cdデスクトップ/Long_Reads/バーコード01 次のコマンドを実行して、バーコードごとにすべての.fast >qファイルを 1 つの.fastqファイルに連結します。 注: このコマンドは、各 FASTQ ファイルからの読み取りをすべて NB01.fastq という名前の 1 つの大きな 1 つの FASTQ に結合します。 次のコマンドを実行して、サンプルの読み取り品質を評価するために ナノスタット を使用します: 出力をテキストまたは Word ファイルにコピーして、後で参照するために結果を記録します。 MinION 読み取りをフィルタリングするには 、MinION 読み取り < Q < 7、長さ 200 <コマンドを実行して、コマンドを実行して読み取 り |> 読み取り > NB01 _trimmed.fastq.gz ステップ 7.2.6 で生成されたトリミングされたファイルに対して、次のコマンドを実行してNano _trimmed Stat を実行します.gz。 出力をテキストまたは Word ファイルにコピーして結果を記録し、手順 7.2.4 の結果と比較して、フィルタが正常に実行されたことを確認します (表 1)。 シーケンス実行で使用される各バーコードについて、手順 7.2.2 ~ 7.2.8 を繰り返します。注: 手順 7.2.6 で生成された NB01_trimmed.fastq.gz ファイルは、ハイブリッド アセンブリに使用されます。 8. ハイブリッドゲノムアセンブリの生成 注: 次のアセンブリ パイプラインは、セクション 7.1 と 7.2 で準備された短い読み取りと長い読み取りを組み合わせるために Unicycler19、28、29、30を利用します ( 図 3 ) 。ユニサイクラーとその依存関係をインストールし、以下のコマンドを実行します。ステップ 7.1.5 でエクスポートされた短読ファイルは、trimmed_short_file名前が付けられたと見なされます。R1.fastqとtrimmed_short_file。簡単にするために R2.fastq. 短読み取りファイルと長時間読み取りファイルを、Trimmed_Readsという名前の単一のディレクトリに整理します。ディレクトリには、次の情報が含まれている必要があります。 トリムされた長い読み取り用の .fastq.gz ファイル (ステップ 7.2.6 で生成されます)。 2 つの .fastq ファイル (R1 と R2) をトリミングされた短い読み取り (ステップ 7.1.5 で生成されます)。 ターミナルで cd コマンドを使用して読み取りファイルを格納するディレクトリTrimmed_Readsに移動します: cd デスクトップ/Trimmed_Reads 正しいディレクトリに入ったら、2 つの短い読み取りファイルを zip して 、.fastq.gz 形式で次のコマンドを実行して 、gzip trimmed_short_fileを実行します。R1.ファストク R1 と R2 の両方について、ステップ 8.2 を繰り返します。すべての読み取りファイルが .fastq.gz 形式になっていることを確認し、すべてのファイルが同じ分離ファイルと一致することを確認します。 次のコマンドを実行して、ユニサイクラーを使用してハイブリッド アセンブリを開始します。一輪車 -1 trimmed_short_file。R1.fastq.gz -2 trimmed_short_file。R2.fastq.gz -l NB01 _trimmed.fastq.gz -o unicycler_output_directory注: -o は、ユニサイクラー出力が保存されるディレクトリを指定します。事前にディレクトリを生成しないでください。実行時間は、使用するコンピュータの計算能力と、ゲノムサイズと読み取り数によって異なります。これは4時間から1日または2日の間どこでもかかるかもしれません。このプロトコルは、250 Gb RAM、インテル Xeon (R) CPU 2.5 GHz 12 実用的コアと 48 仮想コアを搭載した CentOS Linux 7 マシンで実行されました。また、16 Gb RAM と 2.6 GHz 6 コア プロセッサを搭載したパーソナル コンピュータは、より長い処理時間でこれらのアセンブリを計算できます。 実行が完了したら、一輪.logファイルを確認してエラーがないことを確認します – 生成されたコンティグの数、サイズ、ステータス(完全、不完全)を記録します。 不完全なコンティグが識別された場合 (ユニサイクラーログで不完全と表示される)、ステップ 8.4: –mode 太字のコマンドに次のフラグを追加して、Unicycler を太字モードで再実行します。注: 太字モードでは、アセンブリ中に長い読み取りブリッジに許容される品質しきい値が下がります。これにより、完全なアセンブリが生成される可能性がありますが、アセンブリの品質が低下する可能性があります。必要な場合にのみ、および後で PCR で確認されるコンティグ結合の予備の証拠として、太字モードを使用することをお勧めします。 9. 組み立て品質の評価 メモ:次のプロトコルは、Bandage31と QUAST32を使用する前にセットアップする必要がある 2 つのプログラムを使用します(図 2および図4)。包帯は一度ダウンロードしたインストールを必要とせず、QUASTは基本的なコマンドラインの使用法に精通している必要があります。また、ベンチマークユニバーサルシングルコピーオルソログ(BUSCO)33を使用してゲノムの完全性を評価することをお勧めします。 包帯:ファイルをクリックします。次に、[グラフをロード]を選択し、ステップ8.4でユニサイクラーによって生成されたunicycler_output_directoryに保存されたassembly.gfaファイルを選択します。ロードしたら、左側のツールバーの[グラフの描画]ボタンをクリックし、コンティグ(ノードと呼ばれる)がどのように接続され、アセンブリが完成しているかを評価するために編成されている様子を確認します(図 5)。注: 完全なアセンブリは、両端にリンクされた単一の循環コンティグで表されます(図5A、B)。不完全なアセンブリには、複数のコンティグがリンクされているか、線形である (図 5C)。小さい線形共流は、線形染色体外要素を示す可能性があるため、不完全でない場合があります。また、深さと呼ばれるカバレッジは包帯で注目され、11cyclerで1xに正規化された染色体に対するコンティグの相対的な豊富さを表します。 クアスト ターミナル内で、cdコマンドを使用してユニサイクラー出力を保存するフォルダに移動 unicycler_output_directory Trimmed_Readsします。注: アセンブリが配置されているパスにスペースを入れることができない、つまり、ユニサイクラー出力に通じるディレクトリは、名前にスペースを含めることはできません。または、簡単にアクセスするために、assembly.fasta ファイルをデスクトップにコピーします。 次のコマンドを実行して QUAST を実行quast_output_directoryします。 出力ディレクトリquast_output_directoryで、QUAST によって生成されたレポートを確認します。 10. ゲノムアノテーション 注: 以下のアノテーション パイプラインでは、使用前にインストールする必要があるコマンド ライン ツール Prokka34を使用しています。あるいは、自動化されたGUI K-Base(材料表)を介してProkkaを使用するか、WebサーバーRAST35を介してゲノムにアナプターを付ける。NCBIにゲノムを堆積させる場合、原核生物ゲノムアノテーションパイプライン(PGAP)36を使用して自動的に注釈が付けられます。 ターミナル内で、cdコマンドを使用してユニサイクラー出力を保存するフォルダに移動します(ステップ 9.2.1 を参照)。次に、prokka –プレフィックスsample_ID –outdir prokka_output_directory assembly.fasta コマンドを実行してProkkaを実行します。注: –prefix は指定されたsample_IDに基づいてすべての出力ファイルに名前を付けます。Prokka の出力ディレクトリは事前に作成しないでください。 注釈を確認するには、.tsvテーブルを開くか、生成された.gffファイルをシーケンス分析ソフトウェアにアップロードして、注釈を視覚化して分析します (図 6)。 特定のタイプの注釈は、関心のある遺伝的要因に応じて生成される可能性があります。予備分析37、38 、39、40、41の予備分析のためのゲノム疫学 (www.genomicepidemiology.org/) Web サーバーのユーザー フレンドリー ツールから始めることをお勧めします。CRISPR-casシステムおよびプロファージの検出のための追加ツールが利用可能です (図 3)42,43. 11. データの民主化に関する推奨慣行 可能であれば、生の読み取りデータと組み立てられたゲノムを、NCBIシーケンス読み取りアーカイブ(SRA)やGenbankなどのパブリックリポジトリに保存します。NCBI堆積プロセス中に、ゲノムはPGAPパイプラインを介して自動的にアセプトされます。

Representative Results

このプロトコルは、 図 1に示す属に属する尿細菌の培養とシーケンシングに最適化されています。すべての尿細菌がこの方法でカルト的であるとはいえない。カルチャ メディアと条件は、 図 1の属によって指定されます。gDNA完全性の例示的なゲル電気泳動評価を 図2に示す。読み取り処理、ゲノムアセンブリ、および注釈のシーケンス処理のためのバイオインフォマティクス パイプラインの概要を 図 3に説明します。 図 4 に、プロトコルの理解を簡略化し、組織を成功させるためのフレームワークを提供するための、計算ディレクトリ構造のガイドが提供されています。さらに、このプロトコルによって生成された2つのクレブシエラ spp.、K.肺炎 および K.オキシトカの代表的な完全なゲノムが含まれています。これらのアセンブリの表現は 図5 に示されており、さらに不完全な例 である肺炎のゲノムを 含んでいる。完全にアコードされた各完全なゲノムの詳細な概要を 図 6に示します。最後に、読み取り統計量のシーケンシングの概要を表 1 に示し、高品質の閉じたゲノムアセンブリの生成に十分な生データとトリミングされたデータを広く理解する。さらに、2つの代表の主要パラメータはクレブシエラ sppを完了します。ゲノムがリストされています。ゲノムおよび生データは、バイオプロジェクトPRJNA683049の下でジェンバンクに堆積した。 図1:多様な尿属の尿培養を改良した。多様な尿中属を培養するために使用することができる寒天および液体のスープのための図表。全ての培養は、サブセクション1.1に記載されているように35°Cで行われることが示唆される。円は特定の属を培養するのに適したメディアを表し、色は、あるメディアタイプを別の種類と区別するために任意に選択した。CDC-AN BAP(赤)、CDCアエロベヒツヒドブラッド寒天;5%羊BAP(オレンジ)、羊の血寒天;BHI (緑), 脳の心臓の注入;TSB(黄色)、トリプティック大豆ブロス;クロマガーオリエンテーション(青)。Gardnerella膣は、HBT二層G膣上で培養されるべきである微好気球雰囲気の選択的寒天および特別なスープ培養要件44の下で。 b乳酸菌イナーは、ミクロ好気性雰囲気の中で5%のウサギ-BAPプレートとNYCIIIスープで培養する必要があります。c乳酸菌 spp.ミクロ好気条件でMRS上で培養されてもよい。この図の大きなバージョンを表示するには、ここをクリックしてください。 図2:ゲノムDNA抽出アガロースゲル画像 gDNA抽出結果を描写した代表的なゲル画像。(A)レーン 1: 1 kb ラダー, レーン 2: 抽出に成功したことを表す無傷の gDNA, レーン 3: 断片化された gDNA を示す塗りつぶし.(B) レーン 1: 1 kb ラダー、レーン 2 & 3: 1.5 kb と 3 kb の間の 2 つのバンドで示される rRNA 汚染。 この図の大きなバージョンを表示するには、ここをクリックしてください。 図3:ハイブリッドゲノム組み立てワークフロー 読み取り品質管理と前処理からアセンブリアノテーションまでの手順の概略図。読み取りトリミングは、あいまいで低品質の読み取りを削除します。Q スコアおよび長さのパラメーターが示され、保持される読み取りを表します。アセンブリは、ハイブリッド デノボ ゲノムアセンブリを生成するために、短い読み取りと長い読み取りの両方を利用します。アセンブリの品質は、指定されたツールとパラメータを使用して完全性と正確性に基づいて評価されます。最終的なゲノムアセンブリは、すべての遺伝子および関心のある特定の遺伝子についてアナンスされる。 この図の大きなバージョンを表示するには、ここをクリックしてください。 図4:バイオインフォマティクスのディレクトリ構造ガイド 短い読み取りと長い読み取り、ハイブリッド アセンブリ、およびゲノム注釈と QC の処理に推奨されるディレクトリとファイルの編成の概略図。主要なコマンド行データ処理ステップは、対応するファイルとディレクトリの横に強調表示されます。コマンドとフラグ (太字)、入力ファイル (青)、出力ファイルまたはディレクトリ (赤)、ファイル命名規則 (magenta) などのユーザー入力)。 この図の大きなバージョンを表示するには、ここをクリックしてください。 図5:包帯によるゲノムアセンブリグラフ 代表の完全なゲノム組み立てグラフ (A) クレブシエラオキシトカ KoPF10 および (B) クレブシエラ肺炎の KpPF25および不完全なゲノムアセンブリ (C) クレブシエラ 肺炎の KpPF46.KoPF10の完全なゲノムは単一の閉じた染色体を示し、KpPF25の完全なゲノムは閉じた染色体と5つの閉じたプラスミドから成る。KpPF46の不完全な染色体は、2つの相互接続されたコンティグで構成されています。一輪車ハイブリッド デノボ アセンブリは、包帯によって視覚化されたアセンブリグラフを生成します。アセンブリグラフは、ゲノムの単純な概略を提供し、単一のコンティグの両端を接続するリンカーによって閉じた染色体またはプラスミドを示す。複数の相互接続されたコンティグが存在する場合、不完全なアセンブリが示されます。コンティグのサイズと深さは、包帯にも注意することができます。 この図の大きなバージョンを表示するには、ここをクリックしてください。 図6:アナンスハイブリッドアセンブリの完全なゲノムマップGeneious Primeが(A)の完全なゲノムのために生成したアセンブリマップ(A)K.オキシトカKoPF10および(B)肺炎のKpPF25は、プラスミドの骨格に沿って色付きの矢印で示されるアノメーションされた遺伝子を示す。染色体は、単純性のためにrRNAおよびtRNA遺伝子のみを示す。ゲノム注釈は、本プロトコルの第10項に示すようにProkkaを用いて行った。この図の大きなバージョンを表示するには、ここをクリックしてください。 表1: 代表クレブシエラspp. 完全なアセンブリ特性.K. オキシトカ株KoPF10およびK.肺炎株KpPF25.NCBI上の堆積データの加盟番号のアセンブリパラメータが提供される。トリミング前とトリミング後の両方の読み取り数は、両方のシーケンステクノロジに指定されます。N50 は、短い読み取りが制御された長さであるため、長い読み取り専用です。プラスミド・レプレコンは、プラスミドファインダー v2.1 エンテオエバクテリア科データベースを使用して、80%の同一性と60%の長さに設定されたパラメータを使用して予測しました。MLST、マルチローカスシーケンスタイプ。b CDS、コーディングシーケンス。プラスミド・レプレコンは、プラスミドファインダー v2.1腸内細菌科データベースを使用して、80%の同一性と60%の長さに設定されたパラメータを使用して予測しました。dオックスフォードナノポアテクノロジーズ(ONT)は読み取りデータを預けた。eイルミナは読み取りデータを預けました。このテーブルをダウンロードするには、ここをクリックしてください。

Discussion

ここで説明する包括的なハイブリッドゲノムアセンブリプロトコルは、多様な尿中微生物叢および泌尿器病者の培養を成功させ、そのゲノムの完全な組み立てのための合理化されたアプローチを提供する。細菌ゲノムの成功したWGSは、ゲノムDNAを抽出するために、多様で時には潔癖性の微生物の単離から始まります。現在までに、既存の尿培養プロトコルは、多くの尿種を検出するために必要な感受性を欠いているか、または長時間および資源11を必要とする長く広範なアプローチを伴う。記載されている改変性尿培養アプローチは、潜在的に病原性または有益なコメンス種を含む17の一般的な尿属に属する細菌の正常な単離のための簡素化された包括的なプロトコルを提供し、両方の好気性または嫌気性細菌を含む。これは、細菌ゲノムの正確なシーケンシングと組み立て、および尿の健康と病気の理解に貢献する重要な石体実験に必要な出発物質を提供します。さらに、この修飾された培養アプローチは、尿検体に含まれる生存微生物のより明確な臨床診断を提供し、将来のゲノム研究のためにバイオバンキングを可能にする。ただし、このプロトコルは制限がないわけではありません。生物によっては長いインキュベーション時間が必要な場合があり、低酸素室や制御インキュベーターなどのリソースを使用する必要があり、容易に入手できない場合があります。嫌気性のGasPaksの使用は代替の解決を提供するが、これらは高価であり、常に持続的で制御された環境を作り出さない。最後に、培養バイアスとサンプルの多様性は、特定の生物や泌尿器病原体が潔癖性細菌を上回ることを可能にする可能性があります。これらの制限にもかかわらず、多様な尿細菌の培養はこのアプローチによって可能になります。

ゲノムシーケンシングは、シーケンシングデータ14,15の歩留まりと精度の両方を飛躍的に向上させた次世代シーケンシング技術の進歩に伴って人気を集めています。データ処理とデノボアセンブリのためのアルゴリズムの開発と相まって、完全なゲノム配列は、初心者や専門家の科学者の指先にある15、45。完全なゲノムによって提供される全体的なゲノム組織の知識は、遺伝子の重複、遺伝子喪失、および水平遺伝子導入14を含む重要な進化的および生物学的洞察を提供する。さらに、抗菌性および毒性に重要な遺伝子は、しばしば移動要素に局在し、一般に、ゲノムドラフトアセンブリ15,16では解決されない。

本明細書のプロトコルは、完全なゲノムアセンブリを生成するための短読み取りおよび長期読み取りプラットフォームからのシーケンシングデータの組み合わせのためのハイブリッドアプローチに従う。尿細菌ゲノムに焦点を当てる一方で、この手順は、様々な分離源からの多様な細菌に適応することができる。このアプローチの重要なステップは、適切な滅菌技術に従い、純粋な尿細菌の単離のための適切な培地および培養条件を利用することを含む。さらに、無傷で高収率のgDNAの抽出は、組み立て成功を妨げる可能性のある汚染読み取りを含まないシーケンシングデータを生成するために不可欠です。その後のライブラリ準備プロトコルは、十分な長さと深さの品質読み取りの生成に不可欠です。したがって、この技術の最大の利点は理論的な上限制限のない長い読み取りの生成であるため、特に、長期読み取りシーケンシングのためのライブラリの準備中にgDNAを注意して扱うことは非常に重要です。また、騒がしいデータを排除し、アセンブリの結果を改善するシーケンシング読み取りの適切な品質管理(QC)のセクションも概説されています。

DNAの分離、ライブラリーの調製、およびシーケンシングが成功したにもかかわらず、いくつかの種のゲノムアーキテクチャの性質は、依然として閉じたゲノムアセンブリ45,46の生成に障害を与える可能性がある。繰り返しシーケンスはアセンブリの計算を複雑にする場合が多く、長い読み取りデータにもかかわらず、これらの領域は信頼度が低い場合やまったく解決されない場合があります。したがって、長い読み取りは、ゲノムまたはカバレッジの最大のリピート領域よりも平均して長くなければなりません(>100x)19 。不完全なままで、完成するために手作業でアプローチが必要なゲノムもあります。それにもかかわらず、ハイブリッド組み立てられた不完全なゲノムは、通常、短読のドラフトゲノムよりも少ないコンティグで構成される。アセンブリアルゴリズムのデフォルトパラメータを調整するか、読み取りQCのより厳しいカットオフに従うと役立つ場合があります。あるいは、推奨されるアプローチとして、最も可能性の高いアセンブリパスの証拠を求めて、長い読み取りを不完全な領域にマッピングし、増幅領域のPCRおよびサンガーシーケンシングを利用したパスを確認する方法があります。Minimap2を使用した読み取りのマッピングが推奨され、包帯は、コンティグリンケージ47の証拠を提供する組み立てられたコンティグに沿ってマッピングされた読み取りを視覚化するための便利なツールを提供します。

完全なゲノムを生成するための追加の課題は、コマンドラインツールを使った親しみやすさと快適さにあります。多くのバイオインフォマティクスツールは、あらゆるユーザーに計算の機会を提供するために開発されています。ただし、UNIX とプログラミングの基本を理解する必要があります。このプロトコルは、以前のコマンドライン経験のない個人が閉じたゲノムアセンブリを生成し、それらにアコージンを付けるための十分に詳細な指示を提供することを目的としています。

Disclosures

The authors have nothing to disclose.

Acknowledgements

ムウテ・ジュバイダ・イスラム博士とルーク・ジョイス博士がこの議定書に貢献してくれたことに感謝します。また、テキサス大学ダラスゲノムセンターのフィードバックとサポートを認めたいと思います。この作品は、ウェルチ財団、N.J.D.への賞番号AT-2030-20200401、国立衛生研究所、K.P.への賞番号R01AI116610、フェレシアとジョン・ケイン女性の健康の議長によって資金提供されました。

Materials

Equipment:
Bioanalyzer 2100 Agilent G29398A Optional but recommended
Centrifuge Eppendorf Any centrifuge for spinning conicals and microcentrifuge tubes (e.g. Models 5810R/5424R)
Electrophoresis BioRad Laboratories 1645070
Gel Imaging System BioRad Laboratories ChemiDoc models
Incubator ThermoFisher Scientific Any CO2 Incubator (e.g. Thermo Forma model 3110)
Magnetic Rack New England BioLabs S15095 12-tube rack
MinION Oxford Nanopore Technologies
Nanodrop ThermoFisher Scientific ND-ONE-W
NextSeq 500 Illumina SY-415-1002 Other Illumina models are acceptable
Plate Reader BioTek Synergy H1
Qubit fluorometer ThermoFisher Scientific Q33238
Rotator Benchmark Scientific H2024
Thermocycler ThermoFisher Scientific Any thermocycler for PCR reactions (e.g. ProFlex PCR system)
Materials:
10X Phosphate Buffered Saline (PBS) Fisher Scientific BP3991
10X TBE buffer 1M Tris,1M Boric Acid,0.2M EDTA (pH 8.0)
1429R primer Sigma Aldrich (Custom oligos) GGTTACCTTGTTACGACTT
1kb Ladder VWR 101228-494
1M Tris-Cl (pH 7.5) ThermoFisher Scientific 15567027
6x Loading dye Fisher Scientific NC0783588
8F primer Sigma Aldrich (Custom oligos) AGAGTTTGATCCTGGCTCAG
Agar Fisher Scientific BP1423-2
Agarose BioRad Laboratories 63001
AMPure XP Beads Beckman Coulter A63880
Anaerobe Pouch System – GasPak EZ BD Diagnostic Systems B260683
Boric Acid Fisher Scientific A73-500
Brain Heart Infusion Broth BD Diagnostic Systems 212304
CDC Anaerobe 5% Sheep Blood Agar BD Diagnostic Systems L007357
CHROMagar Orientation BD Diagnostic Systems PA-257481.04
DNeasy Blood & Tissue QIAGEN 69504
DreamTaq Master Mix ThermoFisher Scientific K1081
Dry Anaerobic Indicator Strips BD Diagnostic Systems 271051
EDTA Fisher Scientific S311-500
Ethanol 200 Proof Sigma Aldrich E7023 For molecular biology
Ethidium Bromide ThermoFisher Scientific BP130210
Flow cell priming kit Oxford Nanopore Technologies EXP-FLP002
Flow cell wash kit Oxford Nanopore Technologies EXP-WSH003
Gel Extraction Miniprep Kit BioBasic BS654
Ligation sequencing kit Oxford Nanopore Technologies SQK-LSK109
Lysozyme Research Products International Corp L381005.05
Mutanolysin Sigma Aldrich M9901-5KU
Native barcoding expansion 1-12 Oxford Nanopore Technologies EXP-NBD104
NEB Blunt/TA Ligase Master Mix New England BioLabs M0367L
NEBNext FFPE DNA Repair Mix New England BioLabs M6630L
NEBNext quick ligation buffer New England BioLabs B6058S
NEBNext Ultra II End repair / dA-tailing module New England BioLabs E7546L
Nextera DNA CD Indexes Illumina 20018708
Nextera DNA Flex Library Prep – (M) Tagmentation Illumina 20018705
Nuclease-free water Sigma Aldrich W4502
Qubit 1X dsDNA HS Assay Kit ThermoFisher Scientific Q33230
Qubit Assay Tubes ThermoFisher Scientific Q32856
Quick T4 DNA Ligase New England BioLabs E6056L
R9 Flow cell Oxford Nanopore Technologies FLO-MIN106D
RNase A ThermoFisher Scientific EN0531
Sheep Blood Hemostat Laboratories DS13250
TE buffer 10mM Tris, 1mM EDTA (pH 8.0)
Triton X-100 Sigma Aldrich T8787
Tryptic Soy Broth BD Diagnostic Systems 211825
Software & Bioinformatic Tools:
Bandage https://rrwick.github.io/Bandage/
Center for Genomic Epidemiology http://www.genomicepidemiology.org/
CLC Genomics Workbench 12 QIAGEN
CRISPRcasFinder https://crisprcas.i2bc.paris-saclay.fr/
FastQC https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Geneious Prime Geneious
gVolante (BUSCO) https://gvolante.riken.jp/
Kbase Prokka Wrapper https://kbase.us/applist/apps/ProkkaAnnotation/annotate_contigs/release
Minimap2 https://github.com/lh3/minimap2
MinKNOW Oxford Nanopore Technologies
NanoFilt https://github.com/wdecoster/nanofilt
NanoStat https://github.com/wdecoster/nanostat
PHASTER https://phaster.ca/
Prokka https://github.com/tseemann/prokka
QUAST http://quast.sourceforge.net/quast
Trim Galore https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
Trimmomatic http://www.usadellab.org/cms/?page=trimmomatic
Unicycler https://github.com/rrwick/Unicycler#necessary-read-length

References

  1. Brubaker, L., Wolfe, A. The urinary microbiota: a paradigm shift for bladder disorders. Current Opinion in Obstetrics & Gynecology. 28 (5), 407-412 (2016).
  2. Neugent, M. L., Hulyalkar, N. V., Nguyen, V. H., Zimmern, P. E., De Nisco, N. J. Advances in understanding the human urinary microbiome and its potential role in urinary tract infection. mBio. 11 (2), (2020).
  3. Klein, R. D., Hultgren, S. J. Urinary tract infections: microbial pathogenesis, host-pathogen interactions and new treatment strategies. Nature Reviews. Microbiology. 18 (4), 211-226 (2020).
  4. Horsley, H., et al. Enterococcus faecalis subverts and invades the host urothelium in patients with chronic urinary tract infection. PLoS One. 8 (12), 83637 (2013).
  5. Reitzer, L., Zimmern, P. Rapid growth and metabolism of uropathogenic Escherichia coli in relation to urine composition. Clinical Microbiology Reviews. 33 (1), 00101-00119 (2019).
  6. Snyder, J. A., et al. Transcriptome of uropathogenic Escherichia coli during urinary tract infection. Infection and Immunity. 72 (11), 6373-6381 (2004).
  7. Ipe, D. S., Horton, E., Ulett, G. C. The basics of bacteriuria: Strategies of microbes for persistence in urine. Frontiers in Cellular and Infection Microbiology. 6, 14 (2016).
  8. Babikir, I. H., et al. The impact of cathelicidin, the human antimicrobial peptide LL-37 in urinary tract infections. BMC Infectious Diseases. 18 (1), 17 (2018).
  9. Jancel, T., Dudas, V. Management of uncomplicated urinary tract infections. The Western Journal of Medicine. 176 (1), 51-55 (2002).
  10. Ventola, C. L. The antibiotic resistance crisis: part 1: causes and threats. P & T. 40 (4), 277-283 (2015).
  11. Price, T. K., et al. The clinical urine culture: Enhanced techniques improve detection of clinically relevant microorganisms. Journal of Clinical Microbiology. 54 (5), 1216-1222 (2016).
  12. Kass, E. H. Asymptomatic infections of the urinary tract. Transactions of the Association of American Physicians. 69, 56-64 (1956).
  13. Garcia, L. S. . Clinical microbiology procedures handbook. 3rd edn. , (2010).
  14. Fraser, C. M., Eisen, J. A., Nelson, K. E., Paulsen, I. T., Salzberg, S. L. The value of complete microbial genome sequencing (you get what you pay for). Journal of Bacteriology. 184 (23), 6403-6405 (2002).
  15. Chen, Z., Erickson, D. L., Meng, J. Benchmarking hybrid assembly approaches for genomic analyses of bacterial pathogens using Illumina and Oxford Nanopore sequencing. BMC Genomics. 21 (1), 631 (2020).
  16. Greig, D. R., Dallman, T. J., Hopkins, K. L., Jenkins, C. MinION nanopore sequencing identifies the position and structure of bacterial antibiotic resistance determinants in a multidrug-resistant strain of enteroaggregative Escherichia coli. Microbial Genomics. 4 (10), 000213 (2018).
  17. Carraro, D. M., et al. PCR-assisted contig extension: stepwise strategy for bacterial genome closure. Biotechniques. 34 (3), 626-628 (2003).
  18. Tettelin, H., Radune, D., Kasif, S., Khouri, H., Salzberg, S. L. Optimized multiplex PCR: efficiently closing a whole-genome shotgun sequencing project. Genomics. 62 (3), 500-507 (1999).
  19. Wick, R. R., Judd, L. M., Gorrie, C. L., Holt, K. E. Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads. PLoS Computational Biology. 13 (6), 1005595 (2017).
  20. Singhal, N., Kumar, M., Kanaujia, P. K., Virdi, J. S. MALDI-TOF mass spectrometry: an emerging technology for microbial identification and diagnosis. Frontiers in Microbiology. 6, 791 (2015).
  21. Turner, S., Pryer, K. M., Miao, V. P., Palmer, J. D. Investigating deep phylogenetic relationships among cyanobacteria and plastids by small subunit rRNA sequence analysis. The Journal of Eukaryotic Microbiology. 46 (4), 327-338 (1999).
  22. Weisburg, W. G., Barns, S. M., Pelletier, D. A., Lane, D. J. 16S ribosomal DNA amplification for phylogenetic study. Journal of Bacteriology. 173 (2), 697-703 (1991).
  23. Janda, J. M., Abbott, S. L. 16S rRNA gene sequencing for bacterial identification in the diagnostic laboratory: pluses, perils, and pitfalls. Journal of Clinical Microbiology. 45 (9), 2761-2764 (2007).
  24. Stevenson, K., McVey, A. F., Clark, I. B. N., Swain, P. S., Pilizota, T. General calibration of microbial growth in microplate readers. Science Reports. 6, 38828 (2016).
  25. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  26. De Coster, W., D’Hert, S., Schultz, D. T., Cruts, M., Van Broeckhoven, C. NanoPack: visualizing and processing long-read sequencing data. Bioinformatics. 34 (15), 2666-2669 (2018).
  27. Wilson, G., et al. The UNIX Shell. Zenodo. , (2019).
  28. Bankevich, A., et al. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal of Computational Biology. 19 (5), 455-477 (2012).
  29. Vaser, R., Sovic, I., Nagarajan, N., Sikic, M. Fast and accurate de novo genome assembly from long uncorrected reads. Genome Research. 27 (5), 737-746 (2017).
  30. Walker, B. J., et al. Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement. PLoS One. 9 (11), 112963 (2014).
  31. Wick, R. R., Schultz, M. B., Zobel, J., Holt, K. E. Bandage: interactive visualization of de novo genome assemblies. Bioinformatics. 31 (20), 3350-3352 (2015).
  32. Gurevich, A., Saveliev, V., Vyahhi, N., Tesler, G. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 29 (8), 1072-1075 (2013).
  33. Simao, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. 31 (19), 3210-3212 (2015).
  34. Seemann, T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 30 (14), 2068-2069 (2014).
  35. Aziz, R. K., et al. The RAST server: rapid annotations using subsystems technology. BMC Genomics. 9, 75 (2008).
  36. Tatusova, T., et al. NCBI prokaryotic genome annotation pipeline. Nucleic Acids Research. 44 (14), 6614-6624 (2016).
  37. Carattoli, A., Hasman, H. PlasmidFinder and In Silico pMLST: Identification and Typing of Plasmid Replicons in Whole-Genome Sequencing (WGS). Methods in Molecular Biology. 2075, 285-294 (2020).
  38. Carattoli, A., et al. In silico detection and typing of plasmids using PlasmidFinder and plasmid multilocus sequence typing. Antimicrobial Agents and Chemotherapy. 58 (7), 3895-3903 (2014).
  39. Larsen, M. V., et al. Multilocus sequence typing of total-genome-sequenced bacteria. Journal of Clinical Microbiology. 50 (4), 1355-1361 (2012).
  40. Bortolaia, V., et al. ResFinder 4.0 for predictions of phenotypes from genotypes. The Journal of Antimicrobial Chemotherapy. 75 (12), 3491-3500 (2020).
  41. Joensen, K. G., et al. Real-time whole-genome sequencing for routine typing, surveillance, and outbreak detection of verotoxigenic Escherichia coli. Journal of Clinical Microbiology. 52 (5), 1501-1510 (2014).
  42. Arndt, D., et al. PHASTER: a better, faster version of the PHAST phage search tool. Nucleic Acids Research. 44 (1), 16-21 (2016).
  43. Couvin, D., et al. CRISPRCasFinder, an update of CRISRFinder, includes a portable version, enhanced performance and integrates search for Cas proteins. Nucleic Acids Research. 46 (1), 246-251 (2018).
  44. Totten, P. A., Amsel, R., Hale, J., Piot, P., Holmes, K. K. Selective differential human blood bilayer media for isolation of Gardnerella (Haemophilus) vaginalis. Journal of Clinical Microbiology. 15 (1), 141-147 (1982).
  45. Nagarajan, N., Pop, M. Sequence assembly demystified. Nat Reviews. Genetics. 14 (3), 157-167 (2013).
  46. Phillippy, A. M., Schatz, M. C., Pop, M. Genome assembly forensics: finding the elusive mis-assembly. Genome Biology. 9 (3), 55 (2008).
  47. . Unicycler Wiki Available from: https://github.com/rrwick/Unicycler/wiki (2017)

Play Video

Cite This Article
Sharon, B. M., Hulyalkar, N. V., Nguyen, V. H., Zimmern, P. E., Palmer, K. L., De Nisco, N. J. Hybrid De Novo Genome Assembly for the Generation of Complete Genomes of Urinary Bacteria using Short- and Long-read Sequencing Technologies. J. Vis. Exp. (174), e62872, doi:10.3791/62872 (2021).

View Video