Biology

SPLINTERを使用してプールされたシーケンスからレアゲノム変異の検出

Published: June 23, 2012 doi: 10.3791/3943

Francesco Vallania¹, Enrique Ramos¹, Sharon Cresci², Robi D. Mitra¹, Todd E. Druley^1,3

¹Center for Genome Sciences and Systems Biology, Department of Genetics, Washington University School of Medicine, ²Department of Internal Medicine, Washington University School of Medicine, ³Department of Pediatrics, Washington University School of Medicine

Summary

プールされたDNAシーケンシングは、大規模コホートで複雑な表現型に関連付けられている稀な亜種を検出するための迅速かつ費用対効果の高い戦略である。ここでは、スプリンターソフトウェアパッケージを使用して、32のがん関連遺伝子のプールされた、次世代シーケンシングの計算分析を記述します。このメソッドは、スケーラブルで、目的の任意の表現型にも適用可能である。

Abstract

DNAシーケンシング技術は著しく、近年²に進んでいるとして、それは任意の2つの個体間の遺伝的変異の量が以前に^3を考えられていたよりも大きいことがますます明らかになった。対照的に、アレイ·ベースのタイピングは^4,5共通の疾患の表現型の変動に共通の配列変異体の重要な貢献を識別するために失敗しました。まとめると、これらの観察は、一般的な、複雑な表現型の"失われた遺伝"の大半は、代わりに稀なまたはプライベートDNA変異体の個々の個人プロファイル^6-8によるものであることを示唆している一般的な病気/まれな変異仮説の進化につながっている。しかし、まれな変異は、複雑な表現型をどのように影響するかを特徴付けることは、多くの遺伝子座で多くの影響を受ける個人の分析を必要とし、理想的に影響を受けないコホートで同様の調査と比較されます。今日のプラットフォームによって提供される電源シーケンシングにもかかわらず、多くの遺伝子座、必要に応じ、その後の計算機解析の人口ベースの調査では、多くの研究者のために法外なままである。

このニーズに応えるために、我々は、プールされたシーケンシングアプローチ^1,9、得られたデータから高精度のまれな変異検出のための新しいソフトウェアパッケージ^1を開発^しました。影響を受ける個人や調査、単一のシーケンスのライブラリ内の複数の対象地域における遺伝的変異の程度の全体の集団からプールのゲノムへの能力は、従来の単一サンプルのシーケンシング手法に優れたコストと時間の節約を提供しています。 25倍の対立遺伝子あたりの平均シーケンスカバレッジで、我々のカスタムアルゴリズム、スプリンターは、最大のプールから1までの高感度と特異性で長さの4つの塩基対に挿入、欠失および置換を呼び出すために内部バリアントの呼び出し制御方式を使用しています500人の変異対立遺伝子。ここでは、プールされたのを調製するための方法を説明しますプールされたシーケンシングの解析（詳細はスプリンターパッケージを使用する方法についてステップバイステップの手順に続いて、ライブラリをequencing http://www.ibridgenetwork.org/wustl/splinter ）。また、一人当たりのシーケンスの20キロバイト以上でゲノムワイドアレイを受けたすべての人の947人のプールされたシーケンスとの比較を示しています。タグ付きのタイピングとプールしたサンプルで呼び出され、新規の変異体との間の一致は良好であった。このメソッドは、容易にゲノム遺伝子座と個人の任意の数の任意の数にスケールアップすることができます。検討されて人口を模倣比で内部の正と負のアンプリコンのコントロールを組み込むことによって、アルゴリズムは、最適なパフォーマンスを得るために校正することができます。この戦略はまた、ハイブリダイゼーションのキャプチャまたは個々の固有のバーコードで使用するために変更することができ、例えば、腫瘍DNAなどの自然に異種のサンプルのシーケンスに適用することができます。

Protocol

このメソッドは、Vallania FML らゲノム研究、2010年に報告された研究で使用されています。

1。サンプルプーリングと標的遺伝子座のPCRキャプチャ

あなたのプール（s）の各個体からゲノムDNAの正規化された量を兼ね備えています。 PCR反応の一人当たりDNA 0.3 ngを使用して、プール内の対立遺伝子ごとに均一な増幅の可能性を向上させ、それぞれのPCR反応に一人当たり約50倍のゲノムを組み込む予定。
ゲノム配列は、NCBI（から入手できますhttp://www.ncbi.nlm.nih.gov/ ）またはUCSCゲノムブラウザ（ http://genome.ucsc.edu/index.html ）。 使用していることを確認し反復領域のプライマーを設計避けるために、シーケンスを取得する"RepeatMasker"（ "N"にマークされている）。
WebベースのPrimer3のを使用します（rimer3/input.htm "ターゲット=" _blank "> http://frodo.wi.mit.edu/primer3/input.htm）ユーティリティの関心に加えていくつかの隣接配列のゲノム領域をカットアンドペーストしてプライマーを設計する（のアンプリコン600-2000 bp）は一般的に理想的ですが使用するプライマー3の最適なプライマー設計の条件は¹⁰です：最小プライマーのサイズ= 19;最適なプライマーのサイズ= 25;最大プライマーのサイズ= 30、最小のTm = 64℃、最適のTm。 = 70°C、最大のTm = 74℃、最大のTmの差= 5°C、最小GC含量= 45、最大のGC含量= 80、（これは任意です）= 20を返すための番号。最大3 '末端の安定性= 100関心のあるすべての遺伝子座を増幅する。デザインプライマーのプライマーを受信するには、凍結乾燥した株はDDHの追加10：01希釈し、続いて100μMの最終濃度を10 mMトリス、pH 7.5 + 0.1mMのEDTAで希釈することができる₂ Oは10 uMの。
PCR増幅：我々は、高忠実度DNAポリメラーゼの使用は大きなゲノムを増幅することをお勧めします低エラーレート（10 ^-7）と平滑末端製品（これは下流のライゲーションのステップが必要である）の生成に起因するアンプリコン。我々はPfuUltraハイフィデリティを使用しているが、同様の特性（备考など）を有する酵素は、同等の結果を提供する必要があります。各PCR反応は、2.5 U PfuUltraハイフィデリティポリメラーゼの最終濃度は、1 Mのベタイン、400 nMの各プライマー、200μMのdNTP、1×PfuUltraバッファ（または≥2 mMのMgの^{2 +}の順序で酵素の忠実度を維持するために含有する緩衝液）が含まれています、50μLの最終容量でプールされたDNAの5から50 ngの。 1：以下のPCR条件を使用しています。 93から95℃で2分間、2。 30秒間93から95°C; 3。 30秒間58から60°C; 4。 65から70°のアンプリコンは500から1000塩基対/アンプリコン> 1キロバイトのための3-5分の250から500 BP / 1.5から3分のアンプリコンのために60〜90秒のC 5。繰り返し25から40サイクルの2-4を繰り返します6。 65°Cで10分間7。 4°Cホールド。必要に応じて、PCRの結果は一般的に向上させることができます：1）小さなアンプリコンのアニーリング温度を下げること、2）大規模なアンプリコンのためのアニーリング温度を上げる3。すべてのアンプリコンの拡張時間を長くする。
スプリンターコントロールの準備：すべてのスプリンター実験が陰性及び陽性対照の存在は、最適な精度を取得する必要があります。ネガティブコントロールは、以前（ハップマップのサンプルなど）が配列決定された任意の個々の、バーコード、サンプル中のすべてのホモ接合体のベースの位置で構成することができます。ポジティブコントロールは、2つ以上のそのようなサンプルの混合物から成るでしょう。このレポートでは、ネガティブコントロールでは、M13mp18 ssDNAのベクトルのバックボーンから1934 bpの増幅領域です。 PCR産物は配列変異は、ソースの材料またはPCR増幅から存在しないことを確認するために前にその使用にサンガー配列決定した。ポジティブコントロールは、特定の挿入、欠失、substitと設計挿入クローン化された72 bpのをpGEM-Tイージーベクターのパネルで構成されていますutions（ 表1）。我々は、モル比で、野生型の背景に一緒にベクトルを混在させる変異は、プール内の単一の対立遺伝子（すなわち、100対立遺伝子プールに対して、単一の対立遺伝子の頻度は1％になります）の周波数で存在しているような。その後、PCRは、最終的な355bp長いPCR産物を生成し、をpGEM-TイージーでM13 PUCプライマー部位を用いて混合するコントロールテンプレートを増幅する。

2。プールされたPCRライブラリーの作製とシーケンシング

PCR産物のプーリング：各PCR産物は、過剰なプライマーをクリーンアップする必要があります。我々は、大規模なクリーンアップのための真空マニホールドでキアゲンをQIAquickカラム精製または96ウェルフィルタープレートを使用していました。精製後、各PCR産物は、標準的な技術を用いて定量化する必要があります。濃度でプールのように分子の数で規格化されたプールにすべてのPCR産物（コントロールを含む）を組み合わせて、小さなアンプリコンOVのoverrepresentationになりますERより大きい製品。濃度は、式を用いて体積あたりのDNA分子の絶対数に変換されます。（G /μL）×（1モルX BP / 660グラム）×（アンプリコンの1 /＃BP）×（6×10 ²³分子/ 1モル）=分子/μL。その後、プールにリコン当たりの分子の正規化数を必要とし、各反応からボリュームを決定します。この番号は、任意である調整することができ、本当に精度を維持するのに十分な大きさのボリュームをピペッティングによって異なります。我々は、通常、それぞれのアンプリコンの^1〜2×10 10分子のプール。
PCR産物のライゲーション：この手順では、小規模なPCRアンプリコンの超音波処理は、それらの端部に向かって表現をバイアスするので、均一なシーケンスカバレッジを達成する必要があります。これを克服するために、我々は、断片化の前に大規模なコンカテマー（> = 10 KB）にプールされたPCR産物をライゲーション。 PFUウルトラHFポリメラーゼは、効率的なライゲーション（Taqポリメラーゼベースのポリメラーゼはなりません3P "A"オーバーハングを追加します。につながる、平滑末端を生成する必要に応じて ）記入または鈍化前なしLLOWライゲーション。 この反応は2〜3倍にスケールアップすることができます 。ライゲーション反応は、50μLの最終容量にプールされたPCR産物の2μgに、10 U T4ポリヌクレオチドキナーゼ、200 U、T4リガーゼ、15％（w / v）のポリエチレン、1X T4リガーゼ緩衝液、グリコール8000 MWを含んでいます。反応は20分間65°Cに続いてと°C、その後4℃で開催された16時間22℃でインキュベートされています。このステップの成功は1％アガロースゲルにサンプルを50 ngをロードすることによって確認することができます。成功したライゲーションは、レーンの高い分子量のバンドが存在し（ 図2、レーン3参照）になります。
DNAが断片化：この時点では、PCR産物の大コンカテマー（> 10キロバイト）を持っている必要があります。我々は24サンプルDiagenodeの断片化の超音波を用いたランダム超音波戦略を持っている断片は25分でこれらのコンカテマー（40秒毎分/ 20秒 "オフ" "オン"）することができます。超音波は、そう、PEGによって導入された粘度によって阻害されるこれは、キアゲンPBバッファにサンプル10:1希釈することによって克服することができます。結果は、2％アガロースゲル（ 図2を参照して、レーン4＆5）で確認できます。
サンプルは、 "エンド修復"の手順で始まるイルミナゲノムライブラリーのサンプル調製プロトコルに直接組み込むことができるようになります。ここで報告されたデータは、シングルエンドからイルミナGenome AnalyzerのIIxは上の読み取りですが、我々はHiSeq 2000を使用し、単一またはペアエンドは同等の結果を読み込み、実行しました。作成したライブラリの規模を考えると、我々はまた、HiSeqプラットフォーム（データは示さず）によって供給される帯域幅に対応するために、多重化、複数のプールされたライブラリにするためのカスタムバーコードのアダプターを使用しています。製造元のプロトコールとキットに同梱されている推奨事項に従ってください。ために、対立遺伝子あたり25倍以上のターゲット範囲をバリアント検出のための最適な感度と特異度を達成する（ 図3）を推奨します。この推定値は、プールのサイズとは無関係ですとバリアントの型を検出することができます。必要に応じて複数のレーンとランは、十分なカバレッジを達成するために組み合わせることができます。

3。シーケンスは、アライメントと解析を読み込みます。

ファイルの圧縮とフォーマット：生シークエンスの読み取りファイルのいずれかスカーフ形式または圧縮に変換する必要があります。それは関連するすべての情報を失うことなく、その後の解析ステップの時間と空間を節約して圧縮はオプションです。これは、次のコマンドに含まれているスクリプトRAPGAP_read_compressor_v2.plを使用することによって達成されています。
./RAPGAP_read_compressor_v2.pl> [圧縮された読み込みファイル] [ファイルを読む]
承認された読み込みファイルの入力形式は、スカーフとFASTQ、gzipで圧縮または非圧縮のいずれかになります。
スカーフ形式の例：
HWI-EAS440：7:1:0:316＃0/1：NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC：DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
FASTQフォーマットの例：
@ HWI-EAS440_7_1_0_410＃0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
＆/ 8888888888888888888854588767777666！
生の読み込み整列：生読み取りは、現在のPCR反応と同様に、陽性および陰性コントロールに含まれている対象地域に固有の注釈付きのFASTA参照配列に整列させることができます。アライメントはRAPGAPHASH5d含ま整列ツールを使用して実行することができます。この時点では、入力フォーマットは、スカーフや圧縮である必要があります。整列のためのコマンドは次のとおりです。
./RAPGAPHASH5d [圧縮された読み込みファイル] [FASTAファイル] [数の編集を許可]> [ファイルの整列]
参照配列と比較して、許可されている読み取り当たりのミスマッチの数は、ユーザ定義のパラメータです。ミスマッチの過剰な数を持っている読み取りは破棄されます。我々は101 bpの読み込みのためにbpの読み取り76と5の不一致のために36 bpの読み取り、4つのミスマッチ2のミスマッチを可能にすることをお勧めします。それ以上のミスマッチを許可するほかにできるように過剰なシーケンシングエラーの可能性を増加させるignedデータ。リード長が長くなるし続けるにつれて、この値はさらに増加することができます。
同じフローセルからタギング整列ファイル：この時点で全体の整列ファイルの読み取りが同じフローセルから同じシーケンスの実行（すなわち、複数のレーンに属する読み取るファイルを識別するために、一意の識別子（ "タグ"）与えられるべきでは集約できます。と）は、単一のタグが与えられます。各マシンの実行は、タグを経由して特徴づけることができる固有のエラー·プロファイルを生成するためのタグが必要です。タグは、読み取りのセット（アンダースコア文字 "_"の構文解析の問題については、使用すべきではありません）を区別するために使用される文字の英数字文字列です。別のタグが異なるフローセルまたはマシンの実行で生成された整列読み取りファイルを使用する必要があります。タグは、次のコマンドに含まれてRAPGAP_alignment_tagger.plを使用して追加することができます。
。/ RAPGAP_alignment_tagger.pl [アラインファイル] [TAG]> [タグ付きファイルを整列]
このポイントの後、整列それぞれのタグがそれらを分けておきますので、複数の異なるフローセルで生成された同じライブラリからのファイルを一緒に組み合わせることができます。
誤差モデルの生成：前述したように、各マシンの実行は正確なバリアントを呼び出すために特徴付けする必要があるシーケンスエラーが発生した固有のプロファイルを生成します。各マシンの実行のためにこれらのエラーをモデル化するために、配列の変化を欠いていることが知られている内部統制のシーケンスは、プールされた各サンプルライブラリに含まれています。整列タグ付きファイルから、エラーのモデルファイルは、ネガティブコントロールのリファレンスシーケンスに含まれているツールEMGENERATOR4を使用して生成することができます。すべての負の制御シーケンスを使用するか、あるいは5 'および3'入力の中で最も塩基によって指定されたそれのサブセットのみ、することができます。ユニークな読み取りとpseudocounts常に使用する必要があります。
./EMGENERATOR4 [整列タグ付きファイル] [負の制御シーケンス] [出力ファイル名]の中で最も基地[5 '[3使用する負の制御のほとんどの基本]'を[含まれる固有の使用するネガティブコントロールにのみ読み込む？ = Y] [アライメントがカットを編集] [pseudocountsを入力します。？ = Y]
EMGENERATOR4ツールは、_0、_1や_2に続いて出力ファイル名をパラメータとして指定された3つのファイルを生成します。これらのファイルはそれぞれ0次、1次と2次誤差モデルに対応しています。SPLINTERで呼び出しバリアントでは、2次誤差モデルは、常に使用する必要があります。
実行時のエラー率プロファイルを可視化するため、error_model_tabler_v4.plは、0次のエラーモデルファイル（ 図4）上でPDFエラープロットを生成するために使用することができます。
./error_model_tabler_v4.pl [エラーモデル0次ファイル] [出力ファイル名]
プロットファイルは、実行固有のエラーの傾向を明らかにすると、次のセクションで説明されている分析に使用される読み込み拠点の最大数を推測するために使用することができます。

4。 SPLINTERを使用した希少なバリアント型（Variant）の検出

バリアントのcallinSPLINTERによってG：分析の最初のステップは、エラーモデルと参照配列を使用して、整列ファイルでスプリンターツールを実行することです。これを行うにはコマンドは次のとおりです。
./SPLINTER6r [整列タグ付きファイル] [FASTAファイル] [2次誤差モデルファイル] [の数は使用する基地を読む] [除外される塩基またはサイクルを読む] [P-値のカットオフ= -1.301]ユニーク[使用すると、読み込み= Y] [アライメントがカットを編集]オプションから[プールサイズ] [ストランドごとに絶対的なカバレッジをプリントアウト= Y]> [SPLINTERファイル]
使用する読み込み塩基数は異なり、実行ごとに応じて評価されるべきである。我々は一般的に彼らは最高品質のデータ（最初の24は、たとえば、読み取り36bp長いの塩基を読み取る）を表すように、読み取りの最初の3分の2を使用することをお勧めします。（コンマまたはN、例えば5,7,11またはNで区切られた）に欠陥が見つかった場合は、単一の読み取り塩基は、分析から除外することができます。 p値のカットオフは、解析を呼び出すバリアントがあるとしているか厳しい決まります。我々もマリー-1.301の最小カットを（log10のスケールで≤0.05、p値に対応する）ことにより、分析を開始します。プール·サイズのオプションは、実際のプール内の単一の対立遺伝子のそれよりも少ないマイナーアレル頻度の潜在的な変異体を排除することにより、 "信号対雑音"差別のアルゴリズムを最適化します。 50個体のプールの例では、最小観測されたバリアントは、0.01周波数または100の対立遺伝子の1で期待することができます。したがって、プール·サイズ·オプション（40人が調査されている場合に最も近いオプションは、100のプールのサイズになるので、我々は、80対立遺伝子を期待してIE）の実験で分析した対立遺伝子の実際の数より大きい最も近い値に設定する必要があります。周波数<0.01で呼び出さバリアントは、ノイズとして無視されます。このファイルには、バリアントの位置の説明については、バリアントの型、DNA鎖当たりのp値は、バリアントの頻度とDNA鎖あたりの総カバレッジ（で、サンプル間で統計的に有意であるすべてのヒットを返します。
いわゆるバリアントのカバレッジを正規化：サンプル全体の範囲の変動は、スプリアスヒットを生成することができます。これは、次のようにsplinter_filter_v3.plスクリプトを適用することによって修正できます。
./splinter_filter_v3.pl [スプリンターファイル] [リストファイル] [ジェン]> [SPLINTER正規化されたファイル]
リスト·ファイルはタブ区切りファイルの形式で陽性対照ヒットのリストです。
番目のフィールドは、変異が存在している位置を示すのに対し、最初のフィールドは、関心のアンプリコンを示しています。 Nはシーケンスの残りの部分は任意の突然変異が含まれていないことを示しています。
正の制御データを使用して最適なp値のしきい値を決定する：正規化した後、陽性対照の分析は、特定のサンプル分析の感度と特異性を最大にするために不可欠である。これは、情を使用して最適なp値のカットオフを見つけることによって達成することができます陽性対照からる。ほとんどの場合、-1.301の初期のp値はそうだとすれば、正または負のコントロールから偽陽性の呼び出しをもたらすでしょう、十分に厳格ではありません。すべてのスプリンター分析では、 先験的に予測することができませんでした各バリアントと呼ばれる（表2の列5と6を参照）のために実際のp値が表示されます。しかし、全体の分析は、既知の真陽性のベース位置の初期出力で表示された少なくとも厳格なp値を使用して繰り返すことができます。これは、ほとんどを排除しながら、すべての真の陽性を保持するのに役立つでしょう、すべてではありませんが、偽陽性および彼らは通常、真の陽性と比較してはるかに少ない重要なp-値を持っています。このプロセスを自動化するには、cutoff_tester.plを使用することができますcutoff_tester.plはスプリンター出力ファイルと正規化に使用されるものとして、タブ区切りファイルの形式で陽性対照ヒットのリストが必要です。
。/ cutoff_tester.pl [スプリンターフィルタEDファイル] [リストファイル]
結果の出力は徐々に（ 表3を参照）最適なものに到達するカットオフ値のリストになります。形式は次のとおりです。
[感度] [特異性] [カット] [最大感度と特異性からの距離]
たとえば、次の
7.76946294170104e-07 1 0.999118554429264 -16.1019999999967
最後の行は、実行のための最適なカットオフを表しており、したがって、データ解析に使用することができます。最適な結果は、1の感度と特異度を達成することです。この結果は達していない場合には、 スプリンター分析は、最も最適な条件が達成されるまで、法人の数は拠点を読んで変更することにより、繰り返すことができます。
フィルタリング最後のバリアント：最後のカットでは、最適なカットオフ以下のヒットからスプリンター出力ファイルをフィルタリングしますcutoff_cut.plスクリプトを使用して、データに適用することができます
。/ cutoff_cut.pl [SPLINTERフィルタファイル] [カット]> [SPLINTER最後のファイル]
このステップでは、試料中に存在するSNPとindelsのが含まれています最後のスプリンター出力ファイルを生成します。挿入の出力が置換または欠失（ 表2）よりもわずかに異なることに注意してください。

5。代表的な結果

我々は、947個体の集団をプールし、そして配列決定のために20キロバイト以上の対象とした。我々は、標準プロトコルを以下のまれな変異体の検出のための破片を適用した。各個人が以前にゲノムワイドなジェノタイピングアレイによって実行されるジェノ持っていた。タグ付きのタイピングとプールしたサンプルで呼び出され、新規変異体の間に一致します（ 図6）優れていた。 3種類の2つ（rs3822343とrs3776110）は、人口では稀であったシークエンシングの結果からのde novoと呼ばれていました、個々のパイロシーケンシングによって検証されています。プール内のマイナーアレル頻度（MAF）は、MAFに類似していた dbSNPのビルド129に報告した。パイロシーケンシングおよびプールされたシーケンスの間にMAFの一致は、（ 表3）優れていた。

表1に
陽性コントロールについては、 表1の DNAオリゴヌクレオチド配列。各シーケンスは2つの置換または1つの挿入と1の欠失のいずれかの方法で野生型の基準とは異なるDNA断片で構成されています。拡大画像を表示するには、ここをクリック。

表2。スプリンターの出力例を示します。最初の2行は、置換または欠失（青いヘッダ）の標準的なスプリンター出力を表しています。最後の行は、挿入のための標準的なスプリンター出力（紫ヘッダ）を表します。rget = "_blank">拡大画像を表示するには、ここをクリックしてください。

表3。ファイブは知られており、3つの新規変異体は、大規模な集団から識別し、個々の遺伝子型によって検証されています。個々の検証は、パイロシーケンシング（行1-3）は、TaqManアッセイ（行4-6）またはサンガー（行7,8）により行った。対立遺伝子頻度の広い範囲およびプールされたシーケンスアレル頻度の推定と個々の遺伝子型の間にMAF <1％、一致が強かった5つの位置を含む。アスタリスク（*）が付いている位置が以前に報告されたデータ⁹から構成されている。

図1。プール-DNAシーケンシングとスプリンター分析の概要。患者DNAがプールされと選択した遺伝子座で増幅されます。最終的なPCR産物は、モル比で、正と負の制御と一緒にプールされます。プールされたミックスは、次に塩基配列を決定し、得られた読み取りは、それらの参照にマッピングされています。マップされたネガティブコントロールは、実行固有のエラーモデルを生成するために使用され読み込まれます。スプリンターは、エラーモデルとポジティブコントロールから情報を組み込むことにより、稀SNPとindelsのを検出するために使用することができます。 [Vallania FLM ら、ゲノム研究 、2010年から適応] 拡大画像を表示するには、ここをクリック。

図2プールのPCRアンプリコンライゲーションと超音波。ライゲーションとライブラリ調製プロトコルのランダム断片化手順のデモンストレーションとして、pUC19ベクターは、酵素的にレーン2に示すように、フラグメントに消化した。これらのフラグメントは、ノーマであった上記1.7のステップに従って、分子の数によってlized組み合わせて、ランダムに連結した。結果として大規模なコンカテマーは、レーン3に示されています。上記の手順1.8で説明したように連結したコンカテマーは、均等に分割し、超音波処理に供した。それぞれの技術的な複製のためのDNA断片の得られた塗抹標本は、レーン4および5に示されています。ブラケットは、ゲル抽出とシーケンシングライブラリの作成に使用されるサイズの範囲をハイライト表示されます。

図3。プールしたサンプル内の単一の対立遺伝子のカバレッジの関数としての精度。精度は0.5（ランダム）から1.0（完全な精度）の範囲で受信オペレーター曲線（ROC）の曲線下面積（AUC）と推定されています。 AUCは200、500および1000の対立遺伝子（A）のプール内の単一の変異対立遺伝子を検出するための対立遺伝子ごとに範囲の関数としてプロットされています。 AUCは、置換、挿入およびdの関数全体のカバレッジとしてプロットされeletions（B）。 [Vallania FLM ら、ゲノム研究 、2010年から適応。

図4エラープロットは、与えられた位置で、誤った塩基を組み込んだ確率を示しています。エラーのプロファイルは、読み取りシーケンスの3 '末端に向かって増加傾向で低エラーレートを示しています。特に、異なる基準ヌクレオチドが別のエラーの確率を（例えば、参照として与えられたG Cを組み込むことの確率を参照してください）が表示されます。 [Vallania FLM ら、ゲノム研究 、2010年から適応。

図5対立遺伝子あたり25倍以上の範囲を持っていたポジションの対立遺伝子頻度を推定する上でスプリンターの精度。パネルA、≥25倍のカバレッジを持つ単一の変異を検出するために最適な感度を示す図3の結果に基づいて非常に高い相関（r = 0.999）でGWAS結果によって測定されアレルカウントでSPLINTERによって推定した、プールされたDNAの対立遺伝子頻度の比較。 [Vallania FLM ら、ゲノム研究 、2010年から適応。

図6。974人のプールされたシーケンスからスプリンターの見積もりに比べGWASで測定した対立遺伝子頻度の比較。比較のための遺伝子型遺伝子と配列領域の間に19共通の立場があった。結果の相関（r = 0.99538）は非常に高くなっています。拡大図を表示するには、ここをクリックしてください。

Discussion

肥満など^8、高コレステロール血症^4、高血圧⁷と他のような一般的な、複雑な表現型や疾患の発症と治療反応は珍しいバリエーションの個人プロファイルによってモデレートされることが増加の証拠がある。影響を受けた集団におけるこれらの変異体の集合体は深い診断および治療に影響を持っていますが、別々に影響を受ける個人を分析する時間とコストが法外なことができる遺伝子と経路を識別します。人口ベースの分析では、複数の遺伝子座に遺伝的変異を調査するためのより効率的な方法を提供しています。

私たちは、集団間の遺伝的変異のこのタイプを識別するために設計されたスプリンターソフトウェアパッケージとペアになって小説をプール-DNAシーケンシングプロトコルを提示します。我々であったまれな変異体を含む、947人の大規模なプールされた集団内でマイナーアレルを識別し、定量化に、このメソッドの精度を実証するプールされたシーケンスからのde novoと呼ばれ、個々のパイロシーケンシングによって検証されています。当社の戦略は、主に正の取り込み、すべての実験内の負の制御により、他のプロトコルとは異なります。これはスプリンターは、他のアプローチは¹に比べてはるかに高い精度と消費電力を達成することができます。 25倍あたりの対立遺伝子の最適なカバレッジは、プールサイズに比例し、この要件として実現可能な大規模なプールの分析のみスケールを作り、独立してプールのサイズの固定されています。我々のアプローチは非常に柔軟性があり、関心の任意の表現型にもこのような混合細胞集団、腫瘍生検などの自然に不均一である試料に適用することができます。そのようなexomeやゲノムなどの大きなターゲット領域からプールされたシーケンスでますます関心があることを考慮すると、我々のライブラリの準備とSPLINTER分析では、カスタムキャプチャと全体exomeシーケンシングと互換性がありますが、スプリンターパッケージの配置ユーティリティはのために設計されていません大参照配列である。したがって、我々は、正常にプールしたサンプルからの呼び出しバリアント（ラモスら、投稿中）、続いてゲノムワイドなアラインメントのために、Novoalign、動的プログラミングアライナーを利用しています。したがって、我々のプールされたシーケンシング戦略は、標的配列の増加量でより大きなプールに正常に拡張することができます。

Disclosures

利害の衝突が宣言されません。

Acknowledgments

この作品は子供ディスカバリー研究所助成MC-II-2006-1（RDMとTED）は、NIHロードマップのエピジェネティクスの助成金[1R01DA025744-01と3R01DA025744-02S1]（RDMとFLMV）、U01AG023746（SC）、Saighによってサポートされていました財団（FLMVとTED）、1K08CA140720-01A1とアレックスのレモネード "は、"賞のサポート（TED）スタンド。我々は、ゲノム解析のヘルプは医学のワシントン大学で遺伝学部門のゲノムテクノロジー·アクセス·センターに感謝します。センターは、部分的に研究資源のためにNationalCenter（NCRR）、健康（NIH）の国立研究所のコンポーネントから＃UL1RR024992 NCIがんセンターサポート助成サイトマンがんセンターへ＃P30 CA91842によっておよびICTS / CTSAグラントによってサポートされており、医学研究のためのNIHロードマップ。このマニュアルでは、もっぱら著者の責任であり、必ずしもNCRRまたはNIHの公式見解を表すものではありません。

Materials

Name	Company	Catalog Number	Comments
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

DOWNLOAD MATERIALS LIST

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Biology

SPLINTERを使用してプールされたシーケンスからレアゲノム変異の検出

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.