Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project

Francis R. G. Amrit; Arjumand Ghazi

doi:10.3791/55473

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

のトランスクリプトーム解析 C。エレガンス</emギャラクシープロジェクトのタキシードスイートを通じて> RNAシーケンスデータ

Published: April 08, 2017

doi:

10.3791/55473

Francis R. G. Amrit, Arjumand Ghazi

¹Department of Pediatrics,University of Pittsburgh School of Medicine, Children’s Hospital of Pittsburgh

Summary

ギャラクシーとDAVIDバイオインフォマティクストレーニングなしの研究者が分析し、RNA-配列データを解釈できるようにする一般的なツールとして浮上しています。私たちは、 線虫の研究者は、アクセスをRNA-配列実験を行い、銀河を使用してデータセットを処理し、DAVIDを用いた遺伝子リストから意味のある生体情報を取得するためのプロトコルを記述します。

Abstract

次世代シーケンシング（NGS）技術は、生物学的な調査の性質に革命をもたらしてきました。これらのうち、RNAシークエンシング（RNA-配列）は、遺伝子発現分析およびトランスクリプトームマッピングのための強力なツールとして浮上しています。しかし、RNA-配列データセットを処理することは、高度な計算の専門知識を必要とし、生物学の研究者のための固有の課題を提起します。このボトルネックは、バイオインフォマティクスのスキルを持たないユーザは、RNA-配列データを分析することを可能にするオープンアクセスギャラクシープロジェクト、および注釈用のデータベース、可視化、および統合されたディスカバリー（DAVID）、助け遺伝子オントロジー（GO）用語分析スイートによって軽減されました大規模なデータセットからの生物学的意味を導き出します。しかし、初めてのユーザーとバイオインフォマティクスアマチュア、これらのプラットフォームでの自己学習や習熟のための時間がかかり、困難なことができます。私たちは、 線虫の研究者は、ワームのRNAを単離するのに役立ちます簡単なワークフローを記述し、RNA-配列実験を行いますそして、ギャラクシーとDAVIDのプラットフォームを使用してデータを分析します。このプロトコルは、濃縮のためにスクリーニングすることができる遺伝子のリストを生成するために、各ステップでのパラメータをユーザに案内する、生NGSデータ、品質管理チェック、位置合わせ、及び示差遺伝子発現分析にアクセスするための様々なギャラクシーモジュールを使用するための段階的な指示を提供しますDAVIDを用いた遺伝子クラスまたは生物学的プロセス。全体的に、我々はこの記事が初めてRNA-配列の実験と同様に少数のサンプルを実行している頻繁にユーザーを行っC.エレガンスの研究者に情報を提供することを期待しています。

Introduction

ヒトゲノムの最初のシーケンシング、フレッド・サンガーのジデオキシヌクレオチド配列決定法を用いて行っ、10年かかった、と推定米国$ 3 ¹⁰億^{^、2を}要し^ました。しかし、創業以来十年余りで、次世代シーケンシング（NGS）技術は、それが可能2週間以内とUS $ 1,000ヒトゲノム全体を配列決定することになりました。ゲノム配列決定プロジェクトが急速に当たり前になりつつあり、コストの大幅な削減に伴い、信じられないほど効率的にシーケンシング・データ収集の増え続ける速度を許可する新しいNGS機器は、想像を絶する方法で、現代生物学に革命を起こしています。また、これらの開発は、このようなRNA配列決定（RNA-SEQ）、ゲノムワイドなエピジェネティック修飾の研究、DNA-タンパク質相互作用を介して遺伝子発現解析などの多くの他の分野における進歩を亜鉛めっきしており、ヒト宿主における微生物多様性をスクリーニングします。 RNA-SeのNGSベース特に、qはそれが可能精度と感度との包括的トランスクリプトームを識別し、マッピングするために作られており、および発現プロファイリングのための選択の方法として、マイクロアレイ技術を交換しました。マイクロアレイ技術が広く用いられているが、そのようなクロスハイブリダイゼーションを確実に測定することができる発現変化の制限された範囲として、既存の既知のゲノム情報とアレイ、および他の欠点への依存によって制限されます。 RNA-配列は、他方で、、その明確なDNAマッピング性質に低いバックグラウンドノイズを生成しながら、既知および未知の両方の転写物を検出するために使用され得ます。一緒に、このような酵母、ハエ、虫、魚やマウスなどのモデル生物が提供する数多くの遺伝的ツールとRNA-配列は、多くの重要な最近の生物医学の発見のための基盤を務めています。しかし、ストレージの制限、処理、およびすべてのほとんどは、メートルなど、より広い科学コミュニティにアクセスできなくNGSを作る重要な課題のまま、配列決定データの大量のeaningfulバイオインフォマティクス解析。

シーケンシング技術と指数データ蓄積の急速な進歩は、研究者は、アクセス分析し、この情報を理解することができます計算プラットフォームのための大きい必要性を作成しました。初期のシステムは、コンピュータプログラミングの知識に大きく依存していたのに対し、非プログラマがアクセスし、洗練された分析を許可しなかったデータを視覚化することができ、このようなNCBIなどのゲノムブラウザ。 Webベースのオープンアクセスプラットフォーム、ギャラクシー（ https://galaxyproject.org/ ）は、この間隙を充填しNGSデータを処理して、簡単に複雑なのスペクトルを実行するために、研究者を可能に貴重なパイプラインであることが証明されましたバイオインフォマティクス分析します。ギャラクシーはアントンNekrutenko（ペンシルベニア州立大学）、ジェームズ・テイラーの研究室で、最初に設立され、維持されている（ジョンズホプキンス大学）F "> 3。ギャラクシーは。それRNA-配列研究に関わるすべてのステップを含む無数のバイオインフォマティクスのニーズ、のための『ワンストップショップ』を作る計算タスクの広い範囲を提供していますそのサーバー上のどちらかのデータ処理を実行するためにユーザーをItallowsローカルに自分のマシン上で。データとワークフローを再現し、共有することができます。オンラインチュートリアル、ヘルプセクション、およびウィキページ （ https://wiki.galaxyproject.org/Supportギャラクシープロジェクト専用）は、一貫したサポートを提供しています。しかし、初めてのユーザーのために、特になしバイオインフォマティクストレーニングを持つものは、パイプラインが困難な表示されることと自己学習や習熟の過程は時間がかかることがあります。また、生物学的システムを検討し、実験や方法の詳細は、インパクトを使用しますいくつかのステップでは、分析の決定、およびこれらの命令なしにナビゲートすることは困難。

全体的にRN -配列ギャラクシーワークフローは^、データのアップロード及びRNA-配列データ解析¹⁰の異なる段階のために必要な様々なツールの集合であり、Tuxedoのスイート^{^{^{^{^{^{^{^{^{^{^{4、5、6、7、8、9}}}}}}}}}}を}用いて分析を行っ品質チェックから成り^{^{^{^{^{^{^{11、12、13、14。}}}}}}}典型的なRNA-配列実験は、実験の部（試料調製、mRNA単離およびcDNAライブラリーの調製）、NGSおよびバイオインフォマティクスデータ解析から成ります。これらのセクション、ギャラクシー・パイプラインに含まれるステップの概要を、図1に示されています。

3fig1.jpg」/>
図1：RNA-配列のワークフローの概要。 2つのウォーム株（AとB、オレンジと緑の線、矢印、それぞれ）の遺伝子発現プロファイルを比較するために、RNA配列の実験に関わる実験及び計算ステップの実例。ギャラクシー利用の様々なモジュールは、赤色で示さ我々のプロトコルに対応するステップとボックスで示されています。各種操作の出力は、青色で示されたファイルフォーマットに灰色で書かれています。この図の拡大版をご覧になるにはこちらをクリックしてください。

タキシードSuiteの最初のツールは、「 トップハット 」と呼ばれるアライメントプログラムです。これは、NGS入力は小さな断片に読み取り、参照ゲノムにマップし破壊します。この2段階プロセスはそれがそのアライメントさもなければジすることができるイントロン領域にまたがる読み出し保証しますsruptedまたはを占め、マッピングされている逃しました。これは、カバレッジを増加させ、新規なスプライス部位の同定を容易にします。 トップハット出力は2つのファイル（ゲノム位置を含むスプライス部位に関する情報を）BEDファイルと（各読み取りのマッピングの詳細を）BAMファイルとして報告されます。次に、BAMファイルは「 カフス」と呼ばタキシードスイートで、その後のツールを使用して、各サンプル内の個々の転写物の豊かさを推定するために、参照ゲノムに対して整列されます。 カフス機能の完全長転写物の断片または全ての遺伝子のための入力データで可能なすべてのスプライスバリアントにまたがる「transfrags」を報告してアライメントをスキャンすることもできます。これに基づいて、それは、配列決定される各サンプルの（すべての遺伝子について遺伝子当たり生成されたすべての転写物のアセンブリ）「トランスクリプトーム」を生成します。これらのカフスアセンブリは、その後崩壊し、再と一緒にマージされていますフェレンスゲノムは次のツール、「Cuffmerge」を使用して、下流の差分分析のための単一の注釈ファイルを生成します。最終Cuffmerge出力ファイルに各試料のトップハット出力を比較することにより、 サンプル間の最後に、「Cuffdiff」ツール測定示差遺伝子発現（ 図1）。 カフリンクスは FPKM / RPKM使用する転写物の存在量を報告した値を（フラグメントを/マッピングされた百万分の転写物のパーキロベースは読み取り読み込み）。遺伝子の長さ（カウントがレベルを比較するために、遺伝子の長さについて正規化されなければならないので、遺伝子は、異なる長さを有する（参照ゲノムに整列サンプルからの読み取りの平均数）これらの値は、深さの生NGSデータの正規化を反映して遺伝子間）。 FPKMとRPKMはFPKMをするために使用され、一方、すべての読み取りが、単一のフラグメントに対応するシングルエンドのRNA配列のために使用されてRPKMと本質的に同じですそれは、2つの同一の断片に対応することができる読み出すという事実を占めるように、ペアエンドRNA-配列。最終的に、これらの分析の結果は、差動的条件および/または試験された株の間に発現された遺伝子のリストです。

成功したギャラクシーの実行が完了すると「遺伝子リスト」が生成されると、次の論理的なステップは、データセットから意味のある知識を推定するために分析するより多くのバイオインフォマティクスが必要です。多くのソフトウェアパッケージは、DAVID（注釈、可視化と統合発見のためのデータベース^）15として一般的に利用可能なウェブベースの計算パッケージを含む、このニーズに応えるために登場しました。 DAVIDは、その統合された生物学的な知識ベースにアップロードされた遺伝子のリストを比較し、遺伝子リストに関連する生物学的注釈を明らかにすることで、高スループットの研究から大きな遺伝子リストに生物学的な意味を割り当てることが容易。これは、IDEにすなわち 、テストは、濃縮分析が続いています任意の生物学的プロセスまたは遺伝子クラスが統計的に有意な様式で遺伝子リスト（S）に過剰出現した場合ntify。それは広いため、統合された知識ベースと「遺伝子リスト^10」を ^{^、16}由来のゲノムの中に豊かな生物学的なテーマを検出するために、研究者を可能にする強力な分析アルゴリズムの組み合わせの一般的な選択肢となっています。さらなる利点は、任意のシーケンシングプラットフォームと非常にユーザーフレンドリーなインターフェースで作成された遺伝子リストを処理する能力が含まれます。

線虫線虫（Caenorhabditis elegans）もこのような小さなサイズ、透明体、シンプルなボディープラン、遺伝的および分子解剖の文化や偉大な従順の容易さなどの多くの利点のために知られている遺伝モデルシステムです。ワームは、既知のヒト相同体¹⁷で40％保存された遺伝子まで含む、小さな単純でよく注釈付きのゲノムを有します。実際、C.エレガンス最初のゲノム完全^18を配列決定した後生動物、およびRNA-配列は、生物のトランスクリプトーム^{^{^19、20}を}マッピングするために使用された第一の種の一つでした。初期のワームの研究では、技術^{^{^21、22}}の発展に貢献したハイスループットRNAキャプチャ、ライブラリ準備およびシーケンシングだけでなく、バイオインフォマティクスパイプラインのためのさまざまな方法で実験を関与します。近年では、ワームでRNA-配列ベースの実験が当たり前になってきました。しかし、伝統的なワームの生物学者のためのRNA-配列データのコンピュータ分析によってもたらされる課題は、技術のより大きな、より良い利用のための主な障害のまま。

本稿では、線虫から生成されたハイスループットRNA-配列データを分析するギャラクシー・プラットフォームを使用するためのプロトコルを記載しています。多くの初めて小SCAのためのルユーザー、RNA-配列実験を実施するための最もコスト効率と簡単な方法は、実験室でRNAを分離し、シーケンシングcDNAライブラリーとNGS自体の製造のために、市販の（または社内）NGS施設を利用することです。したがって、まず、RNA配列のためのC.エレガンス RNA試料の単離、定量および品質評価に必要な手順を詳述しています。次に、位置合わせ、アセンブリ、および遺伝子発現の示差定量続くポストシークエンス品質管理チェックのテストから始まる、NGSデータの分析のためにギャラクシー・インターフェースを使用するための手順を提供します。加えて、我々はDAVIDを用いて、生物学的濃縮の研究のための銀河から生じた遺伝子リストを精査する方向が含まれています。ワークフローの最後のステップとして、私たちは、このようなNCBIのシーケンス読むアーカイブ（SRA）（などの公開サーバへの上にRNA-配列データをアップロードするための手順を説明します。http：//ワットww.ncbi.nlm.nih.gov/sra）科学界にそれが自由にアクセスできるようにします。全体的に、我々はこの記事では、ワーム初めてRNA-配列実験を行っ生物学者だけでなく、少数のサンプルを実行している頻繁にユーザーに包括的かつ十分な情報を提供することを期待しています。

Protocol

1. RNA単離予防策存在する任意のRNアーゼを除去するために市販のRNaseスプレーを使用して全体の作業表面、器具及びピペットを拭います。定期的にプロトコルの異なる段階中に新鮮なものでそれらを変更し、すべての回で手袋を着用してください。唯一のフィルターチップを使用し、RNAの分解を避けるために、可能な限り氷の上にすべてのサンプル?…

Representative Results

C.エレガンスでは、生殖細胞系列幹細胞（GSCs）の除去は、寿命を延長する、ストレスの回復力を高め、体脂肪24、28が上昇します。レーザアブレーションによって、又はそのようなGLP-1などの変異によってもたらさGSCsの損失、のいずれかが、転写のネットワーク29を因…

Discussion

現代生物学の銀河シーケンシング・プラットフォームの意義

ギャラクシープロジェクトは、高速かつ効率的な方法で、高スループット配列決定データを処理し、分析するためのバイオインフォマティクストレーニングなし生物学者を助けることに尽力となっています。一度、この一般的に利用可能なプラットフォームは、単純で信頼性が高く、簡単なプロセスNGSデータを分…

Disclosures

The authors have nothing to disclose.

Acknowledgements

著者は、ギャラクシーとDAVIDを開発し、ひいては科学コミュニティのためのNGSが広くアクセス行っている研究室、グループや個人に感謝の意を表したいと思います。当社のバイオインフォマティクストレーニング中にピッツバーグ大学の同僚によって提供されるヘルプやアドバイスが認められています。この作品には賞（AG-NS-0879から12）と国立衛生研究所AGに（R01AG051659）からの助成金を高齢でエリソン医学財団新奨学生によってサポートされていました。

Materials

RNase spray	Fisher Scientific	21-402-178
Trizol	Ambion	15596026
Sonicator	Sonics Vibra Cell	VCX130
Centrifuge	Eppendorf	5415C
chloroform	Sigma Aldrich	288306
2-propanol	Fisher Scientific	A416P-4
Ethanol	Decon Labs	2705HC
RNase-free water	Fisher Scientific	BP561-1
Bioanalyzer	Agilent	G2940CA
Mac/PC

References

Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

のトランスクリプトーム解析<em> C</em>。<em>エレガンス</emギャラクシープロジェクトのタキシードスイートを通じて> RNAシーケンスデータ

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

のトランスクリプトーム解析<em> C</em>。<em>エレガンス</emギャラクシープロジェクトのタキシードスイートを通じて> RNAシーケンスデータ

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below