Summary
視覚的な分析(VA)は、対話的にデータを分析の新しいアプローチです。このビデオでは、我々はハイスループット生物学的実験によってもたらされるデータの過負荷の問題を議論し、そのような問題に対する解決策として、VA提案する。ビデオでは、内と場札と呼ばれるVAツールを使用して免疫学的データセット間の分析を示しています。
Abstract
視覚的な分析(VA)は、インタラクティブな視覚的なディスプレイを介して大規模なデータセットを分析する新しい方法として浮上している。我々は、ユーティリティと生物学的データセットの分析のVAアプローチの柔軟性を示した。免疫学におけるこれらのデータセットの例としては、フローサイトメトリー、ルミネックスのデータ、およびジェノタイピング(例えば、一塩基多型)のデータが含まれています。伝統的な情報の可視化のアプローチとは対照的に、VAは、アナリストは、リアルタイムのデータの探査のプロセスに関与できるようにすることで、アナリストの手で分析力を復元。我々は、いくつかのVAツールを評価した後、タブローというVAソフトウェアを選択する。解析作業データセット内との間で分析の2つのタイプは、アプローチペア解析と呼ばれるを使用してビデオのプレゼンテーションで示された。 VAで定義されているようなペアの分析には、、VAツールの専門家が分析中に、ドメイン専門家とのサイドバイサイドの動作する分析手法です。ドメインの専門家は、データの重要性を理解し、収集したデータは対応するかもしれないという疑問を求める人です。ツールの専門家は、これらの質問に答える可能性のあるデータのパターンを見つけることができるようにビジュアライゼーションを作成します。仮説生成とデータの迅速な視覚的な表示との間の短い遅れ時間は、VA方式の主な利点です。
Protocol
1。タブローで探査ベースの分析
- あなたは、データセットを持っていて、データ内の列の間に様々な関係を探求したい。
- (図1)"は、データへの接続"をクリックして、データセットをインポートします。データソースの種類を選択して、データセットをインポートする手順に従ってください。
- (図1)対策の棚は、データセットから数値列が含まれている間寸法の棚は、カテゴリ列が含まれていることを確認してください。それがnumeratedされている場合、時々そのようなサブジェクト識別子と、ディメンション列は尺度として表示されることがあります。それを右クリックして、寸法に変更し、"ディメンションへの変換"を選択します。図1では、このような刺激の濃度レベルと対象の識別子などのデータセットからカテゴリの列が正しく寸法の棚に配置され、サイトカインの観察された濃度は、正しく対策の棚に配置されます。
- (図2)分析プロセス中に、計算フィールドが必要な場合は、単に右のディメンションまたはメジャーシェルフのいずれかでクリックし、"計算フィールドを作成"を選択します。関数や数学的演算子と組み合わせてフィールドを持つ式ボックスに演算入力。図2は、PFD2、PFD3、およびPFD4値を集約することで> 2をPFDはという新しいフィールドを作成する方法を示します。
- (図3)次元と関心の測定で一般的には、場札の2次元プロットを生成します。インターフェイスはシンプルなドラッグ&ドロップ操作を提供するので、ディメンションとメジャーの選択は容易に変更することができます。寸法は通常、行の棚の列の棚、と対策に配置されます。図3では、寸法の棚は、刺激の濃度レベルが含まれており、対策の棚には、サイトカインの観測濃度のレベルが含まれています。
- (図3)は、次元の性質に応じて、テキスト、色や大きさの棚で、特定のディメンション、場所、そのディメンションのラベルによって視覚化を区別する。テキストの棚には、選択された次元で提供されるテキスト情報でそれらを標識することにより可視化でデータを区別しようとします。カラーとサイズの棚が自動的に各棚の下部にあるスクロールバーで調整できるカラーとサイズ別にデータを、区別されます。図3では、色の棚に置く遺伝子型は異なる色で3つの遺伝子型の分離につながる。
- (図3)他のディメンション内の特定の列の変数で可視化するフィルタ。これは、フィルタの棚にそのディメンションのラベルをドラッグすることによって行うことができます。ウィンドウから選択する値のリストが表示されます。選択された値は、可視化に残っている唯一の値になります。
- (図4)は視覚化の行列を生成するために他のディメンションまたはメジャーで可視化を組み合わせることができます。これは、行の棚の列の棚で、複数の次元、及び複数のメジャーをドロップすることによって行うことができます。図4は、列の棚に二つの異なる寸法を配置することにより、二列の可視化行列の例が含まれています。
- 同様の可視化を生成するには、右の左下に現在のシート上で右クリックし、"重複したシート"を選択。
- あなたがデータに関する新たな仮説の生成を助けることができる興味深い傾向や異常値を識別するために、分析の手順を繰り返す。
- あなたは、同じソースから生成された複数のデータセットを持っており、これらのデータセット間で可能な接続を探求したい。
- 場札は同じ接続を介してこれらのデータセットに接続できるように、同じブックに同じソース、すなわち場所、2つのスプレッドシートで複数のデータセットを置きます。
- (図5)複数のデータセットに対して同じである、ディメンションが選択されていることを確認して、キー値の論理的な結合を介してデータセットを接続します。セルのタイプ、刺激の濃度レベル、ステージまたはグループ、刺激、およびサブジェクト識別子:図5では、参加するための5つのキー値があります。
- 1.1節と同様の分析を実行します。
2。プレゼンテーションベースのニーズ
- あなたはデータ間の関係を知っているが、すぐにプレゼンテーションで使用するための視覚化のリストを生成できるようにしたい。
- 1.1節で概説プロトコルに従って、それに応じて視覚に注釈を付ける。
- 視覚の画像を生成するためにタブローのエクスポート機能を使用してください。
- あなたは、タブロー、ブック内の強力な視覚化のセットを生成し、そのブックを共有したいとしている。
- タブローのパッケージのブックとしてブックを保存し、このファイルを共有します。
- タブローのデスクトップのない同僚は、パッケージ化されたブックを開こうとするタブローReaderをダウンロードすることができます。タブローのリーダーは、同僚があなたが作成されていることを視覚化と対話することができます。
3。駐在結果
図1。スクリーンショットタブローのExcelファイルのdemo.xlsからNFKBIAという名前のスプレッドシートをインポートした後。ディメンションおよびメジャーの棚は適切にそれぞれ、と量的データが入力されました。
図2計算されるフィールドのウィンドウは、場札に使用する特殊な計算フィールドを作成するために呼び出されます。左下ボックスのリストには、識別可能なフィールドを支援し、右側のリストには、式で使用できる関数の省略形が含まれています。この例では、我々はPFDとして参照することが最終的な値を得るためにPFD4、PFD3とPFD2のために> 2を値を追加したい
図3。刺激の濃度レベル対観察されたサイトカイン濃度の可視化。可視化は、サイトカインTNF -αの観測濃度に対する刺激3M - 002の異なる濃度レベルのプロットを示しています。線の色は私たちの自然免疫の研究では、個人のNFKBIA遺伝子における一塩基多型のための異なる遺伝子型を参照してください。
図4二列の可視化行列のスクリーンショット。我々は2つの刺激、3M - 003およびLPSに対する応答のside - by - sideの比較を容易にするために2列の行列を生成する。 x軸は、2つの刺激の異なる濃度レベル、およびy軸のプロット計算フィールドの値が、PFD> 2です。
図5。これらのタブローの対話ウィンドウが別のスプレッドシートに記録されたデータを接続する方法を示しています。別のスプレッドシートからの接続データは、キー値の論理的な結合句を使用してこれらを組み合わせることによって達成することができます。
可視化と解析ツール | ||||||||||
機能 | 絵画 | VIS -スタンプ | xmdvtool | その他のggobi | 星の光 | によって実現さ | Visulab | InfoVisツールキット | Geotime | 呼び起こす |
パラレルプロットを調整する | はい | はい | はい | はい | はい | なし | はい | はい | なし | なし |
散布図マトリックス | はい | なし | はい | はい | はい | なし | はい | なし | なし | なし |
次元の削減 | なし | なし | はい | はい | なし | なし | なし | なし | なし | なし |
時間的次元 | はい | はい | なし | はい | はい | はい | なし | はい | はい | なし |
地理空間の寸法 | はい | はい | なし | なし | はい | はい | なし | なし | はい | なし |
テキストマイニング | なし | なし | なし | なし | はい | なし | なし | なし | なし | はい |
データの直接操作 | はい | はい | はい | はい | はい | はい | はい | なし | はい | なし |
フィルタリング | はい | はい | はい | はい | はい | はい | はい | なし | はい | はい |
他のプラットフォームへの拡張(例えば、R) | はい | なし | はい | はい | なし | はい | なし | はい | なし | なし |
CSVテーブルフォーマット | はい | はい | はい | はい | なし | なし | はい | はい | はい | なし |
XMLデータフォーマット | はい | なし | なし | はい | はい | なし | はい | はい | はい | なし |
1で対処できます。0000 +の行 | はい | なし | なし | なし | はい | なし | なし | なし | なし | はい |
ドキュメント | はい | はい | はい | はい | はい | はい | はい | はい | はい | はい |
商用製品 | はい | なし | なし | なし | はい | なし | なし | なし | はい | はい |
視覚的な分析ツールとその機能のいくつかの表1。一覧。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
現代の生物医学研究におけるハイスループット技術の出現は、分析のより効率的な方法を必要とする研究データの爆発につながった。視覚的な分析(VA)は、インタラクティブな視覚インタフェース(1)により促進分析推論の科学である。 VAのアプローチは、コンピュータによってパターンを検出する従来のアプローチとは逆に人間のアナリストの手で分析能力を、復元します。視覚的な分析はこのような防衛研究(1)とハリケーンの動向(2)など、さまざまな分野での研究に適用されている。これまでのところ、生物学におけるVAのアプリケーション(3)のほんの一例があります。我々は、VAは解析ツールの生物学者の兵器庫に追加できるアプローチであることがこのビデオの記事で示した。多くのVAソフトウェアは、市販であるものに学術の研究室で開発中のものに至るまで可能です。新生児の先天性免疫(4)私たちの仕事のために、我々は研究室で利用可能なスプレッドシート形式のデータセットを解析する上でので、その適合性のタブローを選びました。我々はビデオの資料に記載いくつかは他のVAツールは、生物学的データの他のタイプのためのより適切かもしれない。我々は表1の人気VAツールのいくつかの機能と特徴を列挙。このリストは、それが我々の研究の範囲を超えているため、完全なものではありませんが、彼らの特定のデータセットに適しVAツールを決定するために科学者のための良い出発点でなければなりません。
我々が強調したいことVA約つの大きなポイントがあります。一つは、VAのアプローチは、迅速にこのようなデータの一般的な傾向や異常値のようなスポットパターンをアナリストを支援することで、探査のプロセスとして意図されています。 VAの主な焦点は、大規模なデータセットのための強力な可視化技術を提供することです。それは、統計分析に代わるものではありません。実際には、VAのツールのほとんどは、非常に我々はこれが近い将来に変更することが予想されるものの、統計分析を実行する能力は限られています。我々が言及する2番目の点は、前のVAツールにデータセットをインポートする前に事前処理データの分析を成功させるために重要であるということです。スプレッドシートの人間が読める形で提示されたデータは、時々マシンが読み取り可能な形式とは異なることに留意してください。データの元のフォーマットは、VAツールに適していない場合は、データの前処理は、しばしば大量のデータ変換を必要とする、時間のかかるステップすることができます。我々は非常にこのようなVAで利用可能なものとして下流の解析ソフトウェアツールへの柔軟かつ効率的なアップロードを可能にするデータ入力とエンコードの綿密な計画をお勧めします。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
利害の衝突は宣言されません。
Acknowledgments
我々はプロジェクトのためのコメントやアドバイスを提供するためのビジュアル分析(VIVA)のバンクーバー研究所のメンバーに感謝したいと思います。特に、我々はジョンディル、ブライアンフィッシャー、デビッドダービルに感謝します。我々はまた彼らのサポートと有用な議論をKollmann研究室のメンバーに感謝したいと思います。アレルゲンNCE助成金07 - A1Aと07 - B2Bを;この作品は、アレルギーと国立感染症研究所、健康グラントN01 AI50023の国立研究所によって部分的にサポートされていましたし、健康研究のためのマイケルスミス財団。 TRKは病気 - キッズ基金、子ども家庭総合研究所と共同でカナダの母子保健臨床医科学プログラムにおける保健研究訓練助成金のためのカナダの協会によってバローズウェルカムファンドの広告から生物医学科学のキャリア賞、(によって部分的にサポートされていますブリティッシュコロンビア州)、女性と子どもの健康研究所(アルバータ州)、及び母子保健のマニトバ大学。
References
- Thomas, J., Cook, K. Illuminating the Path: The Research and Development Agenda for Visual Analytics. , IEEE CS Press. (2005).
- Steed, C., Swan, J., Jankun-Kelly, T., Fitzpatrick, P. Guided Analysis of Hurricane Trends Using Statistical Processes Integrated with Interactive Parallel Coordinates. IEEE Symposium on Visual Analytics Science and Technology. , IEEE. Atlantic City. 19-26 (2009).
- Saraiya, P., North, C., Lam, V., Duca, K. An Insight-Based Longitudinal Study of Visual Analytics. IEEE Transactions on Visualization and Computer Graphics. 12, 1511-1522 (2006).
- Kollmann, T. R., Crabtree, J., Rein-Weston, A., Blimkie, D., Thommai, F., Wang, X. Y., Lavoie, P. M., Furlong, J., Fortuno, E. S. 3rd, Hajjar, A. M., Hawkins, N. R., Self, S. G., Wilson, C. B. Neonatal innate TLR-mediated responses are distinct from those of adults. J. Immunol. 183, 7150-7160 (2009).