Summary
可视化分析(VA)是一种新的交互方式分析数据的方法。在这段视频中,我们讨论的高通量生物实验所带来的数据超载的问题,并提出为解决这样的问题的弗吉尼亚州。视频演示和分析使用的是弗吉尼亚州的工具,称为抽穗的免疫学数据集之间的。
Abstract
可视化分析(VA)已成为一种新的方式来分析大型数据集通过交互式可视化显示。我们证明了在弗吉尼亚州的生物数据集的分析方法的实用性和灵活性。在免疫学的这些数据集的例子包括流式细胞仪,Luminex公司的数据,和基因分型(如单核苷酸多态性)的数据。相反,传统的信息可视化方法,VA恢复在手中的分析师的分析权力,让分析师进行实时数据探索的过程。我们选择了在弗吉尼亚州的软件称为抽穗后评估了几个弗吉尼亚州的工具。在视频演示,使用的方法称为配对分析,两种类型的分析任务分析和数据集之间进行了论证。配对分析,在弗吉尼亚州的定义,是一个分析的方法,其中一个VA工具专家一个领域的专家在分析端侧。该领域的专家是谁理解数据的意义,并要求所收集的数据可能解决的问题之一。然后创建工具专家,以帮助寻找可能回答这些问题的数据模式的可视化。之间的假设生成和数据的快速可视化显示滞后时间短是一个VA方式的主要优势。
Protocol
1。探索为基础的分析,对抽穗
- 你有一个数据集,你想探索在数据列之间的各种关系。
- (图1)点击“连接到数据”导入数据集。选择数据源类型,并按照说明导入您的数据集。
- (图1)确保尺寸货架包含断然措施货架包含的列,而从您的数据集的数值列。有时一个主题标识符,如维列可能被列为衡量,如果它是numerated。右键单击它,改变它的尺寸,并选择“转换尺寸”。在图1中,从分类数据集,如刺激的浓度水平和主题标识符列是正确摆在货架尺寸,并正确措施货架上观察细胞因子的浓度。
- (图2)如果在分析过程中,需要计算的字段,只需右键单击在任一尺寸或措施货架,并选择“创建计算字段”。输入计算公式中结合函数或数学运算领域。图2显示了如何创建一个新的领域称为PFD功能,通过聚合PFD2,PFD3,和PFD4值> 2。
- (图3)生成的2 - D在抽穗的情节,通常与维和利益的措施。由于界面提供了简单的拖动和拖放互动,维和度量的选择可以很容易地改变。行货架的尺寸通常是放置在列货架,并采取措施。在图3中,尺寸的货架包含刺激的浓度水平,措施货架包含观察到的细胞因子的浓度水平。
- (图3)为了区分由一个特定的层面,地方的可视化,文字,颜色或大小货架的尺寸标签,维度的性质而定。文本货架企图分化与所选维度提供的文本信息的标签,在可视化的数据。颜色和大小的货架会自动分辨颜色和大小的数据,在每个货架底部的滚动条可以调整。在图3中,放置在架子颜色的基因型,导致由不同颜色的三种基因型分离。
- (图3)过滤器在其他维度的具体列变量的可视化。这可以通过拖动到过滤器的架子尺寸标签。会出现一个窗口与列表中选择的值。选择的值将被留在可视化的唯一值。
- (图4),您可以与其他维度相结合可视化或措施,以产生一个矩阵的可视化。这可以通过拖放列货架多个层面,多种措施和行货架。图4包含两列的可视化矩阵列货架放置在两个不同的层面的例子。
- 产生类似的可视化,右击当前工作表的左下角,并选择“重复表”。
- 迭代分析的过程中,找出有趣的趋势,或离群,可以帮助您生成有关的数据的新假说。
- 您有多个来自同一源产生的数据集,并希望探讨这些数据集之间可能的连接。
- 放置在同一个来源,即两个电子表格放入同一工作簿中的多个数据集,允许抽穗通过相同的连接,这些数据集的连接。
- (图5)确保多个数据集相同的尺寸,选择连接的数据集,通过键值的逻辑加入。在图5中,有加入的五个核心价值:细胞类型,刺激的浓度水平,阶段或组,刺激,并受标识符。
- 执行类似第1.1节的分析。
2。演示基于需求
- 你知道数据之间的关系,但是你要能够快速生成一个列表在简报中使用的可视化。
- 按照协议第1.1节所述,相应的可视化和注释。
- 使用导出功能,在抽穗产生的可视化图像。
- 您已经生成了一套强大的可视化形表的工作簿和要共享工作簿。
- 抽穗包装工作簿另存为工作簿和共享此文件。
- 没有抽穗桌面的同事可以下载抽穗Reader打开包装的工作簿。抽穗Reader允许您的同事与您已创建的可视化交互。
3。代表性的成果
截图图1。抽穗后从Excel文件demo.xls中导入一个名为NFKBIA电子表格。正确的尺寸和措施货架分类和数值数据,分别填入。
图2计算字段窗口调用创建一个特殊的计算字段使用在抽穗。左下角框的列表可以帮助确定可能的领域,并在右侧的列表中包含可以在公式中使用的功能的英文缩写。在这个例子中,我们要添加PFD4,PFD3和PFD2的值,以获得最终的价值,我们为PFD> 2
图3。刺激的浓度水平与观察到的细胞因子浓度的可视化。可视化显示的刺激3M - 002的不同浓度水平对观察到的细胞因子TNF -α浓度的情节。线的颜色是指在NFKBIA在我们的先天免疫研究的个人基因的单核苷酸多态性的不同基因型。
图4。一个两列的可视化矩阵截图。我们生成一个两列的矩阵,以方便端侧两个刺激,3M - 003和LPS的反应比较。 x轴是两个不同的刺激的浓度水平,和y轴的地块计算字段的值,PFD> 2。
图5。这些抽穗对话窗口,说明如何在不同的电子表格记录的数据连接。从不同的电子表格数据连接,可以通过这些使用逻辑加入键值条款相结合。
可视化和分析工具 | ||||||||||
功能 | 抽穗 | 可见印花税 | xmdvtool | 与ggobi | 星光 | Gapminder | Visulab | InfoVis工具包 | Geotime | 启发 |
平行坐标图 | 是 | 是 | 是 | 是 | 是 | 无 | 是 | 是 | 无 | 无 |
散点图矩阵 | 是 | 无 | 是 | 是 | 是 | 无 | 是 | 无 | 无 | 无 |
尺寸减少 | 无 | 无 | 是 | 是 | 无 | 无 | 无 | 无 | 无 | 无 |
时间维度 | 是 | 是 | 无 | 是 | 是 | 是 | 无 | 是 | 是 | 无 |
地理空间尺寸 | 是 | 是 | 无 | 无 | 是 | 是 | 无 | 无 | 是 | 无 |
文本挖掘 | 无 | 无 | 无 | 无 | 是 | 无 | 无 | 无 | 无 | 是 |
直接操纵数据 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 无 | 是 | 无 |
过滤 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 无 | 是 | 是 |
可扩展到其它平台(如R) | 是 | 无 | 是 | 是 | 无 | 是 | 无 | 是 | 无 | 无 |
CSV表格式 | 是 | 是 | 是 | 是 | 无 | 无 | 是 | 是 | 是 | 无 |
XML数据格式 | 是 | 无 | 无 | 是 | 是 | 无 | 是 | 是 | 是 | 无 |
可处理10000 +行 | 是 | 无 | 无 | 无 | 是 | 无 | 无 | 无 | 无 | 是 |
文档 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 是 | 是 |
商用产品 | 是 | 无 | 无 | 无 | 是 | 无 | 无 | 无 | 是 | 是 |
表1列出的可视化分析工具和他们的一些特性。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
现代生物医学研究的高通量技术的问世,LED需要一个更有效的方法,分析研究数据的爆炸。可视化分析(VA)是通过交互式可视化界面(1)便利的分析推理的科学。在弗吉尼亚州的做法,恢复在分析人类的分析师手中的权力,违背传统的方法来检测电脑图案。可视化分析已在各个领域,如国防科研(1)和飓风的趋势(2),用于研究。到目前为止,有VA在生物学上的应用(3)只有几个例子。我们证明了在这个视频文章中,VA是一个可以添加到生物学家的分析工具库的方法。弗吉尼亚州的许多软件都可以从那些市售的学术实验室正在开发的。新生儿先天免疫(4)对于我们的工作中,我们选择,因为其适宜性分析在实验室中可用的电子表格形式的数据集的场景。其他VA的工具,其中一些我们在我们的视频文章中提到,可能会为其他类型的生物数据更合适。我们列出了一些比较流行的VA工具表1的功能和特点。这一清单是不巨细无遗,因为它是我们研究的范围之外,但它应该是一个很好的起点科学家点,以确定适合他们的特定数据集的VA工具。
主要有两个关于弗吉尼亚州的点,我们想强调。其中,在弗吉尼亚州的做法是旨在帮助分析师迅速,如现场一般趋势和数据离群模式作为一个探索的过程。 VA的主要重点是提供一个强大的可视化技术,为大型数据集。它不是一种替代的统计分析。事实上,大多数的VA工具是非常有限的能力进行统计分析,虽然我们预计在不久的将来改变。第二点,我们要提到的是,前处理数据导入的数据集到VA工具前分析成功的关键。请记住,在一个人类可读的方式,在电子表格中的数据有时从一个机器可读的格式不同。数据预处理是一个耗时的步骤,往往需要大量的数据转化,如果数据的原始格式是不适合的VA工具。我们强烈建议上传到下游分析,如那些在弗吉尼亚州的软件工具允许灵活和高效的数据录入和编码的精心规划。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
没有利益冲突的声明。
Acknowledgments
我们想感谢温哥华的可视化分析(爆)研究所的成员,为项目提供意见和建议。特别是,我们要感谢约翰布赖恩费舍尔,莳萝,和大卫Darvill。我们还要感谢他们的支持和有益的讨论Kollmann实验室成员。这项工作是支持的,由国家过敏和传染病研究所,国立卫生格兰特N01 AI50023研究所的一部分;过敏原罗富国教育资助07 - A1A和07 - B2B的;和迈克尔史密斯健康研究基金会。 TRK是从宝来惠康基金广告事业在生物医学科学奖由加拿大卫生研究培训资助加拿大儿童健康临床医师科学家计划研究所与患病儿童基金,儿童与家庭研究所合作,在部分支持(不列颠哥伦比亚省),妇女和儿童健康研究所(艾伯塔),省和马尼托巴省儿童健康研究所。
References
- Thomas, J., Cook, K. Illuminating the Path: The Research and Development Agenda for Visual Analytics. , IEEE CS Press. (2005).
- Steed, C., Swan, J., Jankun-Kelly, T., Fitzpatrick, P. Guided Analysis of Hurricane Trends Using Statistical Processes Integrated with Interactive Parallel Coordinates. IEEE Symposium on Visual Analytics Science and Technology. , IEEE. Atlantic City. 19-26 (2009).
- Saraiya, P., North, C., Lam, V., Duca, K. An Insight-Based Longitudinal Study of Visual Analytics. IEEE Transactions on Visualization and Computer Graphics. 12, 1511-1522 (2006).
- Kollmann, T. R., Crabtree, J., Rein-Weston, A., Blimkie, D., Thommai, F., Wang, X. Y., Lavoie, P. M., Furlong, J., Fortuno, E. S. 3rd, Hajjar, A. M., Hawkins, N. R., Self, S. G., Wilson, C. B. Neonatal innate TLR-mediated responses are distinct from those of adults. J. Immunol. 183, 7150-7160 (2009).