Behavior

使用移动眼动追踪器捕捉联合视觉注意力的方法

Published: January 18, 2020 doi: 10.3791/60670

¹Learning, Innovation, and Technology Lab, Graduate School of Education, Harvard University

Summary

使用多式联运传感器是了解社会互动在教育环境中作用的一种有希望的方法。本文介绍了一种使用移动眼动仪从共定位的dyads中捕捉关节视觉注意力的方法。

Abstract

随着新技术的进步，有可能以前所未有的准确性在微观层面研究社会互动。高频传感器（如眼动仪、电极活动腕带、EEG 波段和运动传感器）提供毫秒级的观察。这种精度水平使研究人员能够收集关于社交互动的大型数据集。在本文中，我讨论了多个眼动仪如何捕捉社会互动、联合视觉关注（JVA）的基本结构。JVA已被发展心理学家研究，以了解儿童如何获得语言，学习科学家如何理解小团体学习者如何合作，社会科学家了解小团队的互动。本文介绍了一种使用移动眼动仪在共置设置中捕获 JVA 的方法。它提出了一些经验结果，并讨论了捕获微观观测以了解社会相互作用的影响。

Introduction

在过去的一个世纪里，JVA得到了广泛的研究，特别是由研究语言习得的发展心理学家。人们很快发现，共同的关注不仅仅是一种学习单词的方式，而是^{儿童思想理论}的先兆。因此，它在许多社会过程中起着重要的作用，例如与他人沟通、协作和培养同理心。例如，孤独症儿童缺乏与照顾者协调视觉注意力的能力，这与严重的社会缺陷有关^2。人类需要共同关注，成为社会的功能成员，协调自己的行动，并学习他人。从儿童获得他们的第一句话，青少年学习从学校教师，学生合作的项目，到成人群体为共同的目标，共同的关注是建立个人之间的共同点的基本机制^3。本文重点研究了JVA在教育研究方面的研究。了解共同关注如何随时间发展对于研究协作学习过程至关重要。因此，它在社会建构主义环境中起着主导作用。

共同关注的确切定义仍在争论^4。本文涉及联合注意力（JA）的子结构，即JVA。当两个受试者同时查看同一地点时，就会发生 JVA。应当指出，JVA没有提供有关JA研究中其他重要的要约的信息，例如监测共同、相互和共同的关注，或者更普遍地监测另一个集团成员的认知意识。本文通过组合来自两个参与者的眼动追踪数据并分析他们对齐眼睛的频率，对 JVA 进行操作和简化。对于更全面的讨论，感兴趣的读者可以了解更多关于研究在Siposovaetal4.

在过去的十年中，技术进步从根本上改变了对JVA的研究。主要的范式转变是使用多个眼动仪来获得注意力对齐的定量测量，而不是在实验室或生态环境中对录像进行定性分析。这一发展使研究人员能够收集有关dyads视觉协调的精确、详细的信息。此外，眼动仪正变得越来越实惠：直到最近，他们的使用被保留给学术机构或大公司。现在，可以购买价格低廉的眼动仪来生成可靠的数据集。最后，将凝视跟踪功能逐步纳入高端笔记本电脑、虚拟和增强现实耳机等现有设备表明，眼动追踪将很快变得无处不在。

由于眼动追踪设备的普及，了解它们能够和不能告诉我们的社交互动非常重要。本文介绍的方法标志着朝这个方向迈出的第一步。我解决了从多个眼动仪捕获 JVA 的两个挑战：在 1）时间尺度上同步数据，在空间尺度上同步 2）。更具体地说，该协议利用放置在真实环境中的基准标记来通知计算机视觉算法，参与者在哪些位置引导他们的目光。这种新方法为严格分析小群体中的人类行为铺平了道路。

本研究规程符合哈佛大学人类研究伦理委员会的指导方针。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 参与者筛选

确保招募具有正常或矫正视力的参与者。因为参与者将被要求佩戴移动眼动仪，他们可以戴隐形眼镜，但不能戴普通的眼镜。

2. 实验准备

眼动追踪设备
1. 使用任何能够捕捉真实环境中眼动的移动眼动仪。
  注：此处使用的移动眼动仪是两个托比专业眼镜2（见材料表）。除了可以跟踪眼睛运动的专用摄像机外，眼镜还配备了高清场景摄像头和麦克风，以便在用户视觉场的上下文中可视化凝视。这些眼镜每秒捕获 50 次凝视数据。其他研究人员已经使用ASL移动眼^5，SMI^6，或学生实验室^7，所有这些都提供视频流从场景摄像头和眼跟踪坐标在不同的采样率（30-120赫兹）。下面的过程可能与其他眼动追踪设备略有不同。
基准标记
1. 以下两个步骤（即时间和空间对齐）需要使用基准标记。有几个计算机视觉库为研究人员提供这些标记和算法，以在图像或视频源上检测它们。所述协议使用奇利塔格库^8。
时序对齐
1. 由于眼动追踪数据记录在两个单独的单元上，因此请确保数据正确同步（图 1）。可以使用两种主要方法。此手稿仅涵盖第一种方法，因为服务器同步与每个品牌的移动眼动仪的工作方式不同。
  1. 在计算机屏幕上简要显示基准标记，以标记会话的开始和结束。这类似于视觉"手拍" （图 2）。
  2. 或者，使用服务器同步两个数据收集单元的时钟。此方法稍微更准确，如果需要更高的时间精度，建议使用此方法。
空间对齐
1. 要查找两个参与者是否同时查看同一位置，请将其视线映射到公共平面。此平面可以是实验设置的图片（参见图 3的左侧）。在实验前仔细设计此图像。
2. 基准标记的大小：基准标记的一般大小取决于用于从眼动视频检测它们的算法。靠近参与者的曲面可以具有较小的基准标记，而离参与者较远的曲面需要更大，以便从参与者的角度来看它们看起来相似。请事先尝试不同的大小，以确保可以从眼动追踪视频中检测到它们。
3. 基准标记数：要使将注视点映射到公共平面的过程成功，请确保在任意给定时间从参与者的角度看到多个基准标记。
4. 基准标记的位置：使用基准标记条将相关感兴趣区域框上（例如，参见图 3中的笔记本电脑屏幕）。
最后，运行引导来测试同步过程并确定基准标记的最佳位置、大小和数量。可通过计算机视觉算法处理眼动视频，以查看基准标记是否可靠检测到。

3. 运行实验

指示
1. 指示参与者戴上眼动眼镜，就像戴普通眼镜一样。根据参与者独特的面部特征，可能需要使用不同高度的鼻片来保持数据质量。
2. 打开眼动仪后，让参与者将录制单元剪辑到自己，以允许自然的身体运动。
校准
1. 在启用软件的校准功能时，指示学员查看 Tobii 提供的校准标记的中心。校准完成后，可以从软件内开始录制。
2. 指示学员在校准后不要移动移动眼动仪。如果这样做，数据可能不准确，需要再次执行校准过程。
数据监控
1. 在研究期间监控数据收集过程，并确保正确收集眼动追踪数据。大多数移动眼动仪都可以在单独的设备（例如平板电脑）上提供实时流。
数据导出
1. 录制会话完成后，指示学员取下眼动镜和数据收集单元。关闭设备。
2. 通过从导入会话数据的数据收集单元中删除 SD 卡，使用另一个软件 Tobii Pro Lab 提取数据。Tobii Pro Lab 可用于重播视频、创建可视化效果，以及将眼动追踪数据导出为逗号分隔（.csv）或选项卡分隔（.tsv）文件。

4. 预处理双眼跟踪数据

健全性检查眼动追踪数据
1. 数据收集后，目视地检查眼动追踪数据。对于某些参与者来说，缺少数据的情况并不少见。例如，某些特定的眼睛生理学可能会给眼动追踪算法带来问题，眼镜可能在实验期间移动，数据收集软件可能会崩溃，等等。
2. 使用描述性统计信息检查每个会话期间丢失的数据量，并排除大量缺少或嘈杂数据的会话。
时序对齐
1. 修剪来自每个移动眼动仪的数据，以仅包括参与者之间的交互。这可以通过使用上述方法来实现（即，在会话开始和结束时向参与者显示两个特殊的基准标记）。然后，可以从眼动视频中检测到这些基准标记以修剪数据集。
空间对齐
注：要检测两个参与者是否同时查看同一位置，有必要将参与者的凝视重新映射到公共平面（即实验设置的图像）。实现这一目标的计算方法是同源法（即平面的透视变换）。从技术角度看，空间中同一平面表面的两个图像由同声矩阵相关。基于一组公共点，此矩阵可用于推断两个平面之间附加点的位置。例如，在图3中，如果计算机视觉算法知道讲道上的基准标记的位置，它可以将参与者的注视重新映射到左侧的共性平面上。白线连接每个参与者的视频源和场景共享的两组点，然后用于构建同源图以重新映射左侧的绿色和蓝色点。
1. 使用 Python 版本的 OpenCV，例如，从基准标记计算同声矩阵，然后将眼动跟踪数据重新映射到实验设置（或您选择的语言中的任何其他合适的库）的场景。OpenCV 提供了两个有用的功能：查找宏图（）以获取同源矩阵，以及透视变换（）将点从一个透视转换为另一个透视。
2. 要使用findHomical（）运行有两个参数：源点的 X、Y 坐标（即从参与者的场景视频中检测到的基准标记，如图3右侧所示）和相应的目标点（即，在场景图像上检测到的相同基准标记，如图3左侧所示）。
3. 将生成的同源矩阵馈入透视 Transform（）函数，以及需要从源图像映射到目标图像的新点（例如，如图 3右侧显示为蓝色/绿色点的眼动追踪数据）。透视变换函数返回场景图像上相同点的新坐标（即图 3左侧显示的蓝色/绿色点）。
  注：有关详细信息，OpenCV 官方文档提供了示例代码和示例来实现同源：docs.opencv.org/master/d1/de0/tutorial_py_feature_homography.html。
健全检查同源性
1. 完成整个会话的第 4.3 节，并在移动眼动视频的每个帧上执行同声注，以检查同源学的质量。虽然没有自动方法估计生成的眼动跟踪数据的准确性，但应使用如图 4所示的视频来手动检查每个会话的健全性。
2. 如果质量低于预期，请考虑其他参数以改善同源学的结果：
  1. 检测到的基准标记数：仅当可以从视频流中检测到足够的基准标记时，才执行同源形。可以通过检查上面制作的视频来确定此数字。
  2. 基准标记的位置：如果不同的标记位于不同的深度和方向，则当选择最接近注视坐标的标记时，同源学的质量通常会提高，因为有足够的标记来构建坚固的标记同源学。
  3. 基准标记的方向：组合具有不同方向（例如水平和垂直）的基准标记会产生不准确的同义。建议首先检测参与者正在查看的平面或兴趣区域（AOI），例如计算机屏幕、备忘单、表格，参见图 3），然后使用此平面上的基准标记进行同源。
  4. 视频流的质量：突然的头部移动会使视频帧模糊，使数据无法使用，因为无法可靠地检测到基准标记（图 4）。本文的方法不适用于涉及大量突然头部运动的实验。

5. 分析双眼跟踪数据

缺少数据
1. 为了确保数据正确重新映射到参考图像，生成可视化图形（例如，图 5，图 6）和描述性统计信息，以检查缺少的数据量。
交叉重复图
1. 使用交叉重复图⁹表示两个参与者之间的视觉同步（图 6），其中 X 轴表示第一个参与者的时间，Y 轴表示第二个参与者的时间。黑色方块表示参与者正在查看同一区域，黑色对角线描述两个对象在同一时间查看同一事物，对角线外的黑色方块描述两个主体在时滞下查看同一事物的情况。最后，区分缺失数据（白色方块）和没有 JVA（灰色方块）的现有数据有助于识别有问题的会话。这为研究人员提供了视觉健全性检查。
计算 JVA
1. 筛选缺失数据后，通过计算参与者的注视在 -2/+2 s 时间窗口中场景中相同半径（定义如下）的次数来计算 JVA 的指标。将此数字除以可用于计算 JVA 的有效数据点数。划分的结果代表两个主体在同一地点共同查看的时间百分比。最后一步是必要的，以避免在同源学之后使组的分数增加，并带有更多的数据。
  注：在计算 JVA 之前，需要设置两个参数：两个凝视点之间的最小距离，以及它们之间的时间窗口（图 7： 1）时间窗口：早期基础研究¹⁰使用单个眼动仪测量侦听器和扬声器之间的 JVA。研究人员让第一组参与者（"演讲者"）谈论一个电视节目，剧中人物出现在他们面前。然后，第二组参与者（"听众"）在收听扬声器的录音时观看了同一节目。比较了说话者和听众的眼动，发现听众的眼睛运动与说话者的眼睛运动非常匹配，延迟2s。在随后的研究中^，11名研究人员分析了实时对话，发现JVA的最佳捕捉瞬间延迟了3个。由于每个任务都是唯一的，并且可能表现出不同的时滞，因此建议探索不同的时滞如何影响给定实验的结果。总体而言，根据实验任务在 ± 2/3 s 的时间窗口中查找 JVA，然后探索不同的时滞如何更改结果是很常见的。2）凝视之间的距离：两个注视之间没有经验定义的距离，可以将它们计为 JVA。这个距离取决于研究人员定义的研究问题。研究问题应说明感兴趣的目标的大小。在图 7中看到的示例中，选择场景图像的半径为 100 像素（蓝色/绿色圆圈）进行分析，因为当参与者在迷宫中观察机器人时，以及计算机屏幕上的类似用户界面元素（这是此实验任务的两个主要兴趣区域）足以捕获。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

上述方法用于研究学习物流职业培训项目（n = 54）¹²的学生。在这个实验中，一对学生与模拟小型仓库的有形用户界面（TUI）进行了交互。在 TUI 上放置的基准标记允许研究团队将学生的目光重新映射到公共平面和计算 JVA 级别。研究结果显示，JVA水平较高的群体往往在交给他们的任务上做得更好，学习更多^{，协作质量}更好（图8，左侧）。双眼跟踪数据集还允许我们捕获特定的组动态，如自由骑手效果。我们估计了这种影响，确定了谁可能启动了JVA的每一刻（即谁首先凝视在那里），谁对它作出了回应（即，谁的目光是第二个）。我们发现，学习成绩与学生平等分担启动和响应JVA提议的责任的倾向之间存在显著的相关性。换句话说，同一个人总是启动JVA时刻的群体不太可能学习（图8，右侧），而同样分担这种责任的群体更有可能学习。这一发现表明，我们可以超越仅仅量化合资企业，并实际使用双眼跟踪数据识别群体动态和生产力。

图 1：每个参与者生成两个视频源，其中 X，Y 坐标表示他们在每个视频帧上。此方法解决了参与者之间的时间和空间同步数据。请点击此处查看此图的较大版本。

图 2：同步两个数据集的方法。在计算机屏幕上简要显示唯一的基准标记，以标记活动的开始和结束。请点击此处查看此图的较大版本。

图 3：使用环境中传播的基准标记将参与者的目光重新映射到公共计划（左侧）。白线表示在两个图像中检测到的基准标记。请点击此处查看此图的较大版本。

图 4：数据质量差的示例。左图：头部突然移动导致眼动视频中的模糊帧。在此图像中无法检测到基准标记。右图：基准标记数据未与视频源正确同步的影像学失败。请点击此处查看此图的较大版本。

图 5：热图。左图：将眼动追踪数据的热图重新映射到实验场景。此可视化用作同源学的健全性检查。右：缺少太多数据且必须丢弃的组。请点击此处查看此图的较大版本。

图 6：从三个 dyads 生成的交叉重复图，以可视化 JVA。P1 表示第一个参与者的时间，P2 表示第二个参与者的时间。黑色方块显示JVA;灰色方块显示参与者在不同地方观察的时刻;白色方块显示缺失的数据。沿主对角线的正方形表示参与者同时查看同一地点的时刻。此可视化用作从合并眼动追踪数据中测量 JVA 的健全性检查。请点击此处查看此图的较大版本。

图 7：在两个参与者之间检测到 JVA 的视频帧（红点）。Richardson 等人¹¹建议在计算 JVA 时查看 +/-2 s 的时间窗口。此外，研究人员需要定义两个凝视点之间的最小距离，以计为JVA。在上面的中间图像上选择了 100 像素的半径。请点击此处查看此图的较大版本。

图 8：结果示例。来自Schneider等人¹²的数据，其中在同一地点查找的时间百分比与参与者的协作质量相关：r（24） = 0.460，P = 0.018（左侧），启动/响应 JVA 报价的不平衡与其学习收益相关：r（24） = 0.47，P = 0.02（右侧）。请点击此处查看此图的较大版本。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

本文中描述的方法提供了一种在共置的 dyads 中捕获 JVA 的严格方法。随着经济实惠的传感技术和计算机视觉算法的改进，现在可以以以前无法达到的精度研究协作交互。该方法利用在环境中传播的基准标记，并使用同质图形将参与者的目光重新映射到公共平面上。这使得研究人员能够严格研究同置组的JVA。

此方法包括需要在实验的各个点执行的多个健全性检查。由于这是一个复杂的过程，研究人员需要确保生成的数据集完整有效。最后，建议在实际实验前进行试验性研究，并在数据收集完成后通过视频重建参与者的交互（图3，图4，图5，图6）。

与此方法相关的几个限制：

参与者人数。虽然这种方法适用于两个参与者，但分析对于较大的组来说变得更加复杂。基准标记仍可用于重新映射对地面真相的凝视，但知道如何识别 JVA 成为一个更微妙的过程。JVA 应该定义为每个人同时查看同一地点的时间，还是两个参与者凝视同一地点的时间？此外，超过 2~3 人使用交叉重复图等可视化效果变得不切实际。

设置。本文中描述的方法适用于小型受控设置（例如实验室研究）。开放式设置（如室外或大空间）通常过于复杂，无法使用基准标记进行检测，因此会限制眼动追踪数据的有用性。此外，基准标记可能会分散环境的注意力并造成混乱。将来，更好的计算机视觉算法将能够自动提取两个视角之间的公共功能。已经有一些算法存在用于此目的，但我们发现，对于上述实验类型，精度级别尚不可接受。

AOIs.与上述点相关，计算同源和交叉重复图与稳定数量的感兴趣区域配合良好，但在比较不同任务和不同感兴趣的区域时必须进行更正。

使用设备。移动眼动仪可能具有侵扰性，影响参与者的行为或未能使用特定的眼部生理学。

总之，本文所描述的方法是研究共置相互作用的一种有前途的方法。它允许研究人员捕获JVA的精确指标，这是社会科学中的关键结构^1。此外，与传统定性^{分析相比，}通过这种方法可以检测出更多细粒度的协作学习指标。简而言之，它是研究社会互动的更有效、更准确的方法。

该方法的潜在应用包括设计干预措施，通过实时眼动追踪数据支持协作。一些开创性的工作已经产生了共享的凝视可视化使用远程眼动仪，这已被证明有利于从距离¹⁴的协作学习。与对照组相比，能够实时看到伴侣凝视的Dyads表现出更多的JVA，合作得更好，取得了更高的学习成绩。今后的工作将检查此类干预是否可以支持共存设置（例如，通过虚拟或增强现实耳机）中的协作流程。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

提交人宣称，他们没有相互竞争的经济利益。

Acknowledgments

这一方法的开发得到了国家科学基金会（NSF #0835854、由瑞士教育、研究和创新国务秘书会和哈佛教育学院院长风险基金资助的职业教育领先之家技术的支持。

Materials

Name	Company	Catalog Number	Comments
Tobii Glasses 2	Tobii	N/A	https://www.tobiipro.com/product-listing/tobii-pro-glasses-2/
Fiducial markers	Chili lab – EPFL, Switzerland	N/A	https://github.com/chili-epfl/chilitags

DOWNLOAD MATERIALS LIST

References

Tomasello, M. Joint attention as social cognition. Joint attention: Its origins and role in development. Moore, C., Dunham, P. J. , Lawrence Erlbaum Associates, Inc. Hillsdale, NJ, England. 103-130 (1995).
Mundy, P., Sigman, M., Kasari, C. A longitudinal study of joint attention and language development in autistic children. Journal of Autism and Developmental Disorders. 20, 115-128 (1990).
Clark, H. H., Brennan, S. E. Grounding in communication. Perspectives on socially shared cognition. Resnick, L. B., Levine, J. M., Teasley, S. D. , American Psychological Association. Washington, DC, US. 127-149 (1991).
Siposova, B., Carpenter, M. A new look at joint attention and common knowledge. Cognition. 189, 260-274 (2019).
Gergle, D., Clark, A. T. See What I'm Saying?: Using Dyadic Mobile Eye Tracking to Study Collaborative Reference. Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work. , ACM. New York, NY, USA. 435-444 (2011).
Renner, P., Pfeiffer, T., Wachsmuth, I. Spatial References with Gaze and Pointing in Shared Space of Humans and Robots. Spatial Cognition IX. Freksa, C., Nebel, B., Hegarty, M., Barkowsky, T. , Springer International Publishing. 121-136 (2014).
Shvarts, A. Y. Automatic detection of gaze convergence in multimodal collaboration: a dual eye-tracking technology. The Russian Journal of Cognitive Science. 5, 4 (2018).
Bonnard, Q., et al. Chilitags: Robust Fiducial Markers for Augmented Reality [software]. , Available from: https://github.com/chili-epfl/qml-chilitags (2013).
Jermann, P., Mullins, D., Nüssli, M. -A., Dillenbourg, P. Collaborative Gaze Footprints: Correlates of Interaction Quality. Connecting Computer-Supported Collaborative Learning to Policy and Practice. CSCL2011 Conference Proceedings., Volume I - Long Papers. , 184-191 (2011).
Richardson, D. C., Dale, R. Looking To Understand: The Coupling Between Speakers' and Listeners' Eye Movements and Its Relationship to Discourse Comprehension. Trends in Cognitive Sciences. 29, 1045-1060 (2005).
Richardson, D. C., Dale, R., Kirkham, N. Z. The Art of Conversation Is Coordination Common Ground and the Coupling of Eye Movements During Dialogue. Psychological Science. 18, 407-413 (2007).
Schneider, B., et al. Using Mobile Eye-Trackers to Unpack the Perceptual Benefits of a Tangible User Interface for Collaborative Learning. ACM Transactions on Computer-Human Interaction. 23, 1-23 (2016).
Meier, A., Spada, H., Rummel, N. A rating scheme for assessing the quality of computer-supported collaboration processes. Int. J. Comput.-Support. Collab. Learn. 2, 63-86 (2007).
Schneider, B., Pea, R. Real-time mutual gaze perception enhances collaborative learning and collaboration quality. Journal of Computer-Supported Collaborative Learning. 8, 375-397 (2013).

Behavior

使用移动眼动追踪器捕捉联合视觉注意力的方法

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.