Summary
幼儿不是被动地观察世界, 而是积极探索和参与他们的环境。该协议为使用头戴式眼动仪记录婴儿和幼儿在自然行为背景下的动态视觉环境和视觉注意力提供了指导原则和实用建议。
Abstract
幼儿的视觉环境是动态的, 随着儿童在身体和视觉上探索空间和物体并与周围的人互动, 他们的视觉环境也在不断变化。头戴式眼动追踪提供了一个独特的机会来捕捉儿童的动态自我中心视图, 以及他们如何在这些视图中分配视觉注意力。该协议为研究人员在实验室和更自然的环境中使用头戴式眼动仪提供了指导原则和实用建议。与基于屏幕的眼动追踪相比, 通过提高头部和身体运动的可移植性和自由度, 通过增加在生态上更有效的环境中收集数据的机会, 头戴式眼动是对其他实验方法的补充。该协议还可以与其他技术 (如运动跟踪和心率监测) 集成, 以提供高密度多式联运数据集, 用于检查自然行为、学习和开发, 而不是以前可能的。本文在一项旨在调查幼儿在一个自然背景下的视觉注意力的研究中, 说明了头戴式眼动过程中产生的数据类型: 与家长自由流动的玩具游戏。成功使用该协议将使研究人员能够收集数据, 这些数据不仅可用于回答有关视觉注意力的问题, 还可用于回答有关其他感知、认知和社交技能及其发展的广泛问题。
Introduction
在过去的几十年里, 人们对研究婴幼儿视觉注意力的发展越来越感兴趣。这种兴趣在很大程度上源于利用时间测量作为评估婴儿时期其他认知功能的主要手段, 并已演变为研究婴儿视觉注意力本身。当代对婴幼儿视觉注意力的调查主要是在屏幕眼动追踪任务中测量眼动。婴儿坐在椅子或父母的腿在屏幕前, 而他们的眼睛运动是监测在呈现静态图像或事件。然而, 这些任务未能反映自然视觉注意力的动态性质和儿童自然视觉环境产生的手段----积极的探索。
婴儿和幼儿是活跃的生物, 移动他们的手、头、眼睛和身体来探索周围的物体、人和空间。身体形态、运动技能和行为的每一个新发展--爬行、行走、拾取物体、与社会伙伴接触--伴随着早期视觉环境的变化。因为婴儿所做的决定了他们所看到的, 他们所看到的服务于他们在视觉引导的行动中所做的事情, 因此研究视觉注意力的自然发展最好是在自然行为的背景下进行1。
头戴式眼动仪 (et) 已经发明并用于成人几十年的时间为 2,3。直到最近, 技术进步才使头戴式眼动技术适合婴儿和幼儿。参与者头上安装了两个轻量级相机, 一个场景摄像头朝外, 捕捉参与者的第一人称视角, 一个眼睛摄像头朝内拍摄眼睛图像。校准过程为算法提供训练数据, 该算法尽可能准确地将眼睛图像中瞳孔和角膜反射 (cr) 的变化位置映射到视觉上所关注的场景图像中的相应像素。该方法的目的是捕捉婴儿和婴儿在婴儿自由移动时对这些环境进行主动视觉探索的自然视觉环境。这些数据不仅可以帮助回答关于视觉注意力的问题, 还可以帮助回答关于广泛的感知、认知和社会发展的问题 4、5、6、7、8。这些技术的使用改变了对共同关注的理解 7、8、9、持续关注10、随着年龄和运动的发展而改变的视觉体验4,6,11、视觉体验在单词学习中的作用12。本文为婴儿和幼儿进行头部安装的眼动追踪实验提供了指导原则和实际建议, 并说明了在一个自然情况下, 头戴式眼动追踪可以产生的数据类型。幼儿的背景: 与家长自由流动的玩具游戏。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
本教程是基于一个程序, 收集头戴式眼动数据与幼儿批准的机构审查委员会在印第安纳大学。在幼儿参与实验之前, 获得了知情的父母同意。
1. 研究的准备工作
-
眼动追踪设备.选择几种商用眼动追踪系统中的一个, 该系统要么专门为儿童销售, 要么修改系统, 使其使用定制的婴儿帽, 如图1和图 2所示。通过以下步骤, 确保眼动追踪系统具有对婴儿和幼儿进行检测所需的功能:
- 选择一个在定位方面可调节的场景摄像机, 该摄像机具有足够宽的角度来捕捉适合于解决研究问题的视场。要在这里描述的自由游戏环境中捕捉大多数幼儿的活动, 请选择一个能捕捉到至少100度对角线视野的相机。
- 选择一个在定位方面可调节的眼睛摄像头, 并有一个红外 led 内置到相机或相邻的相机, 并定位在这样一个方式, 眼睛的角膜将反映这种光。请注意, 某些眼动追踪模型具有固定定位, 但建议采用可提供灵活调整的模型。
- 选择一个眼动追踪系统, 是尽可能不显眼和轻量级, 以提供最大的机会, 婴儿幼儿将容忍佩戴设备。
- 将系统嵌入到一个盖帽中, 方法是将场景和眼相机连接到贴在尼龙搭扣的另一侧的 velcro 表带上, 并将摄像机放置在幼儿视线中心之外。
注: 设计类似于眼镜的系统不是最佳的。幼儿面部的形态与成人不同, 停留在幼儿鼻子或耳朵上的部位可能会分散参与者的注意力和不舒服。 - 如果 et 连接到计算机上, 将电缆捆绑在一起, 并将其放在参与者的背部后面, 以防止分心或绊倒。或者, 使用一个独立的系统, 将数据存储在中间设备 (如移动电话) 上, 该系统可以放置在孩子身上, 从而实现更大的移动性。
- 将系统嵌入到一个盖帽中, 方法是将场景和眼相机连接到贴在尼龙搭扣的另一侧的 velcro 表带上, 并将摄像机放置在幼儿视线中心之外。
- 选择允许离线校准的校准软件包。
-
录制环境。
- 在数据收集过程中, 请考虑孩子在整个空间中移动的程度。如果一个职位是可取的, 提到这一点的孩子的照顾者, 以便他们可以帮助孩子留在所需的位置。从空间中取出所有潜在的干扰物, 除了孩子应该与之互动的干扰, 这些干扰物应该是触手可及的。
- 使用第三人称相机, 协助以后对孩子们的行为进行编码, 并确定 e t 可能被取代的时刻。如果孩子将在整个空间中移动, 也可以考虑增加相机。
2. 收集眼动追踪数据。
- 人事和活动.有两个实验者在场, 一个是与孩子互动和占据孩子, 另一个是放置和定位 e t。
- 让孩子充分参与占据孩子手的活动, 这样孩子在被放在头上的时候, 就不会伸手去移动或抓住 e t。考虑鼓励人工操作的玩具和孩子在实验者或家长给孩子读书时可以持有的小书。
- 将 et 放在孩子身上.由于幼儿佩戴头戴式 et 的耐受性各不相同, 因此请遵循以下建议, 以促进在儿童身上放置和维护 et 的成功:
- 在研究前的时间里, 要求照顾者让孩子戴上帽子或豆豆, 类似于 e t 使用的东西, 让他们习惯头上有什么东西。
- 在研究中, 有不同类型的盖帽可用于 e t。通过购买不同大小和风格的帽子定制帽子, 如可以向后戴的球帽或动物耳朵的豆豆, 并添加 velcro, 其中的眼动追踪系统, 安装在 velcro 的另一侧, 可以附加。还可以考虑让照顾者和实验者戴上帽子, 以鼓励孩子有兴趣和意愿也戴上帽子。
- 在给孩子戴上帽子之前, 让实验者脱敏幼儿的头部, 当幼儿的注意力和兴趣被引导到玩具上时, 轻轻触摸头发几次。
- 要将 et 放在孩子身上, 请在孩子的后面或一侧 (参见图 2a)。当孩子的手被占据时, 比如孩子手里拿着玩具时, 把 e t 放在孩子身上。
- 如果孩子看着放置 e t 的实验者, 打招呼, 让孩子知道正在做什么, 同时迅速将 e t 放在孩子的头上。在放置 et 时避免移动太慢, 这可能会导致儿童痛苦, 并可能导致定位不良, 因为孩子有更多的机会移动他们的头或到达 e t。
- 为了减少放置后调整相机所花费的时间, 在将 et 放置在参与者身上之前, 请将摄像机设置为在孩子头部时处于预期位置 (请参见2.3.1 节和 2.3.2)。
- 定位 et 的场景和眼睛摄像头.一旦 e t 在孩子的头上, 在监控这些摄像机的视频源的同时, 对场景和眼睛摄像头的位置进行调整:
- 将场景摄像机放在额头的较低位置, 以最好地接近孩子的视野 (参见图 1b);将场景摄像机视图居中, 显示孩子在研究过程中将看到的内容。
- 请记住, 手和手持的对象将始终非常接近孩子, 并在场景相机视图中较低, 而更多的对象将在背景和更高的场景相机视图中。定位场景摄像机, 以最佳方式捕捉与研究问题最相关的视图类型。
- 通过使用小玩具或激光笔吸引孩子对视野中特定位置的关注, 测试场景相机的位置。确保这些位置处于研究期间感兴趣的区域的预期查看距离 (请参见图 3)。
- 通过检查水平表面在场景摄像机视图中是否显示为平面来避免倾斜。标记场景摄像机的垂直方向, 以减少相机在重新定位过程中意外倒置的可能性, 但请注意, 在后处理过程中的额外步骤可以在必要时将图像恢复到正确的方向。
- 要获得高质量的凝视数据, 请定位眼相机以检测瞳孔和角膜反射 (cr) (参见图 2)。
- 放置眼睛摄像头, 使其以孩子的瞳孔为中心, 在眼睛的整个运动范围内, 没有脸颊或睫毛的遮挡 (有关好的和坏的眼睛图像的例子, 请参见图 2c-f) 。为了帮助解决这个问题, 把眼睛摄像头放在眼睛下面, 靠近脸颊, 向上指着, 不让相机靠近孩子的视线中心。或者, 将眼睛摄像头放置在眼睛下方和眼睛的外侧, 指向内。
- 确保相机离眼睛足够近, 使其运动在眼睛相机图像中产生相对较大的瞳孔位移。
- 通过确保眼睛图像中的眼角可以形成一条水平线来避免倾斜 (见图 2c)。
- 确保瞳孔与虹膜的对比度相对较高, 以便将瞳孔与虹膜准确区分开来 (参见图 2c)。为了帮助解决这个问题, 请调整 led 灯的位置 (如果靠近眼睛摄像头) 或眼睛摄像头与眼睛的距离 (如果 led 不能独立调节)。为了增加瞳孔检测, 将 led 指示灯放置在一个角度, 而不是直接进入眼睛。确保对 led 指示灯的任何调整仍然会产生清晰的 cr (参见图 2c)。
- 将场景摄像机放在额头的较低位置, 以最好地接近孩子的视野 (参见图 1b);将场景摄像机视图居中, 显示孩子在研究过程中将看到的内容。
- 在研究过程中获取点, 以便进行离线校准。
- 一旦场景和眼睛图像尽可能高质量, 通过提请孩子注意他们视野中的不同位置来收集校准数据。
- 在不同表面上获取校准点, 并将孩子的注意力明确地引导到他们视野中的一个小的、清晰的点 (参见图 3)。例如, 在坚实的背景下使用激光指针, 或使用带有独立激活的小 led 灯的表面。
- 限制孩子眼中存在其他有趣的目标, 以确保孩子看校准目标。
- 在提请注意需要眼睛大角度位移的不同位置之间进行交替处理。
- 平等地覆盖视野, 不要在点之间移动太快, 这将有助于在离线校准过程中从孩子那里找到清晰的囊, 以帮助推断他们在寻找下一个位置时。
- 如果孩子没有立即查看新的突出显示位置, 请通过晃动激光、打开 led 或用手指触摸位置来吸引他们对该位置的关注。
- 如果可行, 获得比需要更多的校准点, 以防有些校准点以后无法使用。
- 在校准过程中, 确保孩子的身体位置与研究期间将使用的位置相匹配。
- 例如, 如果预计孩子稍后会站立, 则不要在孩子坐着时收集校准点。
- 确保孩子与校准目标之间的距离与研究期间孩子与区域之间的距离相似。
- 如果在实验过程中, 孩子主要是看距离较远的物体, 不要将校准点放置在非常靠近孩子身体的地方。如果对远近和远的物体都感兴趣, 请考虑获取两组不同的校准点, 这些校准点以后可用于为每个观看距离创建唯一的校准 (有关详细信息, 请参阅第3.1 节)。
注: 双目眼动追踪是一项发展中的技术13,14 , 有望在深度跟踪凝视方面取得进展。
- 为了适应在研究过程中 et 的漂移或移动, 在研究的开始和结束时至少收集校准点。如果可行, 在会话期间定期收集额外的校准点。
- 一旦场景和眼睛图像尽可能高质量, 通过提请孩子注意他们视野中的不同位置来收集校准数据。
- 在研究过程中监控 e t 和第三人称视频源。
- 如果 et 由于其他运动/操作而被碰撞或不对齐, 请注意在研究中发生这种情况的时间, 因为可能需要分别对研究前后的部分进行重新校准和编码 (请参见3.1.1 节)。
- 如果可能, 在每次凹凸/错位后中断研究, 重新定位场景和眼相机 (见第2.3 节), 然后获得校准的新点 (见第2.4 节)。
3. 研究结束后, 使用校准软件校准 et 数据。
注: 各种校准软件包可在市场上购买。
-
请考虑创建多个校准.自定义对不同视频段的校准点, 通过不向算法提供不正确匹配的数据来最大限度地提高凝视轨迹的准确性。
- 如果 et 在研究期间的任何时候改变了位置, 请为 et 位置变化前后的部分创建单独的校准。
- 如果对注意不同观看距离的对象感兴趣, 请为视频中孩子在每个观看距离查看对象的部分创建单独的校准。请记住, 观察距离的差异可能是由孩子的视觉注意力在非常接近和变化的物体之间的变化造成的, 也可能是由孩子相对于物体的身体位置的变化造成的, 比如从坐着到站立。
-
执行每个校准.通过在场景图像中创建一系列校准点 (在该帧中, 孩子的视线清晰地指向这些点) 来建立场景和眼睛之间的映射。请注意, 校准软件可以从均匀分布在场景图像中的一组校准点中推断和插值所有帧中的凝视点 (pog)。
- 协助校准软件检测眼睛摄像机视频的每一帧中的瞳孔和 cr, 以确保识别的 pog 是可靠的。在软件无法可靠和一致地检测 cr 的情况下, 仅使用瞳孔 (但是, 请注意, 数据质量将因此受到影响)。
- 通过调整校准软件的各种检测参数 (其中可能包括: 眼睛图像的亮度、软件所需瞳孔的大小, 以及设置软件将在何处查找瞳孔的边界。绘制尽可能小的边界框, 同时确保瞳孔在眼睛的整个运动范围内保持在盒子内。请注意, 包含瞳孔从未占用的空间的较大边界框会增加错误瞳孔检测的可能性, 并可能导致瞳孔的小运动检测不太准确。
- 请注意, 即使在调整了软件的各种检测阈值后, 软件有时仍可能错误地定位瞳孔或 cr;例如, 如果睫毛覆盖瞳孔。
- 根据场景和眼睛摄像头帧找到良好的校准点。请注意, 提供给软件的最佳校准点是那些准确检测瞳孔和 cr 的校准点, 眼睛稳定地固定在场景图像中可清晰识别的空间点上, 这些点均匀地分布在整个范围内的场景图像。
- 确保在绘制校准点的每个帧中的瞳孔检测都是准确的, 以便将有效的 x-y 场景坐标和有效的 x-y 瞳孔坐标输入算法。
- 在校准时的第一次传递中, 在孩子清楚地看到场景图像中的一个不同点的时刻识别校准点。请记住, 这些点可以是实验者在数据收集过程中故意创建的点, 例如使用激光指针 (参见图 3a-b), 也可以是易于识别 pog 的研究点 (参见图 3c), 只要准确检测到这些帧的瞳孔。
- 要找到凝视更极端的 x-y 场景图像坐标的时刻, 扫描眼相机帧, 以找到时刻与准确的瞳孔检测时, 孩子的眼睛是在其最极端的 x-y 位置。
- 对每次校准进行多次 "刀路", 以迭代方式进行最精确的校准。请注意, 在校准时完成第一次 "通过" 后, 许多软件程序将允许删除以前使用的点, 而不会丢失当前的轨道 (例如十字线)。选择一组新的校准点, 从零开始训练算法, 但在以前的校准通道生成的 pog 轨道的额外帮助下, 可以通过逐步 "清除" 任何噪声或早期传球带来的不准确之处。
- 协助校准软件检测眼睛摄像机视频的每一帧中的瞳孔和 cr, 以确保识别的 pog 是可靠的。在软件无法可靠和一致地检测 cr 的情况下, 仅使用瞳孔 (但是, 请注意, 数据质量将因此受到影响)。
-
通过观察 pog 与已知凝视位置 (如激光指针在校准过程中产生的点) 的对应程度来评估校准的质量, 并反映孩子的囊面的方向和大小.避免使用点评估校准质量, 这些点也被用作校准过程中的点。
- 请记住, 由于儿童的头部和眼睛通常是对齐的, 因此儿童的视觉注意力通常指向场景图像的中心, 准确的轨迹将反映这一点。若要评估轨道的中心性, 请在校准生成的场景图像中绘制逐帧 x-y pog 坐标 (参见图 4)。确认点在场景图像的中心是最密集的, 并且是对称分布的, 除非在场景摄像机最初定位时没有以孩子的视场中心为中心的情况除外。
- 请注意, 某些校准软件将生成线性和/或同源匹配分数, 以反映校准精度。请记住, 这些分数在一定程度上是有用的, 因为如果它们差, 赛道也很可能是差的。但是, 不要使用拟合分数作为校准精度的主要度量, 因为它们反映了所选校准点与自身一致的程度, 而这些点没有提供有关这些点与 pog 地面真实位置的拟合的信息。
- 请记住, 在研究中, 有些时刻, 凝视的目标很容易识别, 因此可以作为地面真理。通过测量已知凝视目标和 pog 十字线之间的误差 (视频图像中的像素误差可根据场景摄像机的镜头特征近似转换为度数)4。
4. 利益区域代码。
注: roi 编码是对 pog 数据的评估, 以确定孩子在特定时刻直观地关注的区域。roi 可以从逐帧 pog 数据中进行高精度和高分辨率的编码。此编码的输出是一个数据点流 (每个视频帧一个点), 指示 pog 随时间的推移的区域 (参见图 5a)。
- 在开始 roi 编码之前, 请编译一份所有应根据研究问题进行编码的 roi 列表.请注意, 对不需要回答研究问题的 roi 进行编码会使编码不必要地耗时。
-
投资回报率编码的原则。
- 请记住, 成功的编码需要放弃编码器对孩子应该看什么的假设, 而是仔细检查每个帧的眼睛图像、场景图像和计算的 pog。例如, 即使某个对象被孩子抱着, 并且在特定帧的场景图像中非常大, 也不要推断孩子当时正在查看该对象, 除非还通过眼睛的位置来指示。请注意, roi 表示孩子正在进食的区域, 但不能捕获孩子所从事的完整视觉信息。
-
使用眼睛图像、场景图像和 pog 轨道来确定视觉上注意到的 roi。
-
使用 pog 轨道作为指南, 而不是地面真相.虽然理想情况下, pog 轨道将清楚地表明孩子对每个帧的确切位置, 但要知道, 由于场景图像相对于 chil 所观察的真实世界的三维性质而言, 场景图像的二维 (2d) 性质并不总是如此d 和参与者之间校准精度的变化。
- 请记住, 计算的 pog 轨道是基于校准算法的估计, 因此, 特定帧的 pog 轨道的可靠性取决于检测瞳孔和 cr 的程度;如果其中一个或两个未检测到或不正确, 则 pog 轨道将不可靠。
注: 有时, 十字线将始终偏离目标的固定距离。较新的软件可能允许一个计算正确的这种差异。否则, 受过训练的研究人员可以手动进行校正。
- 请记住, 计算的 pog 轨道是基于校准算法的估计, 因此, 特定帧的 pog 轨道的可靠性取决于检测瞳孔和 cr 的程度;如果其中一个或两个未检测到或不正确, 则 pog 轨道将不可靠。
-
使用眼睛图像中瞳孔的运动作为 roi 可能已更改的主要提示。
- 一个接一个地滚动帧, 观察眼睛的图像。当眼睛发生明显的运动时, 检查孩子是将其 pog 转移到新的 roi 还是没有定义的 roi。
- 请注意, 并非所有的眼动都表示投资回报率的变化。如果 roi 构成了一个大的空间区域 (例如,近距离物体), 请记住, 小的眼动可能反映了对同一投资回报率内的新位置的外观。同样, 请记住, 当孩子跟踪单个移动的 roi 时, 眼睛的运动可能会发生, 或者当一个移动头部的孩子也会移动他们的眼睛, 以保持对相同的 roi 的注视时。
- 请注意, 对于某些 et, 眼睛图像是孩子眼睛的镜像图像, 在这种情况下, 如果眼睛向左移动, 则应与场景中向右移动相对应。
-
使用 pog 轨道作为指南, 而不是地面真相.虽然理想情况下, pog 轨道将清楚地表明孩子对每个帧的确切位置, 但要知道, 由于场景图像相对于 chil 所观察的真实世界的三维性质而言, 场景图像的二维 (2d) 性质并不总是如此d 和参与者之间校准精度的变化。
-
由于 pog 轨道仅用作指南, 因此请使用可用的上下文信息, 并指导编码决策。
- 在编码 roi 时集成来自不同来源或帧的信息。即使对每个帧分别编码 roi, 也可以利用当前帧前后的帧来获取上下文信息, 从而帮助确定正确的 roi。例如, 如果由于瞳孔检测不良而导致给定帧的 pog 轨迹不存在或不正确, 但眼睛没有根据准确检测到瞳孔的前一个帧和随后的帧移动, 则忽略该帧的 pog 轨迹并对 roi ba 进行编码在周围的框架。
- 针对用户的研究问题做出其他决策。
- 例如, 在两个 roi 彼此接近时, 制定一个如何对 roi 进行编码的协议, 在这种情况下, 可能很难确定哪一个是 "正确" 的 roi。如果孩子似乎固定在两个 roi 的交汇点上, 则决定是同时对两个 roi 进行编码, 还是为如何只选择和分配一个 roi 类别制定一组决策规则。
- 作为另一个示例, 当持有感兴趣的对象以将对象遮挡时, 请决定是将 pog 编码为手的 roi 还是被持有对象的 roi。
- 可靠性的代码投资回报率.在初始 roi 编码协议完成后, 实现可靠性编码过程。有许多不同类型的可靠性编码程序可用;根据具体的研究问题选择最相关的程序。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
这里讨论的方法被应用到幼儿和父母之间自由流动的玩具游戏背景中。这项研究旨在调查在杂乱无章的环境中的自然视觉注意。dyads 被指示在6分钟内自由玩一套24个玩具。幼儿的视觉注意力是通过将外观的开始和偏移编码到特定感兴趣的区域 (roi)----24个玩具和父母的脸----以及分析每个 roi 的外观时间和时间的持续时间和比例来衡量的。结果如图 5所示。
图 5a显示了两个18个月大的孩子的 roi 流样本。流中的每个彩色块表示连续帧, 在这些帧中, 孩子查看特定的 roi。所获得的眼睛注视数据显示了自然视觉注意力的一些有趣的特性。
首先, 孩子们在不同的玩具子集的选择性上表现出个体差异。图 5b显示了每个孩子花在看10个选定的玩具 roi 中每一个部分的6分钟互动的比例。虽然儿童1和儿童2花在看玩具 (包括所有24个玩具 roi) 上的总时间比例有些相似, 分别为0.76 和 0.76, 但在研究对象内部和之间花在个别玩具上的时间比例差别很大。
如何实现这些看起来的时间比例也因儿童而异。图 5c显示每个孩子的平均长度的外观每10个选定的玩具 roi。所有24个玩具 roi 的平均持续时间为儿童 2 (m = 2.38 s, sd = 2.38 s) 几乎是两倍长于儿童 1 (m = 1.20 s, sd = 0.78 s)。将外观模式与图 5b中的红色瓢虫拨浪鼓 (紫色条形图) 进行比较, 说明了为什么计算多个外观度量值 (如外观的比例和持续时间) 对于完全了解数据很重要;通过不同时间的不同数量的外观, 这些孩子看到这个玩具的比例是一样的。
这些数据显示的另一个属性是, 两个孩子很少看父母的脸: 寻找儿童1和儿童2的脸比例分别为. 015 和. 003。此外, 这些儿童对父母面部的看看时间很短, 儿童1和儿童2的平均长相分别为0.79 秒 (sd = 0.79 s) 和0.79 秒 (sd = 0.79 秒)。
图 1.头戴式眼动追踪应用于三种不同的背景: (a) 桌面玩具游戏, (b)在地板上玩玩具, (c)阅读画册。请点击这里查看此图的较大版本.
图 2.设置头部式眼动追踪系统。(a)研究人员在婴儿身上定位眼动仪。(b)对婴儿定位良好的眼动器。(c)良好的眼睛图像与大中心瞳孔和清晰的角膜反射 (cr)。(d、e、f)不良眼图像的示例。请点击这里查看此图的较大版本.
图 3.获得校准点的三种不同方式.显示了每个时刻的两个视图;上图: 第三人称视角, 底部: 孩子的第一人称视角。第三人称视图中的箭头说明了激光束的方向。儿童视野右上角的插入框显示用于校准的每时刻良好的眼睛图像, 粉红色十字线根据完成的校准指示视线点。(a)实验者使用手指和激光指针生成的校准点, 以将注意力集中在地板上的物体上。(b)实验者使用激光指针将注意力引导到表面上的点所产生的校准点。(c)在与父母玩玩具时的校准点, 其中孩子的注意力被指向所持有的物体。请点击这里查看此图的较大版本.
图 4.用于评估校准质量的示例图.单个点表示场景摄像机图像中的每个帧 x-y 盯角 (pog) 坐标, 由校准算法确定。(a)良好的校准质量的儿童玩具游戏实验, 表明大致圆形密度的 pog 是居中和低 (儿童 pog 通常是稍微向下, 当看孩子拿着的玩具时), 并且大致均匀在剩余的场景摄像机图像中分布 pog。(b)校准质量差, 表现为非中心 pog 的拉长和倾斜密度, 以及剩余场景摄像机图像中 pog 分布不良。(c)校准质量差, 场景摄像机的初始定位差或较差, 由离中心的 pog 表示。请点击这里查看此图的较大版本.
图 5.两个孩子的眼睛的眼睛的数据和统计。(a)在60秒的交互期间, 儿童1和儿童2的 roi 流示例。流中的每个彩色块都表示连续的帧, 在这些帧中, 孩子可以查看特定玩具或父面的 roi。空白表示孩子不查看任何 roi 的帧。(b)两个孩子看父母的脸和10个玩具 roi 的时间比例。比例是通过将所有外观的持续时间与每个 roi 求和, 并将求和持续时间除以6分钟的总会话时间来计算的。(c)两个孩子的平均长相的父母的脸和十个玩具 roi。平均持续时间是通过在6分钟的交互中平均每个 roi 的每个 roi 的持续时间来计算的。请点击这里查看此图的较大版本.
Subscription Required. Please recommend JoVE to your librarian.
Discussion
该议定书为实施婴儿和幼儿头戴式眼动追踪提供了指导原则和实际建议。该方案是基于对父母幼儿在实验室环境中免费玩玩具的背景下的自然幼儿行为的研究。内部眼动追踪设备和软件用于校准和数据编码。然而, 该协议旨在普遍适用于使用各种头部式眼动追踪系统研究婴儿和儿童发展中的各种主题的研究人员。虽然该协议的最佳使用将涉及特定于研究的定制, 但这些一般做法的采用导致了在各种情况下成功使用该协议 (见图 1), 包括同时安装头上的眼动跟踪对临床人群(包括人工耳蜗植入15的儿童和被诊断为自闭症谱系的儿童) 进行头部眼动追踪疾病16,17。
该协议为调查各种自然能力和行为的发展提供了许多优势。头戴式 et 允许的头部和身体运动的自由使研究人员有机会捕捉参与者的自我生成的视觉环境和他们对这些环境的主动探索。头戴式 et 的可移植性提高了研究人员在生态上更有效的环境中收集数据的能力。由于这些优势, 该方法提供了一种替代屏幕的查找时间和眼动追踪方法, 用于研究视觉注意力、社会注意力和感知-运动集成等领域的开发, 以及补充和偶尔挑战研究人员可以使用更传统的实验方法得出的推断。例如, 这里描述的协议增加了参与者展示在观察行为方面的个体差异的机会, 因为参与者不仅可以控制他们在场景中的视觉注意力集中在何处和多长时间, 例如在基于屏幕的眼动追踪, 也通过这些场景的组成, 通过他们的眼睛、头部、身体动作和物理操作的元素在环境中。这里介绍的两位参与者的数据显示了幼儿在能够积极创造和探索视觉环境时, 在长相和对象样本方面的个体差异。此外, 这里提供的数据, 以及其他使用这种协议的研究表明, 在与父母的自然主义玩具游戏中, 幼儿对父母的目光远远低于以前研究的建议 , 7,8,9, 10.
尽管有这些好处, 但婴儿和幼儿的头部安装眼动追踪在方法上带来了一些挑战。最关键的挑战是获得良好的校准。因为场景图像只是实际查看的3d 世界的2d 表示, 所以不可能在眼睛位置和凝视场景位置之间进行完美的映射。通过遵循本议定书规定的准则, 映射可以可靠地接近 "地面真相", 但应当特别注意几个问题。首先, 头部安装的眼动跟踪允许头部和身体运动的自由, 也意味着年轻参与者往往会撞上眼动追踪系统。这是一个问题, 因为眼睛相对于眼睛或场景相机的物理位置的任何变化都会改变学生与场景图像中的相应像素之间的映射。因此, 对研究的这些部分进行单独的校准是至关重要的, 因为如果只使用一部分的时间来校准, 则算法将只准确地跟踪孩子在研究的一部分的注视。其次, 准确检测孩子的瞳孔和 cr 是至关重要的。如果在错误检测瞳孔时绘制了场景图像中的校准点, 或者根本没有检测到校准点, 则该算法要么学会将场景图像中的此校准 x-y 坐标与不正确的瞳孔 x y 坐标相关联, 或者在根本没有检测到瞳孔的情况下, 算法被输入空白数据。因此, 如果对研究的某一部分没有进行良好的检测, 这些帧的校准质量将很差, 不应信任对 pog 进行编码。第三, 由于孩子们的头和眼睛通常是对齐的, 视觉注意力最常指向场景图像的中心。然而, 场景图像中的极端 x-y 校准点对于建立覆盖整个场景图像的精确凝视轨迹也是必要的。因此, 尽管通常应在物体上眼睛稳定的时刻选择校准点, 但对于场景图像远角的校准点来说, 这可能是不可能的。最后, 请记住, 即使获得了良好的眼睛图像并对系统进行了校准, 这也不能确保数据的质量足以满足预期的分析。眼睛生理等个人因素的差异, 以及照明等环境因素和眼动追踪硬件和软件的差异, 都会影响数据质量, 并有可能在数据中造成偏移或不准确。18,19为这些问题提供了更多信息和可能的解决办法 (另见 franchak 2017 20).
与婴儿和幼儿一起工作还涉及到在整个会议期间确保头戴式 et 的耐受性的挑战。利用本协议中包含的建议, 设计用于大约9-24 的婴儿, 实验室可以从大约70% 的参与者20获得高质量的头部安装眼动数据。另外 3 0% 的参与者可能因为对眼动仪不耐受而无法开始研究, 也可能在获得良好的眼轨足够的数据 (如 gt;3-5分钟的游戏) 之前大惊小怪。对于成功的70% 的婴幼儿参与者来说, 这些课程通常持续10分钟以上, 但根据参与者的年龄和任务的性质, 目前的技术可能不可行的时间更长参与者参与。在设计研究任务和环境时, 研究人员应牢记参与者的发展状况, 因为运动能力、认知能力和社会发展, 包括对陌生人的安全感, 都会影响到他们的健康参与者的注意力范围和执行预期任务的能力。对9个月以下的婴儿使用这一协议还将涉及额外的实际挑战, 如支持尚不能独自坐的婴儿, 以及考虑眼睛形态和生理, 如双目差异,这与 19岁、21岁的儿童和成人不同。此外, 该协议是最成功的, 当经验丰富的训练有素的实验者进行, 这可以限制范围的环境, 其中可以收集数据。实验者的实践越多, 他们就越有可能顺利地进行实验, 收集高质量的眼动追踪数据。
头戴式眼动追踪也会带来相对耗时的数据编码带来的额外挑战。这是因为, 为了寻找 roi, 头戴式眼动跟踪数据是更好地编码帧比通过视觉注意的 "固定"。也就是说, 当逐帧 x-y pog 坐标的变化率较低时, 通常会识别固定, 这表明眼睛在一个点上是稳定的。然而, 由于头戴式眼动器的场景视图与参与者的头部和身体移动一起移动, 因此, 眼睛的位置只能通过考虑眼睛相对于头部的移动方式, 准确地映射到被旋转的物理位置和身体的运动.例如, 如果参与者将其头部和眼睛移动在一起, 而不仅仅是眼睛, 则即使参与者扫描房间或跟踪移动对象, 场景中的 x-y pog 坐标也可以保持不变。因此, 仅仅从 pog 数据中无法轻松、准确地确定视觉注意的 "固定"。有关头戴式眼动追踪数据中识别固定装置相关问题的更多信息, 请查阅其他工作15、22.与编码固定点相比, 为 roi 对数据进行逐帧手动编码可能需要额外的时间。作为参考, 经过高度培训的编码人员需要5到10分钟的时间来手动编码此处提供的数据的每分钟的 roi, 这些数据以每秒30帧的速度收集。编码所需的时间变化很大, 取决于眼动追踪数据的质量;roi 目标的大小、数量和视觉可分性;编解码器的经验;和使用的注释工具。
尽管存在这些挑战, 该协议仍可灵活适应各种可控和自然化的环境。该协议还可以与其他技术 (如运动跟踪和心率监测) 集成, 以提供高密度多式联运数据集, 用于检查自然行为、学习和开发, 而不是以前可能的。头戴式眼动追踪技术的持续进步无疑将缓解当前的许多挑战, 并为使用这种方法可以解决的研究问题类型提供更大的前沿。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
提交人声明, 他们没有相互竞争或相互冲突的利益。
Acknowledgments
这项研究由国家卫生研究院资助 r01hd07401 (c. y.)、T32HD007475-22 (j. i. b., d. h. a.) 和 f32hd093280 (l. k. s.);国家科学基金会赠款 bcs1523982 (l. b. s., c. y.);和印第安纳大学通过新兴领域研究倡议-学习: 大脑, 机器和儿童 (l. b. s.)。作者感谢参与这项研究的儿童和家长志愿者, 他们同意被用于这一协议的数字和拍摄。我们也感谢计算认知和学习实验室的成员, 特别是斯文·班巴赫、陈安亭、史蒂文·埃尔姆林格、塞思·福斯特、格雷斯·利桑德里和查琳·泰在制定和完善这一协议方面提供的协助。
Materials
Name | Company | Catalog Number | Comments |
Head-mounted eye tracker | Pupil Labs | World Camera and Eye Camera |
References
- Tatler, B. W., Hayhoe, M. M., Land, M. F., Ballard, D. H. Eye guidance in natural vision: Reinterpreting salience. Journal of Vision. 11 (5), 1-23 (2011).
- Hayhoe, M. Vision using routines: A functional account of vision. Visual Cognition. 7 (1-3), 43-64 (2000).
- Land, M., Mennie, N., Rusted, J. The Roles of Vision and Eye Movements in the Control of Activities of Daily Living. Perception. 28 (11), 1311-1328 (1999).
- Franchak, J. M., Kretch, K. S., Adolph, K. E. See and be seen: Infant-caregiver social looking during locomotor free play. Developmental Science. 21 (4), 12626 (2018).
- Franchak, J. M., Kretch, K. S., Soska, K. C., Adolph, K. E. Head-mounted eye tracking: a new method to describe infant looking. Child Development. 82 (6), 1738-1750 (2011).
- Kretch, K. S., Adolph, K. E. The organization of exploratory behaviors in infant locomotor planning. Developmental Science. 20 (4), 12421 (2017).
- Yu, C., Smith, L. B. Hand-Eye Coordination Predicts Joint Attention. Child Development. 88 (6), 2060-2078 (2017).
- Yu, C., Smith, L. B. Joint Attention without Gaze Following: Human Infants and Their Parents Coordinate Visual Attention to Objects through Eye-Hand Coordination. PLoS One. 8 (11), 79659 (2013).
- Yu, C., Smith, L. B. Multiple Sensory-Motor Pathways Lead to Coordinated Visual Attention. Cognitive Science. 41, 5-31 (2016).
- Yu, C., Smith, L. B. The Social Origins of Sustained Attention in One-Year-Old Human Infants. Current Biology. 26 (9), 1-6 (2016).
- Kretch, K. S., Franchak, J. M., Adolph, K. E. Crawling and walking infants see the world differently. Child Development. 85 (4), 1503-1518 (2014).
- Yu, C., Suanda, S. H., Smith, L. B. Infant sustained attention but not joint attention to objects at 9 months predicts vocabulary at 12 and 15 months. Developmental Science. , (2018).
- Hennessey, C., Lawrence, P. Noncontact binocular eye-gaze tracking for point-of-gaze estimation in three dimensions. IEEE Transactions on Biomedical Engineering. 56 (3), 790-799 (2009).
- Elmadjian, C., Shukla, P., Tula, A. D., Morimoto, C. H. 3D gaze estimation in the scene volume with a head-mounted eye tracker. Proceedings of the Workshop on Communication by Gaze Interaction. , Association for Computing Machinery. New York. 3 (2018).
- Castellanos, I., Pisoni, D. B., Yu, C., Chen, C., Houston, D. M. Embodied cognition in prelingually deaf children with cochlear implants: Preliminary findings. Educating Deaf Learners: New Perspectives. Knoors, H., Marschark, M. , Oxford University Press. New York. (2018).
- Kennedy, D. P., Lisandrelli, G., Shaffer, R., Pedapati, E., Erickson, C. A., Yu, C. Face Looking, Eye Contact, and Joint Attention during Naturalistic Toy Play: A Dual Head-Mounted Eye Tracking Study in Young Children with ASD. Poster at the International Society for Autism Research Annual Meeting. , (2018).
- Yurkovic, J. R., Lisandrelli, G., Shaffer, R., Pedapati, E., Erickson, C. A., Yu, C., Kennedy, D. P. Using Dual Head-Mounted Eye Tracking to Index Social Responsiveness in Naturalistic Parent-Child Interaction. Talk at the International Congress for Infant Studies Biennial Congress. , July (2018).
- Holmqvist, K., Nyström, M., Andersson, R., Dewhurst, R., Jarodzka, H., Van de Weijer, J. Eye tracking: A comprehensive guide to methods and measures. , Oxford University Press. (2011).
- Saez de Urabain, I. R., Johnson, M. H., Smith, T. J. GraFIX: a semiautomatic approach for parsing low- and high-quality eye-tracking data. Behavior Research Methods. 47 (1), 53-72 (2015).
- Franchak, J. M. Using head-mounted eye tracking to study development. The Cambridge Encyclopedia of Child Development 2nd ed. Hopkins, B., Geangu, E., Linkenauger, S. , Cambridge University Press. Cambridge, UK. 113-116 (2017).
- Yonas, A., Arterberry, M. E., Granrud, C. E. Four-month-old infants' sensitivity to binocular and kinetic information for three-dimensional-object shape. Child Development. 58 (4), 910-917 (1987).
- Smith, T. J., Saez de Urabain, I. R. Eye tracking. The Cambridge Encyclopedia of Child Development. Hopkins, B., Geangu, E., Linkenauger, S. , Cambridge University Press. Cambridge, UK. 97-101 (2017).