在心理学研究中实施移动眼动追踪：实用指南

摘要

眼动追踪提供了直接的、时间和空间敏感的眼球注视测量。它能够捕捉从婴儿期到成年期的视觉注意模式。然而，常用的基于屏幕的眼动追踪(SET)方法在描绘个体如何在“现实生活”中与环境互动时的信息处理上存在局限性。移动眼动追踪(MET)记录参与者在主动行为背景下的视线。近期MET硬件技术的发展使研究人员能够捕捉不同年龄阶段的视觉行为。然而，在MET数据收集、处理和分析方面仍面临挑战。本文旨在为该领域的初学者提供入门和实用指南，以促进MET在各年龄组心理研究中的使用。首先，本文大致介绍了MET。其次，简要回顾了关于成人和儿童的MET研究，这些研究为注意力及其在认知和社会情感功能中的作用提供了新的见解。然后，讨论了与MET数据收集相关的技术问题，并提供了数据质量检查、注视标注、数据可视化和统计分析的指导。最后，讨论了MET未来的发展方向。公开分享了用于MET数据质量检查、数据可视化和分析的开源程序。

引言

眼动提供了一个了解个体感知、认知和视觉引导行为的窗口。眼动可以反映视觉注意力的分配。注意力则充当一种处理机制，通过根据个体当前的目标和情感状态偏向选择，从环境中过滤掉过多的信息。视觉体验会影响后续的认知、学习、行动和情感。受控的实验室实验通常将视觉注意力单独进行研究。然而，在日常生活中，视觉注意力与个体正在进行的行为以及对物理和社会环境的体验紧密相关。虽然我们从基于屏幕的任务中获得了大量见解，但如果不在实际情境中研究注意力，我们只能大致估计注意力、行动和社会信息在实时和现实环境中如何动态相互影响。

头戴式或移动眼动追踪(MET)能够记录个体在与环境互动时的自然眼动。这项技术早在20世纪初就在成年人中得到了应用。随着技术的发展，MET系统变得更加便携和强大。这一最新进展促进了对主动视觉探索过程中注意力的研究，特别是在婴幼儿中。MET通常由一个场景摄像头和一到两个眼动摄像头组成，前者捕捉佩戴者的第一人称视角，后者分别支持单眼或双眼眼动追踪。MET系统记录佩戴者的注视方向，并将三维的注视点映射到场景摄像头的二维空间中，从而使研究人员能够在场景摄像头录制的画面上可视化视线位置。

MET的使用有几个关键优势。与视频录制相比，MET从第一人称视角提供了更为接近的、时间和空间上更敏感的注意力测量。MET通过在自发行为中长时间采样注视位置，捕捉到丰富的微观纵向数据。然后，MET数据可用于探究个体注意力随时间的变化，并捕捉环境输入、个体注意力和行为之间的时间动态关系。因此，MET研究可为人类在主动运动和社会行为中的认知运作提供新的视角。

本文为该领域的初学者提供了MET数据收集、处理和分析方法的介绍和实用指南。除了回顾现有的工具外，本文还提供了计算机程序和示例数据，以演示数据质量评估、数据可视化和数据分析的方法(https://github.com/xiaoxuefu/MET_methods)。示例MET数据来自两个研究项目：5-7岁儿童的iTRAC研究和4-8个月大婴儿的ACTION研究。有关这两个研究项目的描述可在GitHub存储库中获取。表1还列出了本文引用的研究所提供的开放获取MET数据和数据分析工具的信息。

表1.开放获取的数据和工具。

MET技术的应用

MET用于研究个体感知运动系统中的认知

MET研究为具身认知提供了实证证据。生态学方法表明，视觉注意力与全身运动系统协同运作。以往的研究将注意力和主动运动行为视为两个独立的、封闭的系统。而MET则为研究在日常活动或其他实地工作(例如，驾驶飞机或执行临床操作)中执行一系列动作时视觉注意力的“是什么”和“何时”提供了机会。对成年人的MET研究揭示了注意力、动作和任务需求之间在时间和空间上的紧密联系。例如，当成年人在复杂的地形上行走时，他们会注视自己脚前两步的位置，并根据脚的放置难度调整注视的时机。当在平坦的地形上行走时，成年人能够在不注视障碍物的情况下避开障碍。当成年人在人群中穿行时，参与者会根据指示避免眼神接触，同时将头和眼睛朝向地面。因此，眼睛与身体的协调会根据当下的行为目标进行实时调整。

婴儿的MET记录显示，粗大运动(例如身体姿势)和精细运动(例如手部操作物体)技能的发展会影响婴儿的注意行为。例如，爬行的婴儿(13个月大)主要注视地面，而同龄的走路婴儿则能够看到更远的物体和人。此外，相比于趴着时，婴儿(12个月大)在直立或坐着时会更频繁地注视照顾者的脸。随着婴儿精细运动技能的发展(15-25个月)，他们对物体的手动探索会在视觉范围内产生更显著和多样的物体图像。婴儿(12-24个月)在观察物体时，会协调头部和眼睛的运动，以确保他们的视线集中在所看的物体上。这些视觉输入有助于学习词汇与物体之间的关联。这些研究共同强调了在发展中的感觉运动系统内研究视觉注意力的重要性。

MET用于捕捉自然互动中的社会注意力

“第二人称”或“以人为中心”的观点强调，社会注意力需要在个体与社会伙伴互动的背景下进行研究。在真实的社会互动中，眼睛注视具有收集和传递信息的双重功能。通过记录实时社会行为中的视觉注意，MET可以作为理解眼睛注视双重功能的独特工具。例如，MET研究发现，与被动观察者相比，成年人在进行第一人称社交互动时倾向于避免直视陌生人。这种行为可能是由对社会习俗的内隐理解和目光交流在传递社交信息中的作用所驱动的。然而，社会注意力存在着文化差异，例如，东亚人在面对面交谈时比西方白人更倾向于相互注视。成年人还利用眼睛注视作为社交线索。例如，与给予明确的口头指令相比，当一个任务活动的口头指令模棱两可时，参与者更可能跟随社交伙伴的目光。因此，社会注意力是受情境驱动并以目标为导向的。

MET也是理解注意力与情感行为之间相互关系的重要工具。Vallorani等人(2022)的研究发现，在5至7岁的儿童中，表达积极情感的儿童在双人自由游戏中更有可能注视同伴。反过来，当儿童关注同伴时，如果同伴的情感表达是中性的，儿童更可能表现出积极的情感反应。现有的成人和儿童MET研究强调了在个体情感和社会经验中研究社会注意力的重要性。在真实互动中测量社交注意力的一种应用是研究与内化症状风险相关的威胁相关注意偏向。行为抑制是一种气质特征，表现为婴儿期对新奇事物的高度警觉和反应，以及儿童期的社交退缩，是焦虑障碍的一个重要风险因素。在相对温和的社交场合中，高行为抑制儿童对成年陌生人表现出更强的注意回避。此外，即使在控制了行为抑制水平的情况下，具有回避成年陌生人注意特征的儿童仍表现出更强的内化症状。当面临较高的社会威胁(即，成人戴着“恐怖”面具)时，高行为抑制的儿童会对陌生人表现出更多的关注。总的来说，这些发现强调了在自然互动背景下研究威胁相关注意力的重要性，因为威胁情境的性质会影响注意力模式。

MET数据收集注意事项

眼动仪硬件和MET任务的选择受到研究人员需求的影响，主要考虑以下因素：(1)参与者特征，包括年龄；(2)移动自由度；以及(3)数据收集环境，例如在受控实验室环境或受控程度较低的室内或室外环境(如家庭和街道)。虽然硬件选择和研究程序可能有所不同，但眼动追踪研究的共同目标是保障数据质量，即数据的可靠性、有效性和可用性。瞳孔检测的干扰(如环境光照、头戴设备/头显滑动和眼妆等因素)以及头显相对于参与者头部的对齐(如移动和滑动因素)会对数据质量产生负面影响。

校准是获得高质量数据的关键步骤。常用的基于视频的瞳孔-角膜反射(P-CR)眼动仪记录瞳孔和角膜反射的相对位置。校准过程涉及将记录的瞳孔和角膜反射位置(当视线指向校准目标时)映射到校准刺激的空间位置。校准不佳会降低MET数据的有效性。此外，需要注意确保实验操作在不同条件下对MET数据质量没有产生差异性影响。虽然市面上已有无需校准的MET设备，但本文建议研究人员根据参与者的年龄和实验需求评估不同的校准选项。接下来，本节将基于以下因素的示例研究场景讨论硬件设置、校准和研究设计问题：(1)参与者特征，(2)移动自由度，(3)环境。有关成人和儿童MET设置的其他信息详见Valtakari等人(2021)和Slone等人(2018)的研究。

在实验室环境中收集成人和年长儿童的MET数据

与婴幼儿相比，在受控环境中收集年长儿童的MET数据对眼动仪的定制化要求较低，而且参与者的耐受力和合作能力相对较好，因此硬件设置具有更大的灵活性。决定MET设置的一个主要考虑因素是参与者的移动自由度。在以往的研究中(如5-69岁)，通常将头显直接连接到计算机设备(如笔记本电脑)上进行数据记录和存储。这种设置对于参与者来说可能比较繁琐，而且受限的运动可能会影响眼睛与身体的协调，而这种眼身协调是许多MET研究中的关键因素。较新的设置则是将头显连接到轻便的智能手机上，智能手机在这里可用作记录和本地存储设备。

对于成人和儿童的MET研究，可以指导他们固定校准目标，因此在校准方法上具有更大的灵活性。在典型的校准过程中，要求参与者注视屏幕上的校准点，这与基于屏幕的眼动追踪(SET)校准或固定在自然物体上的校准标记类似。这个年龄段的研究可能会采用在线校准，即瞳孔-角膜-反射位置与校准点位置之间的映射立即生效。离线校准则是在数据收集后进行空间映射。因此，在线校准的优势在于能够实时监测数据，并提供及时重新校准的机会。

执行在线和离线校准精度的最佳实践：

1）在与参与者和主要感兴趣区域(AOIs)之间距离相当的地方显示校准目标。

2）展示多个校准目标，以覆盖参与者的整个视野(FOV)。

3）在实验开始和结束时，以及在MET头显移动之后，执行验证程序(即校准检查)。

婴幼儿MET数据收集

现有针对婴幼儿(4-26个月)的MET研究在实验室和家庭环境中大多使用一套常见的设备设置和校准程序。头显需要稳固地佩戴在头上，以最小化滑动对数据质量的负面影响。研究人员可以通过将眼动仪固定在定制的头带或帽子上，以确保佩戴稳固。对于婴儿(＜8个月)，本研究建议使用一系列可以适应不同头部大小、头部形状和发质的头显。一些头显还可以连接到智能手机，以提高儿童的活动性。

指导婴幼儿跟随校准点具有挑战性。因此，这个年龄段的MET研究通常采用离线校准。校准过程可以融入到实验者与儿童的游戏互动中，即实验者在儿童视野内的不同位置呈现有趣的校准目标(例如，玩具或光点)。校准目标与儿童的距离以及儿童的姿势应符合正式数据收集的规范。在数据收集过程中，研究人员应密切监测眼部图像记录。如果头显移动干扰了眼部图像的捕捉，则需要进行额外的校准。如果研究涉及与成年伙伴(如看护人)的互动，则可以对社会伙伴进行校准目标演示的训练，以尽量减少自然互动过程中的干扰。在数据收集后，由一名训练有素的研究人员在场景摄像录制画面上标记出校准目标的位置，以便清晰识别儿童的注视点并确认其对准校准目标。然后，应用算法来映射瞳孔和角膜反射位置与指定的校准目标位置。反复执行手动识别注视点和自动映射过程，以建立令人满意的校准结果。

在实验室环境外收集MET数据

MET研究已在自然的室外和室内环境中进行。影响MET数据质量的因素包括对环境照明、目标物体位置(即AOIs)缺乏控制，以及校准不充分。例如，户外的太阳红外光会干扰瞳孔和角膜的反射追踪。一种解决方法是为参与者提供红外屏蔽面罩。参与者与不同AOIs之间的距离可能存在很大差异。这既是MET的优点(更大的视觉选择性)，也是其缺点(更大的分析复杂性)。在参与者低头的任务中，靠近参与者且低于视平线的AOIs会出现在场景摄像机视野的下部，而较远的物体则会出现在视野的上部。因此，需要确定合适的场景摄像机位置，以确保能够捕捉到研究中的所有AOIs。

离线校准在控制条件较少的环境中具有优势。离线校准使研究人员能够在瞳孔捕获因滑移、姿态变化或光照改变后，更新瞳孔和角膜反射位置之间的空间映射，以及指向校准目标的注视点。新兴的免校准MET技术也有望在室外环境中保持可接受的精度。

MET数据质量检验

眼动追踪数据的质量通过数据的准确性、精度和可用性(或数据丢失)进行量化。准确性是指眼动仪检测到的注视位置与实际注视位置之间的距离(空间偏移量)，以视角度数来衡量。精度则反映了眼动追踪数据中的噪声水平，这种噪声会导致注视样本之间的空间变异。准确性和精度是评价眼动追踪数据有效性和可靠性的指标。数据丢失可以通过记录的有效注视数据点数量与基于指定采样频率预期的样本数量来进行计算。

准确性

GlassesValidator是一种现成的计算准确性的工具(见表1)。GlassesValidator适用于成年人与大龄儿童的数据收集，因为参与者需要查看工具附带海报上显示的注视目标。计算过程是自动化的，无需手动标注。简而言之，海报上包含一系列ArUco标记(即条形码)，可以自动估算参与者的观看距离和注视位置。应用注视分类器来确定对每个注视目标的有效注视(持续时间超过50ms)。准确性是通过注视目标与估计的注视位置之间的偏差来计算的，以视角度数表示(即眼睛到注视目标的直线与眼睛到注视位置的直线之间所成的夹角)。

本文提供了一个可用于计算注视位置与验证目标之间的空间偏移量(以视角度数表示)的工具。该工具可用于验证从成年人或大龄儿童收集的记录，以及当在线校准不可行时，也可以用于验证通过离线校准获得的记录。本文提供了MATLAB版本(https://github.com/xiaoxuefu/MET_methods/tree/main/1.%20Accuracy)和R Shiny应用程序版本(https://john-franchak.shinyapps.io/Eye-Tracking-Accuracy-Calculator/)的工具。空间偏移量计算方法是基于Franchak和Yu(2022)研究中的定义。图1展示了用于获取空间偏移量的MATLAB图形用户界面(GUI)和R Shiny应用程序。用户可以在MATLAB GUI或R Shiny应用中标注目标和注视位置。两种版本的工具都会根据用户指定的目标和注视位置、场景摄像机的FOV和制造商提供的分辨率规格计算每一帧的空间偏移量。空间偏移量越小，表示准确性越好。

图1.用于准确性计算的图形用户界面(GUIs)的截图。(A)MATLAB GUI，(B)R Shiny应用程序。

精度

当假设参与者注视在同一位置时，精度也可以通过样本间偏差的均方根误差(RMSE)来表示。RMSE值越大，样本间偏差越大，精度越低。GlassesValidator提供了使用注视点计算的精度指标，这些注视点指向工具提供的海报上的注视目标。本文提供了一个MATLAB程序(https://github.com/xiaoxuefu/MET_methods/tree/main/2.%20Precision)来计算样本间RMSE。预期的输入数据是当参与者被指示注视同一位置(即目标物体)时(例如在校准过程中)注视点的x和y坐标。用户输入的参数包括场景摄像机的规格、目标物体的大小，以及参与者与目标物体之间的距离。

精度较低的注视数据会影响注视和扫视的划分，因为它们可能错误地提示注视位置的变化，而实际上注视是稳定的。为了最小化低精度的影响，可以定义更大的感兴趣区域(AOIs)，以允许更大的误差范围。此外，通过计算注视某个AOI的持续时间，可以减少数据分析对注视或扫视分类的依赖。

数据丢失

数据丢失可以通过数据丢失的比例(根据MET设备的采样频率预期采样的有效数据点总量减去收集到的有效数据点数量)占预期数据点总数的比例来进行计算。当眼动仪无法检测到角膜反射或瞳孔时，就会出现数据丢失。造成这种情况的原因可能是眨眼、光线变化、眼部摄像头移动错位或其他眼动仪技术故障。因此，在数据丢失较多的情况下，较短的AOI注视持续时间可能是由于MET未能检测到眼睛注视，而不是参与者未注视AOI造成的。因此，为了准确量化对AOI的注视，重要的是要测量有效和无效的MET数据量。然后，AOI的注视时长可以通过将注视该AOI的时间与记录的总有效MET时长的比例来进行计算。

注视标注

自动标注

处理MET数据的一大挑战是注视分类。在MET数据收集过程中，参与者可能会移动，AOI也可能会移动，或两者同时在三维空间中移动。因此，对不同类型的注视事件(括注视、扫视和追随)进行分类具有挑战性。例如，在注视期间，当参与者的头部移动时，被注视的AOI也会移动。目前有一些分类算法可用于自动注视检测(如GazeCode；见表1)。尽管这些分类器与人工编码者之间具有相当高的一致性，但准确分类追随运动(即跟踪在场景摄像机视野中移动的AOI)仍然具有挑战性。然而，区分注视事件与其他事件或计算注视次数可能不是大多数MET研究的关键目标。研究者可以根据研究的目标选择不同的衡量指标：可以是注视某个AOI的总时间占比，也可以是眼动数据中包含注视该区域的帧数比例。

MET注视标注中的另一个挑战是识别被注视的AOI。AOI坐标需要在参与者特定的自我中心空间中定义。此外，AOI还需要逐帧定义，因为其外观可能会因运动、视角和遮挡而变化。研究人员传统上进行手动AOI标注。开源深度学习算法的发展使得自动化AOI识别成为可能。现成的计算机视觉算法能够自动检测场景摄像机视野中的人脸和身体。一旦指定了AOIs，就会应用额外的程序将注视位置映射到AOIs上。Jongerius等人(2021)的研究发现，使用OpenPose的人脸自动标注与受过训练的编码者的手动标注之间具有高度一致性(Cohen’s kappa≥0.89)。

手动标注

手动标注AOI仍然是数据生成中最可行且最可靠的方法，特别是在发展中的MET应用中。手动AOI注释具有灵活性。如前所述，它可能是标注复杂和不规则AOIs的必要过程。手动标注还可以应用于同时发生的其他事件和行为。手动标注可以在任何开源注释软件中进行，包括Datavyu、ELAN和BORIS。事实上，手动标注已在使用各种MET系统的研究中得到广泛应用，包括成人和儿童样本。

AOI注视事件的手动标注有两种方法。一种方法是根据输入到注释软件中的注视叠加视频，手动标注AOI注视事件。研究人员可以设置一个截止时长，以排除短时间的注视。例如，连续注视事件通常被定义为以30Hz的频率连续注视AOI两到三个视频帧，持续时间为66.7-99.9ms。第二种方法是应用注视分类算法，通过检测稳定的注视点，将注视叠加视频分割成若干帧。然后，由训练有素的人工编码者对视频片段中的AOI进行注释。本文提供了一个基于MATLAB的ROI编码器程序(https://github.com/JohnFranchak/roi_coder)，以帮助手动AOI注释。这种计算机程序有助于减轻编码员的认知负担，从而减少人为错误。关于标注一般行为数据的最佳实践可访问https://datavyu.org/user-guide/best-practices.html。

1）为手动标注创建视觉辅助工具。除了显示注视点的十字准线外，研究人员还可以在注视叠加视频上叠加一个靶心，以指示注视位置。圆圈的大小可根据手动标注的准确性来设定。本文提供了一个MATLAB程序(https://github.com/xiaoxuefu/MET_methods/tree/main/3.%20Gaze%20Coding%20Error%20Tolerance)用于估算靶心中圆圈的视角(即误差容忍度)。图2举例说明了误差范围的设置。此外，注视叠加视频必须与其他视频录制源(如房间摄像头)同步。合成视频可以从多个角度和视角展示参与者的行为，从而使编码人员能够利用情境信息来确定注视的移动和位置。

图2.从验证(左)和任务(右)程序中获取的视频帧。

2）根据研究问题缩减数据以进行编码。由于收集到的MET数据量大、手动标注耗时较长，因此可以进行有选择性的标注。可以只在感兴趣的事件中对AOI注视事件进行编码，而不是对整个录制内容进行编码。另一种数据缩减方法是下采样视频帧。场景摄像机的典型采样频率为30-120Hz。例如，5分钟的录像可能提供9000至36000个帧的编码。根据对数据的初步检查，如果AOIs相对较大且稀疏，并且AOI内的注视转移不是注释的主要兴趣点，研究人员可以选择将录像重采样至较低的频率。研究人员可以用重采样和原始频率对几个参与者的短片段进行编码，以确保降低帧率不会影响注视持续时间的百分比。

3）标注有效和无效的AOI注视事件和数据。研究人员应计算累积AOI注视持续时间的比例分数，并将有效AOI注视总时间作为分母。这一策略旨在减少因数据丢失造成的偏差，并允许对不同AOIs的累积注视持续时间进行比较。因此，除了标注有效的AOI注视事件(即注视持续时间超过阈值)外，编码人员还应标注无效的AOI注视帧(即注视持续时间低于阈值)和数据丢失帧(即没有检测到注视点)。

4）编码-检查-修订-检查。手动标注是一个反复的过程。在构思出初步标注计划后，研究人员应对来自不同参与者的代表性记录片段进行测试标注。这是为了确保生成的数据能够解决研究问题，并且能够实现较好的评分者间可靠性。然后，研究人员可以在对整个记录内容进行标注之前重新修订标注方法。在正式的标注协议启动后，研究人员应定期检查可靠性，以发现并解决编码者之间的重大差异。为了进行可靠的评估和科学报告，需要计算编码者间一致性的百分比和kappa值。

数据可视化示例

示例1(iTRAC)：可视化个体在双人互动中的注视行为通过可视化，我们可以了解儿童在双人互动中的注视行为的时间动态。图3(https://github.com/xiaoxuefu/MET_methods/tree/main/4.%20Visualization/Figure3)展示了在亲子二人组完成一系列具有挑战性的七巧板拼图时收集到的数据。这种可视化探讨了父母表现出的不同育儿行为(包括积极强化、教学、指令和干预)时，儿童注视模式的变化。图3A是使用MATLAB工具箱timevp(https://github.com/xiaoxuefu/timevp)绘制的，展示了在任务进行中，儿童的AOI注视事件与育儿行为的共同演变情况。从图中可以看出，在拼图任务的开始阶段，教学行为更多。随着任务进行中的时间压力逐渐增大，在任务快结束时，父母更多地采用了指令和积极强化的行为。此外，在任务的后半段，儿童注视父母的时间变得更短。

图3.母子二人互动中的注视行为与育儿行为相互交织。

状态空间网格(SSGs)能够描绘二人互动在具象空间内的移动方式来显示二人行为如何随时间变化。关于GridWare(https://www.queensu.ca/psychology/adolescent-dynamics-lab/state-space-grids)的使用教程可以参考Hollenstein(2013)的研究。图3B展示了SSGs在描绘儿童注视行为与育儿行为之间时间动态方面的效用。儿童注视事件的AOI类别与育儿行为类型形成一个5×4的网格(即20种可能的二人组状态)。本文考察了亲子互动中的吸引子模式，即在特定条件下，推动亲子系统从其他状态转变到某一特定状态的模式。GridWare可以通过计算预定义网格序列的平均持续时间或感兴趣的单个单元平均值来识别吸引子。本文对父母中心/控制型育儿状态下的吸引子强度进行了表征(即儿童在父母进行指令性和干预性行为时注视父母)。在这个例子中，二人互动有26.6%的时间(总计37.49s)处于以父母为中心/控制型育儿状态(以黄色高亮显示)。这些状态的平均持续时间为0.85s。此外，SSGs还有助于可视化和量化各状态之间的时间序列和转变模式。在本例中，状态之间的转变水平(或者说亲子互动的灵活性)通过访问的单元格数量、转变次数、离散度(0到1)和转变熵来表示，数值越高表示灵活性越高。该例中的亲子互动行为模式访问了九个不同的状态单元，在这些状态之间发生了186次转变，离散度为0.83，熵值为42.22。

示例2(ACTION)：可视化三元(母亲-婴儿-物体)互动中的多模态行为协调可视化有助于生成基于两个或多个事件类型的时间关系定义的高阶构念。共同注意(JA)就是这类构念的一个例子，它是指与社交伙伴一起协调对某个感兴趣物体或事件的注意力的能力。JA可以通过在三元互动(即儿童与父母玩玩具)中，两个人同时注视同一物体的时间对齐来测量。在互动过程中，可视化两个个体的注视和身体行为之间的时间关系有助于(1)识别JA的发生；(2)实时了解JA的出现和影响。图4(https://github.com/xiaoxuefu/MET_methods/tree/main/4.%20Visualization/Figure4)展示了来自一名8个月大婴儿的MET数据流的代表性片段。使用timevp工具箱绘制感兴趣的事件。最上面两行显示的是婴儿和母亲AOI注视事件的原始注视标注数据。与现有研究结果一致，婴儿在玩玩具时很少注视同伴(并且没有注视脸部)。第三行显示的是玩具的JA时段。为了探索数据，我们纳入了比Yu和Smith(2017a)更短的JA时间段(0.3-0.5s)，以适应实验中亲子组使用更多玩具时的情境。最后四行表示个体间注意-运动协调的四种组合。三个垂直方框突出显示了在伙伴持有玩具或双方共同持有玩具时的示例CVA时段。

图4.在自由玩玩具的过程中，婴儿与母亲的注视行为与手动操作玩具之间的协调。

数据分析

汇总统计分析

在数据可视化的基础上，可以按照AOI和任务条件对每个参与者的注视事件数据进行汇总，以便进行后续的数据分析。这些汇总度量包括基于个体AOI注视事件计算的指标，如AOI注视次数、个体AOI注视事件的时间特征(如持续注意，定义为AOI注视时长超过3s的注视事件)，以及两个个体AOI注视事件的时间关系(如JA)。统计分析方法包括Pearson相关、线性回归、方差分析(ANOVA)和线性混合效应模型等。需要仔细检查注视行为测量值的分布情况，以便为非正态分布的结果变量选择适当的数据转换和统计建模方法。

注视事件时间动态的统计分析

MET可在长时间的数据收集过程中对注视位置进行高密度重复采样，为研究注视行为的时间动态提供了独特的机会。注视行为的位置和持续时间会随个体内部或外部影响因素的变化而变化。密集的纵向数据分析和动态系统建模方法可以帮助我们理解个体在微观和宏观时间尺度上的变化模式，并根据变化轨迹进行特征描述。这些建模方法已在行为观察和自我报告数据中得到了广泛应用，但在MET数据中的应用仍然有限。然而，越来越多的研究开始强调使用基于样条的方法来建模对AOI注视事件的非线性时变效应。

新兴的MET研究已经对被试内的AOI注视行为的时间轨迹进行了建模。例如，Gunther等人(2021)研究了5至7岁儿童在注视一位戴着大猩猩面具的陌生人时注视行为的变化情况。图5(https://github.com/xiaoxuefu/MET_methods/tree/main/5.%20Data%20Analysis%20-%20Growth%20Model)显示，儿童的注视行为呈现出倒U型。此外，Gunther等人(2021)发现儿童行为抑制存在明显的主效应。随着时间的推移，较高的行为抑制水平与对陌生人的注视比例增加相关。因此，气质类型的个体差异决定了注视行为随时间的变化。总的来说，对注视事件的时间动态建模可能揭示有关潜在机制的重要见解，并更好地表征个体在注视行为方面的差异。

图5.生长曲线模型的可视化图。观察陌生人戴着恐怖面具(左图)和摘下面具(右图)时对陌生人的注意变化过程。

结论

MET允许研究人员在正在发生的外部事件、个体行为和心理过程的背景下对第一人称注视行为进行采样。商用MET硬件允许用户从更广泛的年龄范围、不同环境以及更长时间内收集高质量的数据。然而，在数据采集过程中保持数据质量所面临的挑战，以及缺乏标准化的数据处理协议，都对该技术的应用造成了阻碍。本文提供了一份实用指南和开源工具，旨在解决方法论问题和挑战。其中包括最大限度地提高移动性、确保MET数据质量、手动注视标注的良好实践、数据可视化的效用以及采用合适的数据分析方法。目前已有多种MET数据质量评估工具可供使用，这为数据质量报告和数据处理提供了便利。随着计算机视觉算法的快速发展，自动化AOI标注的方法日益增多。然而，手动检查和标注对于验证自动化AOI标注的准确性至关重要。最后，我们鼓励研究人员利用MET数据的微观纵向结构来建模AOI注视事件的时间动态。希望这份指南能够提高MET技术的易用性，并帮助增强MET研究的可靠性、标准化和可重复性。特别是，我们相信这些方法上的进步将推动我们对塑造行为、情感和认知机制的概念性和理论性理解，并为长期或大规模的功能模式奠定基础。

参考文献：Fu, X., Franchak, J.M., MacNeill, L.A. et al. Implementing mobile eye tracking in psychological research: A practical guide. Behav Res 56, 8269–8288 (2024). https://doi.org/10.3758/s13428-024-02473-6

小伙伴们关注茗创科技，将第一时间收到精彩内容推送哦～