AI看懂你的脸，看懂你的眼——用户体验云测试平台-技术文章-诺达思（北京）信息技术有限责任公司手机版

AI看懂你的脸，看懂你的眼——用户体验云测试平台

时间：2022-07-28 阅读：1099

1. 引言

视觉是我们最重要的感官之一，使我们能够看到我们周围的世界。我们的眼球运动包含重要的信息，我们的面部表情也是如此。通过观察用户的眼球运动，以及注视和面部表情，我们可以更多地了解潜意识过程。这可以通过眼球追踪技术来完成。结合面部表情分析技术，这为用户体验、客户偏好和欣赏提供了宝贵的见解。

长久以来表情和眼动分析就被用于用户体验研究的相关项目中，表情和眼动的定量化分析方法，能够帮助用户研究人员，更加准确的了解和描述用户的产品使用过程，为产品原型、产品素材、宣发材料等各种材料提供更加科学和客观的验证结果。

比如MEUX在21年与诺达思合作的一项研究中就通过眼动的方式探究视频类APP，标题在视频窗口上方或下方，对用户浏览模式的影响。

还有用户体验界大名鼎鼎的尼尔森诺曼集团，在2020年发表的文章中提到，他们在眼动分析项目中，发现用户在浏览产品页面时会存在“割草机模式”的浏览习惯，也即习惯从页面内容左上角开始，向右移动到末尾，然后向下折返浏览。

还有早在06年的时候，鲁汶大学的研究者就是用FaceReader软件，对用户产品使用过程中的愉悦体验进行测量，发现用户浏览网站时，看到网站相关设计亮点时，会不自觉地流露出积极的面部表情，当用户遇到困难或者对内容感到困惑时，会流露出负面的面部表情。

1.1什么是眼动分析？

眼动追踪是一种测量眼球运动的技术，可以知道一个人在看什么，他们在看什么，以及他们的目光在特定位置停留了多长时间。用户视线停止移动的区域称为“注视”，注视是我们视觉注意加工信息的最基本单元，而用户眼睛在注视点之间的移动称为“眼跳”。通过可视化呈现，我们可以看到眼睛在页面上的浏览路径。

通过观察我们如何阅读文本，可以理解“注视”和“眼跳”这两个概念。我们经常听到高效的读者“扫描”文本。在眼球运动方面，一个高效的读者往往有较小的注视点和更长的眼跳，而较弱的读者往往有更长的注视时间和更短的眼跳。差异可以在下图中清楚地看到。左边的那个是一个更强的读者，可以快速轻松地在文本中移动，而右边的那个是一个较弱的读者。

眼动分析一般是通过一个专用的硬件——眼动仪，捕捉用户在使用产品时，用户的注视点位置。眼动仪是一个比较精密的科研仪器，集成了外摄像机、红外灯，以及最重要的眼球识别的技术。眼动分析的开展离不开专业的硬件，这也就意味着设备的使用成本较高，并且相关专业人员的培养也是不小的投入。由于这类的问题，使得眼动技术虽然能很好反应用户使用产品的完整过程，但只有在一些较大的公司才会使用到该技术。

1.2什么是面部表情分析？

面部表情分析则是通过一个AI算法，学习了人类分类表情的基本规则，进而定量化的输出用户在使用产品期间，或者关键的事件点上，表情变化的基本强度值。该算法能通过一个普通摄像机拍摄的画面，自动找到用户面部500个特征点，并进行建模，进而计算出用户7中基本表情的强度值，和20个微表情动作单元的变化。由于是纯软件的算法，因此已经有云分析平台了，使用者只需要上传自己希望测试的材料或者网页连接，便能够轻松完成大样本的定量表情测试。

1.3结合两种手段的优势

这两种生物测量的技术手段在实际用户体验研究项目中各有优劣，眼动能够较好的还原用户的认知过程，比如用户在寻找自己订单信息时，首先会在哪些地方寻找，他看到哪些信息后，会产生点击“我的”这个操作，这样认知信息的还原基本能回到产品体验中遇到的70%的问题，而另外30%则是用户使用产品过程中的情绪感受的结果。比如用户寻找订单时，哪些关键时刻让他产生眉毛下降的表情动作，哪些版本的界面设计能让用户在较高情绪效价水平下完成任务。

因此很多的研究者也试图同时使用这两种工具，来进行产品相关研究，比如2015年的时候蒙德拉贡大学的研究者就提出了将两者结合的方法，并将这种方法称为眼脸分析系统，研究者使用这样的多维度测量手段，能更加全面的对产品进行体验评估。

Eyeface由两个计算机工作站组成，每个工作站都运行特定的工具，即眼球追踪和面部表情识别。对于这项研究工作中，Facereader的网络摄像头安装在眼球追踪设备的顶部。因此对普通的用户研究人员，要使用这样的多通道的分析技术，几乎不现实，而所有问题的症结就在于眼动分析需要有额外的硬件，没法做到*的远程在线收集数据。

随着近年来AI技术的逐步发展，和相关模型算法的完善，通过一个普通摄像头识别用户的眼动逐渐变得可行，基于这样的背景下，诺达思公司联合了位于阿姆斯特丹的VicarVision，一起开发了一套通过普通摄像头识别用户眼动的算法，并将该算法集成到了在线面部表情分析平台中，使得以往只能在实验室由专业研究者开展的测试，变成了一个人人都能够使用的在线分析平台。

2. AI同时识别眼动和表情的原理介绍

该技术发源于荷兰地方政府资助的一个科研ICT高科技项目，Noldus和VicarVision花费了近24个月，开发一个突破性的系统，使用简单的网络摄像头跟踪眼球运动。结合现有的面部表情分析，就能够提供先进的解决方案，用于测量使用笔记本电脑、平板电脑或智能手机的用户的体验感受。

2.1评估瞳孔大小：一项具有挑战性的任务

对于瞳孔直径的估计，我们实施并分析了两种方法：一种是基于使用经典计算机视觉（经典CV）的方法，一种是基于深度学习的方法。两种方法都对虹膜图像进行了分割，使虹膜图像中间的区域与眼睛的瞳孔相近，见深度学习方法（左上图）和经典CV方法（右图）的处理步骤示例。在测试中，使用了手动标注的图片和Tobii nano pro（眼动仪）瞳孔直径输出。可以分析的图片数量有差异，深度学习方法可以分析*的图片，经典方法可以分析70%的图片。

在整个数据集中，我们对结果进行了充分的混合。一些被试的某些任务，测量的瞳孔大小和真值之间有很强的相关性（r = 0.86），但其他的任务却没有显示出任何相关性。平均来说，有一个中度的正相关，两种方法的表现相似（DL：r = 0.39 vs. CV：r = 0.37）。有几个被试中发现了强烈的正相关，但这些人都是蓝眼睛，没有眼镜。瞳孔和周围虹膜之间的强烈对比对于瞳孔大小的估计很重要。这对颜色较深的眼睛和用光反射覆盖瞳孔的眼睛来说是一个挑战。相比之下，红外光有一个优势，因为不可见的红外光可以照亮虹膜而不干扰瞳孔的大小。另一个困难是缺乏合适的数据集。大多数可用的数据集只存在于红外线中，缺乏可见光的特征问题。

我们的研究表明，在某些情况下，从USB摄像头中估计瞳孔直径是可能的，但还没有准备好实施。未来的研究可以通过增加可用数据量和进一步改进预处理步骤来优化当前的方法。

2.2眼动跟踪：已经可以落地使用

我们开发的EyeReader算法，可以估计用户注视方向，并将其与屏幕上的图像联系起来。神经网络通过许多标记的屏幕位置和视频记录的数据集进行训练，以学习眼睛的图像和注视向量之间的关系。在一个校准任务的帮助下，用户跟随屏幕上的点，屏幕上的2D X和Y点可以被定量解码。用我们自己的验证数据集进行的测试表明，该系统预测屏幕上的注视点的平均偏差为2.4厘米（屏幕的平均偏差为5.2%）。这与市面上其他竞争对手相当。结果显示，与单独的屏幕相比，在笔记本电脑上执行的任务的准确度略高（见下面的左图）。这可能是由于笔记本电脑的尺寸和固定位置。蓝色和棕色的眼睛颜色之间没有大的差别。眼镜，当它很厚并且有光反射时，在某些情况下会降低结果的准确性。

2.3EyeReader

当比较EyeReader和Tobii Nano眼动仪（科研级）的注视估计时，发现每个类别的总注视时间的估计之间有很强的相关性（见上面的右图）。这些结果表明，EyeReader非常适用于研究现实的用户体验项目，可以通过该手段获得一个非常清晰的眼动结果。你可以在一个灵活机动的实验室环境中使用EyeReader，也可以在FaceReader Online平台中进行在线测试（见下面的热图例子）。

2.4面部表情识别

面部表情识别系统，FaceReader是一个用于面部分析的软件。它可以检测面部表情。FaceReader已被训练为将表情归入以下类别之一：快乐、悲伤、愤怒、惊讶、恐惧、厌恶和中性。这些情绪类别被心理学家Ekman描述为基本或人类统一的情绪。面部表情的强度各不相同，而且往往是各种情绪的混合。此外，人与人之间也有相当多的差异。

FaceReader可以对上述的表情进行分类。也可以自己软件添加自定义表情。除了面部表情之外，FaceReader还提供了一些额外的分类。例如，它可以检测目光方向以及眼睛和嘴巴是否闭合。

FaceReader根据以下步骤对面部表情进行分类。

1.人脸识别。人脸在图像中的位置是通过基于深度学习的人脸识别算法找到的，该算法在图像中搜索不同比例的人脸区域。

该算法搜索图像中不同比例的具有人脸外观的区域。

2.面部建模。FaceReader使用了一种基于深度神经网络的面部建模技术。它合成了一个人工面部模型，描述了468个关键点的位置。

描述脸部468个关键点的位置。它是一种单程快速方法，可以直接估计脸部的全部关键点。在初步估计之后，关键点用主成分分析法进行压缩。这导致了描述脸部状态的高度压缩的矢量代表。

3.面部分类。然后，通过训练有素的深度人工神经网络对面部表情进行分类，以识别面部的模式。

FaceReader直接从图像像素中对面部表情进行分类。超过20,000张经过人工标注的图像被用来训练人工神经网络。

该网络被训练用来对Ekman定义的六种基本或普遍的情绪进行分类：快乐、悲伤、愤怒、惊讶、恐惧和厌恶。此外，该网络还被训练用来对FaceReader中的面部动作单元进行分类，以识别 "中性 "状态和分析 "轻蔑"。

3. FaceReader-Online在线面部表情眼动分析平台

面部表情分析引擎自07年发布以来，经过16年迭代，目前已经到了第九版。16年间各地超过1000个研究单位使用该软件，发表超过3000篇科研论文。诺达思在此AI引擎的基础上，结合微软Azure云的优势，开发了在线版的面部表情分析系统FaceReader-Online（以下简称FRO）。

FRO通过情绪的捕捉与分析,可以了解受测人员对商业广告、电影预告片、网站等的喜好度、注意力等，从而为客户提供更客观的评价和见解。FRO可以创建一个或多个项目，简言之，您只需给被试发一个测试链接，等待被试回应,完成测试后系统会自动分析，结果清晰可见,非常方便快捷。

2022年，在新技术的加持下，FRO的分析引擎也增加了眼动分析功能，能通过受试者的电脑摄像机，自动识别用户在浏览网页、使用产品原型时的情绪和注意力变化情况。

如何使用

只需三步便可完成FRO的相关设置：

1. 定义你的项目；

2. 邀请用户测试，收集数据；

3. 查看分析结果。

3.1定义项目

在您从诺达思获取账号后，可以通过链接访问FRO平台，登录之后只需要选择新建一个分析项目即可。接下来您需要上传您的测试材料，比如视频广告，或者相关App素材，测试原型链接等，之后您需要设置您的测试流程，如何时给用户呈现视频或图片材料，原型测试链接的相关指引，测试时长有多少，结束后是否添加相关问题等。设置好试验后，您可以进行相关的预览和测试。

3.2邀请用户

准备好测试相关流程后，FRO会自动生成一个在线测试链接，您可以将该链接直接发送给被测试的用户人群，也可以将该链接整合到你已有的问卷系统中。之后便可以轻松的在系统后台中看到测试的进度，以及收集到的数据质量。

3.3查看分析结果

FRO会对收集到的数据进行自动的分析，分析结束后我们便可以在后台看到收集到的相关数据。分析数据前我们可以首先选择对比的方式，我们可以对比不同用户群体在使用同一个用户界面时的结果和感受，也可以对比多个不同版本的用户界面设计。除此以外，也能够对数据做清洗，去除录像效果较差的数据。

添加结果之后，FRO会以图标和表格的形式呈现数据，直观对比不同版本的材料间，用户在完成测试脚本期间表情的变化情况，如下图示例中，可以看到新版网站用户在寻找相关产品信息时，表情更加积极；用户在浏览旧网站时，会有更多消极表情，而这些消极表情，主要是由于用户浏览网站过程中的困惑，困难产生的，如用户找不到相关信息时会不自觉的皱眉头等。

眼动分析中，除了传统的热区图以外，我们还能对感兴趣的页面区域做划分，了解用户进入当前页面浏览时第一次看到我们目标区域花了多长时间（首视时间），看相关区域一共花了多长时间，以此可以定量对比不同版本的设计，对用户产生的具体影响情况。

限于篇幅，我们仅就面部表情和眼动分析中的部分结果呈现做了展示，更多丰富的内容可以进入查看。也可联系我们进行免费试用。

4. 应用前景

在丰富了FRO分析平台从眼动到表情识别的分析能力后，FRO的应用方向迎来了更多的想象空间，除了传统的一些用户体验相关的视频或者图片素材的测试外，还能对一些概念原型做相关评估，包括但不限于如下内容：网页网站的可用性评估、广告创意评估、图片材料评估、产品货架测试、产品包装测试、虚拟门店测试、行为心理研究、预告片评估、精神疾病评估等。

FRO能使得以往需要耗费数万元一次的线下眼动、表情测试，以标准化的线上测试的形式呈现，用以往五分之一的价格，便能完成一次表情+眼动的定量实验研究，特别是在疾病流行的当下，能帮助客户更加高效的开展远程的用户体验测试项目。

关注诺达思公众号，获取更多产品信息及学术文章！

诺达思公众号.png