2025Micro-LED峰会回顾 | 河南省科学院新型显示技术研究所副所长伍世虔：人眼视觉交互技术

编辑： 2025-04-25 13:53:28 浏览：1678 来源：

河南省科学院新型显示技术研究所副所长伍世虔在2025中国国际Mini/Micro-LED产业技术峰会上发表《人眼视觉交互技术》主题报告。

眼睛除了被动接收信号，还可以起到操控的作用。人眼视觉很有意义，在所有的信息接收里面，视觉接收的信息占到一个人所能够感知信息的80%，所以如何利用眼睛去做一些交互，捕捉视觉注意力进而解读意图是很有意义的。

用人眼视觉进行交互，常常用到的设备叫眼动仪，在眼动仪里面，通过摄像头看到眼睛，通过另外一个摄像头看到场景，那么眼动仪实际上核心的工作是需要把眼睛在看场景的哪个点，这个关系建立起来，这是眼动仪要实现的基本的也是最重要的功能。这样的技术，它的关键模块、关键技术有哪些？第一个是要把眼睛找出来，也就是把瞳孔找到。第二步，眼睛看到的是什么，这个叫凝视点估计。瞳孔检测，以及凝视点估计，这两个合在一起叫做眼动追踪技术。第三，每个人的人眼，看东西的习惯，以及长得不一样等因素会导致需要求出的眼睛跟凝视点的函数是不同的，所以，需要做系统标定，当把这样的系统做好了以后，这个系统就可以进行各种各样的交互模式。眼动交互技术大概就是由曈孔检测、凝视点估计、系统标定、交互模式这几个关键模块所组成。

接下来介绍眼动交互系统相关的技术特点和应用。一般来说，用眼动去做一个应用的时候，这个系统往往需要有一个比较强的约束。因此就需要思考能不能把这个约束放小，能不能走到在一种自然的环境下，不管是在室内还是室外，只要戴上眼动仪就可以工作，这是我们要解决的问题。另外，眼睛一动以后，又要重新标定，如果每次用一下都要重新标定很麻烦，所以如何使标定能够显得很自然，在使用过程中做到在线标定也是很重要的工作，这样系统才能好用。还有，现在是三维空间的交互，希望实现的是，第一希望在自然环境下的眼动交互，第二普适场景下的自标定，第三希望是三维情境下的大规模意图表征与推理。

对于眼动追踪系统来说，要做到鲁棒，这个难度很大。鲁棒表现在两方面，第一是对于瞳孔的检测，瞳孔检测经常会遇到这些问题：眼睛动，有眉毛的干扰，还有瞳孔反光会有光斑点，这些都导致检测的时候不够鲁棒。我们团队目前用到的方法是在以前所做的人脸检测工作的基础上，再结合人眼自身的特点提出的一套方法。

如何把凝视的视线估计准？第一是做到在3D环境下，而不是2D；第二是要把瞳孔估计得好，用瞳孔中心-反光点向量作为输入特征，减少设备滑移影响；在这个基础上，第三是基于真实瞳孔轴线方法来进一步提高精度，现在能够达到的精度是1度左右。

自标定方面，函数G = F (E ; λ)的估计存在一个问题，人眼的特征（E）可以知道，凝视点（G）也知道，但是λ不知道，这个λ意味着头戴设备的滑动也会变好，所以需要做一个标定。技术怎么做到？因为F是非线性函数，要求λ 很难，那么，可以构建新的眼动特征，使其与凝视点存在线性关系，即使眼镜有滑移也没关系，戴着眼镜看到的场景就是标定的过程，因此可以做到在线自标定。

这个工作目前的应用，一是可以用眼动做成眼动键盘；二是做成眼动鼠标，不用鼠标，通过眼动来控制；还有眼控相机，眼睛看到哪里，相机可以跟着；还有手眼协调操控，键盘、鼠标完全不需要，眼镜的操控能力还差一点，通过眼镜再加上手就可以完成复杂的功能。可以做到文本阅读与翻译，即人在阅读的时候，只要看到一个文字停在那里以后，系统就可以给出翻译。还有就是模拟一个博物馆，只要眼睛一看到某个东西，系统就可以介绍这样东西。

老人的语言功能差了以后，想看什么眼睛一定会动，我们团队的工作研究通过追踪眼睛理解人的意图，然后由机器人来帮人完成。目前也在跟一家公司合作，研究是否能通过眼动仪来检测一个人的生理健康和心理健康。还有人和机器结合的老年人服务系统，团队也发表了一些文章和申请专利。