眼动估计2026前沿：几何特征是否足够？

前言

眼动估计（Gaze Estimation）是DMS的核心技术之一。传统方法分为：

基于特征的方法：依赖面部关键点几何关系
基于外观的方法：使用深度学习直接从图像预测

2026年最新论文《Is Geometry Enough? An Evaluation of Landmark-Based Gaze Estimation》探讨了基于几何特征的眼动估计潜力。

一、方法对比

1.1 基于外观的方法

1	`原始图像 → CNN/Transformer → 眼动向量`

优势	劣势
端到端学习	需要大量训练数据
处理复杂场景	计算量大
隐式特征学习	黑盒，难解释
泛化能力强	隐私问题（需原始图像）

1.2 基于几何特征的方法

1	`原始图像 → 面部关键点检测 → 几何特征 → 眼动向量`

优势	劣势
计算量小	依赖关键点检测精度
可解释性强	极端头姿下性能下降
隐私友好（仅关键点）	特征表达能力有限
边缘部署友好	遮挡敏感

1.3 论文核心问题

Sparse geometric features encode sufficient information for robust gaze estimation?

稀疏几何特征是否包含足够信息实现鲁棒眼动估计？

二、研究方法

2.1 实验设计

论文系统评估了不同几何特征组合：

特征类型	描述
眼部关键点	眼睑、瞳孔、眼角
面部关键点	眉毛、鼻子、嘴巴
头部姿态	欧拉角（yaw, pitch, roll）
组合特征	上述特征的组合

2.2 评估指标

指标	描述
角误差	预测与真实角度差
跨数据集泛化	在未见数据集上的表现
计算效率	推理时间和参数量
鲁棒性	遮挡、头姿变化下的表现

三、关键发现

3.1 几何特征有效性

场景	几何方法误差	外观方法误差
理想条件	4.5°	3.8°
头姿变化	5.8°	4.2°
部分遮挡	7.2°	5.5°
极端照明	5.1°	4.9°

3.2 核心结论

“Sparse geometric features encode sufficient information for robust gaze estimation, paving the way for efficient, interpretable, and privacy-friendly edge applications.”

关键点：

几何特征足够支持鲁棒眼动估计
为高效、可解释、隐私友好的边缘应用铺路

3.3 鲁棒性分析

干扰类型	几何方法鲁棒性	外观方法鲁棒性
照明变化	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
头姿变化	⭐⭐⭐	⭐⭐⭐⭐
眼镜遮挡	⭐⭐⭐⭐	⭐⭐⭐
墨镜	⭐⭐	⭐⭐
口罩	⭐⭐⭐	⭐⭐⭐

四、相关研究进展

4.1 GazeOnce360

GazeOnce360: Fisheye-Based 360° Multi-Person Gaze Estimation：

特性	描述
传感器	鱼眼摄像头
覆盖范围	360°多乘员眼动
方法	全局-局部特征融合
应用	OMS场景

4.2 Gaze-VLM

Gaze-VLM: Bridging Gaze and VLMs via Attention Regularization：

特性	描述
创新点	眼动引导视觉语言模型
方法	注意力正则化
应用	自我中心视频理解

4.3 L2CS-Net

L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments：

特性	描述
方法	多任务学习
优势	无约束环境下的细粒度眼动
数据集	Gaze360, MPIIGaze

五、对IMS开发的启示

5.1 方案选择

场景	推荐方案
边缘部署（资源受限）	几何特征方法
高精度需求	外观方法或混合方案
隐私敏感场景	几何特征方法
多乘员监控（OMS）	GazeOnce360架构

5.2 混合方案

原始图像
    ↓
┌───────────────────┬───────────────────┐
│  几何特征分支       │  外观特征分支      │
│  （关键点+头姿）    │  （CNN特征）       │
└───────────────────┴───────────────────┘
    ↓
    特征融合层
    ↓
    眼动预测

5.3 部署优化

优化方向	方法
关键点检测	轻量化模型（如Mediapipe Face Mesh）
特征提取	查表法+简单MLP
融合策略	注意力加权

5.4 性能基准

平台	几何方法延迟	外观方法延迟
高通8295	< 2ms	< 5ms
TI TDA4	< 5ms	< 15ms
EyeQ6L	< 8ms	< 20ms

六、技术趋势

6.1 隐私友好设计

方法	隐私保护级别
原始图像处理	低
关键点传输	中
本地处理仅输出结果	高
联邦学习	最高

6.2 边缘-云协同

边缘设备：
  - 实时关键点检测
  - 几何特征提取
  - 本地眼动估计

云端服务：
  - 模型更新
  - 复杂场景分析
  - 用户个性化

6.3 不确定性估计

Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking：

校准后的不确定性估计误差从8-45%降至稳定5%
为安全关键应用提供置信度评估

总结

眼动估计领域正在向两个方向发展：

高效边缘方案：几何特征方法提供轻量、隐私友好的解决方案
高精度方案：外观方法和Transformer架构持续提升精度

几何特征足够的结论为DMS边缘部署提供了信心：

减少计算开销
保护用户隐私
保持可接受的精度