2026年最新论文《Is Geometry Enough? An Evaluation of Landmark-Based Gaze Estimation》探讨了基于几何特征的眼动估计潜力。
一、方法对比
1.1 基于外观的方法
1
原始图像 → CNN/Transformer → 眼动向量
优势
劣势
端到端学习
需要大量训练数据
处理复杂场景
计算量大
隐式特征学习
黑盒,难解释
泛化能力强
隐私问题(需原始图像)
1.2 基于几何特征的方法
1
原始图像 → 面部关键点检测 → 几何特征 → 眼动向量
优势
劣势
计算量小
依赖关键点检测精度
可解释性强
极端头姿下性能下降
隐私友好(仅关键点)
特征表达能力有限
边缘部署友好
遮挡敏感
1.3 论文核心问题
Sparse geometric features encode sufficient information for robust gaze estimation?
稀疏几何特征是否包含足够信息实现鲁棒眼动估计?
二、研究方法
2.1 实验设计
论文系统评估了不同几何特征组合:
特征类型
描述
眼部关键点
眼睑、瞳孔、眼角
面部关键点
眉毛、鼻子、嘴巴
头部姿态
欧拉角(yaw, pitch, roll)
组合特征
上述特征的组合
2.2 评估指标
指标
描述
角误差
预测与真实角度差
跨数据集泛化
在未见数据集上的表现
计算效率
推理时间和参数量
鲁棒性
遮挡、头姿变化下的表现
三、关键发现
3.1 几何特征有效性
场景
几何方法误差
外观方法误差
理想条件
4.5°
3.8°
头姿变化
5.8°
4.2°
部分遮挡
7.2°
5.5°
极端照明
5.1°
4.9°
3.2 核心结论
“Sparse geometric features encode sufficient information for robust gaze estimation, paving the way for efficient, interpretable, and privacy-friendly edge applications.”