GazeShift-Unsupervised-Gaze-Estimation-VR-1.84deg-5ms
GazeShift 无监督视线估计:VR 场景 1.84° 误差 + 5ms 实时推理
发布时间: 2026-04-09
标签: #GazeEstimation #Unsupervised #Transformer #VR #DMS
来源: arXiv 2603.07832、Samsung Research
核心信号
2026 年 3 月,Samsung Research 发布 GazeShift 无监督视线估计框架:
- VRGaze 数据集: 210 万张 off-axis 近眼红外图像(68 人)
- 无监督训练: 无需视线标注,通过视线重定向自监督学习
- 精度: 1.84° 平均误差(per-person 校准)
- 实时性: 5ms 推理(VR 头显 GPU)
- 轻量化: 342K 参数,55 MFLOPs
这标志着视线估计从”大规模标注”转向”无监督自学习”。
一、问题背景
1. 标注困境
视线估计的数据挑战:
| 问题 | 说明 |
|---|---|
| 标注困难 | 注视点无法从图像直接推断 |
| 标注误差 | 注视不确定性、非自愿扫视 |
| 个体差异 | kappa 角(光轴-视轴夹角)因人而异 |
| 环境差异 | 光照、遮挡、眼镜等 |
传统方案:
| 方法 | 成本 | 准确性 |
|---|---|---|
| 专家标注 | 高 | 中 |
| 屏幕注视点 | 中 | 高 |
| 硬件追踪 | 极高 | 高 |
2. VR 场景特殊性
Off-axis 相机几何:
| 特性 | 说明 |
|---|---|
| 相机位置 | 倾斜安装(避免遮挡) |
| 透视畸变 | 强透视效应 |
| 光照变化 | 背景亮度变化导致瞳孔扩张 |
| 数据稀缺 | 缺少大规模 off-axis 数据集 |
现有数据集对比:
| 数据集 | 年份 | 参与者 | 图像数 | Off-axis |
|---|---|---|---|---|
| NVGaze | 2018 | 49 | 2.5M | 260K/2.5M |
| OpenEDS2020 | 2020 | 80 | 550K | 0 |
| TEyeD | 2021 | 132 | 20M | 部分 |
| VRGaze | 2026 | 68 | 2.1M | 全部 |
二、GazeShift 方法
1. 核心思想
无监督视线表征学习:
1 | |
架构流程:
1 | |
2. 关键创新
(1) 分离编码器
| 编码器 | 设计 | 原因 |
|---|---|---|
| 视线编码器 | 深层、抽象 | 视线是非空间属性(2-3 个角度) |
| 外观编码器 | 浅层、空间 | 外观与图像结构紧密相关 |
优势:
- 有效分离视线和外观
- 推理时只需视线编码器
- 轻量化设计
(2) 视线调制机制
1 | |
效果:
- 视线向量作为全局查询
- 调制外观特征朝向目标视线
- 保持空间结构
(3) 视线聚焦损失
问题: 标准重建损失对所有像素等同对待,导致视线嵌入编码无关外观细节。
解决方案: 利用自注意力图作为软掩码
1 | |
参数影响:
| γ | 效果 | 误差 |
|---|---|---|
| < 1 | 分散,模糊视线/外观信号 | 2.03° |
| = 1 | 平衡,标准注意力加权 | 1.84° |
| > 1 | 聚焦过窄,忽略上下文 | 2.19-2.41° |
三、VRGaze 数据集
1. 采集设置
硬件配置:
| 参数 | 值 |
|---|---|
| 相机类型 | 近眼红外相机 |
| 安装方式 | Off-axis(倾斜安装) |
| 分辨率 | 400 × 400 像素 |
| 帧率 | 30 fps |
| 头显 | 定制 VR 头显 |
参与者分布:
| 维度 | 分布 |
|---|---|
| 性别 | 14 女 / 54 男 |
| 种族 | 29 亚洲 / 39 白人 |
| 年龄 | 22 (18-30) / 30 (31-40) / 13 (41-50) / 3 (51+) |
| 训练/验证 | 61 / 7 人 |
2. 数据采集协议
采集流程:
1 | |
标注:
| 标注类型 | 说明 |
|---|---|
| 视线角度 | 2D 注视点(PoR) |
| 标注计算 | 基于头显几何 |
| 验证数据 | 仅使用注视间隔 |
3. Off-axis 的重要性
On-axis → Off-axis 泛化测试:
| 训练数据 | 测试数据 | 误差 |
|---|---|---|
| OpenEDS (on-axis) | VRGaze (off-axis) | 5.2° |
| VRGaze (off-axis) | VRGaze | 1.84° |
结论:On-axis 数据无法有效迁移到 Off-axis 场景,需要专门数据集。
四、实验结果
1. VRGaze 性能
校准协议:
| 协议 | 说明 |
|---|---|
| Per-person | 每人 K ∈ {17,30,40,50,60} 个注视点校准 |
| Person-agnostic | 所有受试者共享 K ∈ {100,200} 个样本校准 |
结果对比:
| 监督方式 | 方法 | 校准类型 | 误差 |
|---|---|---|---|
| 有监督 | 外观基础 | Per-person | 1.54° |
| 有监督 | 特征基础 | Per-person | 3.2° |
| 无监督 | VAE | Per-person | 5.30° |
| 无监督 | Cross-Encoder | Per-person | 2.15° |
| 无监督 | GazeShift | Per-person | 1.84° |
| 无监督 | Cross-Encoder | Person-agnostic (K=100) | 2.83° |
| 无监督 | GazeShift | Person-agnostic (K=100) | 2.73° |
| 无监督 | Cross-Encoder | Person-agnostic (K=200) | 2.26° |
| 无监督 | GazeShift | Person-agnostic (K=200) | 2.13° |
关键发现:
- GazeShift 接近有监督性能(1.84° vs 1.54°)
- 优于所有无监督基线
- Person-agnostic 场景仍有竞争力
2. 跨数据集泛化
OpenEDS2020(on-axis):
| 方法 | 校准类型 | 误差 |
|---|---|---|
| Cross-Encoder | Per-person | 3.69° |
| GazeShift | Per-person | 3.43° |
| Cross-Encoder | Person-agnostic | 5.20° |
| GazeShift | Person-agnostic | 4.20° |
远程相机(MPIIGaze):
| 方法 | 参数量 | FLOPs | 误差 |
|---|---|---|---|
| 有监督 ResNet-18 | 11M | 75M | 8.35° |
| Cross-Encoder | 11M | 75M | 8.32° |
| GazeShift (MobileNetV2) | 1M | 2M | 8.00° |
| GazeShift (ResNet-18) | 11M | 75M | 7.56° |
结论:GazeShift 在远程相机场景仍有优势,且参数/计算量大幅减少。
3. 消融实验
| # | 分离编码器 | 注意力重定向 | 视线聚焦损失 | 误差 |
|---|---|---|---|---|
| 1 | × | × | × | 2.15° |
| 2 | ✓ | × | × | 2.10° |
| 3 | ✓ | ✓ | × | 2.07° |
| 4 | ✓ | ✓ | ✓ | 1.84° |
各模块贡献:
| 模块 | 误差降低 |
|---|---|
| 分离编码器 | -0.05° |
| 注意力重定向 | -0.03° |
| 视线聚焦损失 | -0.23° |
五、对 DMS 开发的启示
1. 技术路线
无监督训练流程:
1 | |
2. 数据需求
训练数据:
| 类型 | 数量 | 来源 |
|---|---|---|
| 无标注数据 | 100 万+ 帧 | 车队采集 |
| 校准数据 | 17-60 点/人 | 用户交互 |
| 个体基线 | 可选 | 长期追踪 |
优势:
- 避免昂贵标注成本
- 可持续收集数据
- 隐私友好(无视线标注)
3. 实时部署
硬件需求:
| 指标 | 值 |
|---|---|
| 参数量 | 342K |
| FLOPs | 55M |
| 推理时间 | 5ms(双目) |
| 平台 | 移动 GPU(Exynos 2200) |
车载适配:
| 平台 | 可行性 |
|---|---|
| 高通 8295 | ✅ 轻松支持 |
| TI TDA4 | ✅ 支持 |
| 地平线 J5 | ✅ 支持 |
4. 与现有方案对比
| 方案 | 标注成本 | 精度 | 实时性 |
|---|---|---|---|
| 有监督 CNN | 高 | 高 | ✅ |
| 有监督 Transformer | 高 | 更高 | ⚠️ |
| 无监督 GazeShift | 低 | 高 | ✅ |
六、关键图表
1. 注意力可视化
1 | |
2. 视线-外观分离验证
1 | |
七、结论
GazeShift 的核心贡献:
- 无监督学习范式:消除标注依赖
- VRGaze 数据集:首个大规模 off-axis VR 数据集
- 分离编码器设计:有效视线-外观分离
- 视线聚焦损失:自引导注意力机制
- 实时边缘部署:5ms 推理,1M 参数
对 DMS 开发的建议:
- 采用无监督预训练:降低标注成本
- 建立无标注数据采集机制:持续积累
- 设计轻量校准流程:用户友好
- 边缘部署优化:关注实时性
参考资料
- arXiv: GazeShift - Unsupervised Gaze Estimation and Dataset for VR
- GitHub: https://github.com/gazeshift3/gazeshift
- OpenEDS2020 Dataset
- MPIIGaze Dataset
- NVGaze Dataset
本文已同步发布至 dapalm.com
GazeShift-Unsupervised-Gaze-Estimation-VR-1.84deg-5ms
https://dapalm.com/2026/04/09/2026-04-09-GazeShift-Unsupervised-Gaze-Estimation-VR-1.84deg-5ms/