Deep-Learning-Gaze-Estimation-Review-CNN-to-Transformer

深度学习视线估计综述:从 CNN 到 Transformer 的十年演进

发布时间: 2026-04-09
标签: #GazeEstimation #DeepLearning #CNN #Transformer #DMS #综述
来源: MDPI Robotics (2026-03)、多个数据集


核心信号

2026 年 3 月,MDPI Robotics 发布深度学习视线估计综述:

  • 时间跨度: 2015-2026(深度学习时代)
  • 方法分类: CNN、时序模型、生成模型、Transformer
  • 输入类型: 眼部图像、眼+脸图像、全脸图像
  • 数据集演进: MPIIGaze → ETH-XGaze → VRGaze

这标志着视线估计从”几何模型”到”端到端深度学习”的范式转变已成熟。


一、视线估计问题定义

1. 基本设定

目标:识别视线方向(Line of Sight)

典型配置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
┌─────────────────────────────────────────┐
│ 视线估计系统 │
├─────────────────────────────────────────┤
│ ┌─────────┐ │
│ │ 人眼主体│ ←─ 头部运动 │
│ └────┬────┘ │
│ │ │
│ ┌────▼────┐ │
│ │ 传感器 │ ←─ 侵入式/非侵入式 │
│ │- HMD │ │
│ │- IR相机 │ │
│ │- 单目 │ │
│ │- RGB-D │ │
│ └────┬────┘ │
│ │ │
│ ┌────▼────┐ │
│ │ 视觉平面│ ←─ 距离变化 │
│ │- 屏幕 │ (~60cm) │
│ │- 手机 │ (~20cm) │
│ │- 车内 │ (~50cm) │
│ └─────────┘ │
└─────────────────────────────────────────┘

2. 标定因素

标定类型 说明
相机标定 相机内参(焦距、畸变)
几何标定 相机-光源-显示器空间关系
个人标定 头姿、眼球参数(角膜曲率、kappa 角)

3. 视线 vs 注意力

概念 说明
视线方向 眼睛指向的方向(外显注意)
外显注意 注意与眼动一致
内隐注意 注意与眼动分离(无法通过视线检测)

结论:视线估计捕获外显注意,不完整表征内隐注意。


二、传统方法回顾

1. 方法分类

1
2
3
4
5
6
7
8
9
10
传统方法
├─ 模型基础(Model-based)
│ ├─ 椭圆虹膜边界模型
│ └─ 球形眼球模型
├─ 特征基础(Feature-based)
│ ├─ PC-CR(瞳孔中心-角膜反射)
│ └─ PC-EC(瞳孔中心-眼角)
└─ 外观基础(Appearance-based)
├─ 像素直接映射
└─ 手工特征(HOG, LBP)

2. 模型基础方法

椭圆虹膜边界模型:

1
2
3
4
5
6
7
8
9
原理:
1. 从 2D 图像提取虹膜椭圆边界
2. 投影回 3D 圆形
3. 圆的法向量 = 视线方向

挑战:
- 眼睑部分遮挡
- 虹膜边界提取精度
- 需要高分辨率图像

球形眼球模型:

1
2
3
4
5
6
7
8
9
原理:
1. 检测瞳孔位置
2. 估计眼球中心(3D)
3. 瞳孔-眼球中心连线 = 视线方向

眼球中心估计:
- 头部追踪
- 面部关键点
- 眼睑轮廓

3. 特征基础方法

PC-CR(Pupil Center - Corneal Reflection):

特点 说明
要求 红外光源 + 固定头部
单光源 适用于静止场景
双光源 适用于头部运动

PC-EC(Pupil Center - Eye Corner):

特点 说明
优势 无需红外光源,webcam 可用
挑战 眼角关键点难以精确定位

4. 外观基础方法

早期方法(2015 前):

方法 特点
神经网络(Baluja 1994) 2000 样本,屏幕坐标预测
最近邻(Tan 2002) 252 样本,像素相似度
半监督高斯过程(Williams 2006) 减少训练样本需求
显著性模型(Sugano 2008) 无需标注

局限性:

  • 个体特定模型(需每人标定)
  • 受控环境(固定头姿)
  • 跨个体性能差(>10° 误差)

三、深度学习方法

1. 方法演进时间线

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
2015 ────┐
Zhang et al.:首个 CNN 视线估计
MPIIGaze 数据集
2017 ────┤
GazeNet:VGG-16 骨干
全脸输入(Zhang et al.)
2018 ────┤
iTracker:多输入(左眼+右眼+脸+网格)
RtGene:VGG-16 + 头姿
2019 ────┤
FARE-Net:粗到细策略
注意力模块
2020 ────┤
ETH-XGaze:极端头姿数据集
Transformer 探索
2021 ────┤
无监督方法兴起
Cross-Encoder
2022 ────┤
多任务学习
时序建模
2023 ────┤
Transformer 主流
自注意力机制
2024 ────┤
大规模预训练
跨域泛化
2026 ────┤
GazeShift:无监督 SOTA
VRGaze:off-axis 数据集
└───

2. 输入特征分类

类型一:眼部图像

方法 输入 特点
GazeNet(2015) 单眼灰度 LeNet 架构
GazeNet(2017) 单眼灰度 VGG-16,13 层卷积
Park(2018) 单眼 密集连接网络
Cheng(2018) 双眼 四流 CNN
Fischer(2018) 双眼 VGG-16 + 头姿

类型二:眼部 + 面部图像

方法 输入 特点
iTracker(2018) 双眼+脸+网格 AlexNet 骨干
Chen(2018) 双眼+脸 扩张卷积
FARE-Net(2019) 双眼+脸 非对称回归
Murthy(2020) 双眼+脸 特征融合
Wu(2020) 双眼+脸 眼特征细化脸特征

类型三:全脸图像

方法 特点
Zhang(2019) 首个全脸 CNN
空间加权机制 强调关键区域
Oh(2022) 自注意力卷积
GazeCaps(2022) Capsule 网络
MobGazeNet(2024) 轻量化 + 多注意力

3. 代表性模型架构

(1) CNN 模型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
监督 CNN 架构:

输入图像


┌─────────────┐
│ 骨干网络 │
│ - LeNet │
│ - VGG-16
│ - ResNet-18/50 │
│ - AlexNet │
└──────┬──────┘


┌─────────────┐
│ 全连接层 │
│ - FC + ReLU│
│ - BN │
└──────┬──────┘


┌─────────────┐
│ 输出层 │
│ - 俯仰角 │
│ - 偏航角 │
└─────────────┘

(2) 时序模型

方法 说明
LSTM 捕捉视线动态变化
GRU 轻量化时序建模
TCN 时间卷积网络

(3) 生成模型

方法 应用
GAN 图像增强(去眼镜、光照校正)
VAE 视线表征学习
扩散模型 数据增强(探索阶段)

(4) Transformer 模型

方法 特点
自注意力 全局上下文建模
交叉注意力 多模态融合
Vision Transformer 图像 patch 处理

四、数据集演进

1. 主要数据集

数据集 年份 参与者 图像数 场景 特点
MPIIGaze 2017 15 213K 笔记本 真实世界
GazeCapture 2016 1450 2.4M 手机 大规模
ETH-XGaze 2020 110 1M+ 多相机 极端头姿
NVGaze 2019 49 2.5M VR 近眼
OpenEDS2020 2020 80 550K VR On-axis
VRGaze 2026 68 2.1M VR Off-axis

2. 数据集特性对比

环境控制:

类型 代表 特点
受控环境 ETH-XGaze 多相机、固定光照、精确标注
半受控 MPIIGaze 笔记本场景、日常使用
无约束 GazeCapture 手机、多样环境

几何配置:

类型 代表 相机配置
On-axis OpenEDS2020 相机正对眼睛
Off-axis VRGaze 相机倾斜安装

五、技术挑战与解决方案

1. 个体差异

问题: Kappa 角(光轴-视轴夹角)因人而异

解决方案:

方法 说明
个人标定 每人少量校准点
跨个体训练 大规模多样化数据
领域自适应 迁移学习
元学习 快速适应新用户

2. 头部运动

问题: 视线受头部姿态影响

解决方案:

方法 输入 说明
显式头姿 眼+头姿向量 外部估计器
隐式头姿 全脸图像 端到端学习
头姿不变 几何模型 3D 眼球建模

3. 环境变化

问题: 光照、遮挡、眼镜

解决方案:

挑战 解决方案
低光照 GAN 增强(EnlightenGAN)
眼镜 GAN 去眼镜
遮挡 注意力机制聚焦可见区域
跨域 域泛化/自适应

4. 实时性要求

问题: 车载 DMS 需要实时推理

解决方案:

方法 参数量 FLOPs 适用场景
MobGazeNet < 1M < 100M 边缘设备
GazeShift 342K 55M VR/车载
模型量化 减少 4x - 嵌入式
知识蒸馏 减少 10x - 移动端

六、对 IMS/DMS 开发的启示

1. 技术选型

基于场景的选择:

场景 推荐方法 原因
车载 DMS 全脸 + Transformer 鲁棒性、实时性
VR 头显 近眼 + 无监督 部署便利
手机 轻量 CNN 计算受限
研究/高精度 多模态融合 最高精度

2. 数据策略

训练数据:

数据类型 数量 来源
公开数据集 100K+ MPIIGaze, ETH-XGaze
合成数据 1M+ 渲染、GAN
自采数据 10K+ 车队采集
用户校准 17-60 点/人 个性化

数据增强:

方法 效果
光照变化 提升鲁棒性
几何变换 增加多样性
GAN 合成 扩充稀缺场景

3. 评估指标

指标 说明 目标值(DMS)
角度误差 平均误差(度) < 3°
落点误差 屏幕像素误差 < 1 cm @ 50cm
实时性 推理时间 < 10 ms
覆盖率 成功检测率 > 95%

4. 部署考量

边缘设备:

平台 参数量预算 FLOPs 预算
高通 8295 < 5M < 500M
TI TDA4 < 2M < 200M
地平线 J5 < 3M < 300M

优化技术:

技术 压缩比 精度损失
量化(INT8) 4x < 1%
剪枝 2-5x < 2%
蒸馏 5-10x < 3%

七、未来趋势

1. 无监督/自监督学习

方法 优势
GazeShift 无需视线标注
对比学习 学习通用表征
掩码预测 自监督预训练

2. 多模态融合

模态 信息
视觉 眼动、头姿
深度 距离、3D 结构
IMU 头部运动
驾驶行为 方向盘、踏板

3. 持续学习

方法 说明
在线适应 用户特定模型
增量学习 新场景扩展
遗忘缓解 稳定旧知识

4. 可解释性

方法 说明
注意力可视化 模型关注区域
特征归因 重要特征分析
不确定性估计 置信度输出

八、结论

深度学习视线估计的十年演进:

  1. 2015-2017: CNN 起步,MPIIGaze 数据集
  2. 2018-2020: 多输入融合、注意力机制
  3. 2021-2023: Transformer、无监督学习
  4. 2024-2026: 大规模预训练、边缘部署、VR 场景

技术成熟度:

指标 状态
精度 ✅ 成熟(< 3°)
实时性 ✅ 成熟(< 10ms)
鲁棒性 ⚠️ 挑战(眼镜、遮挡)
泛化性 ⚠️ 挑战(跨域)
数据效率 ⚠️ 挑战(标注成本)

对 IMS 开发的建议:

  1. 采用 Transformer 架构:全局上下文建模
  2. 无监督预训练:降低标注成本
  3. 多模态融合:提升鲁棒性
  4. 轻量化设计:满足边缘部署
  5. 用户适应机制:个性化校准

参考资料

  1. MDPI Robotics: Deep Learning-Based Gaze Estimation: A Review (2026-03)
  2. MPIIGaze Dataset (2017)
  3. ETH-XGaze Dataset (2020)
  4. GazeCapture Dataset (2016)
  5. VRGaze Dataset (2026)

本文已同步发布至 dapalm.com


Deep-Learning-Gaze-Estimation-Review-CNN-to-Transformer
https://dapalm.com/2026/04/09/2026-04-09-Deep-Learning-Gaze-Estimation-Review-CNN-to-Transformer/
作者
Mars
发布于
2026年4月9日
许可协议