Deep-Learning-Gaze-Estimation-Review-CNN-to-Transformer
深度学习视线估计综述:从 CNN 到 Transformer 的十年演进
发布时间: 2026-04-09
标签: #GazeEstimation #DeepLearning #CNN #Transformer #DMS #综述
来源: MDPI Robotics (2026-03)、多个数据集
核心信号
2026 年 3 月,MDPI Robotics 发布深度学习视线估计综述:
- 时间跨度: 2015-2026(深度学习时代)
- 方法分类: CNN、时序模型、生成模型、Transformer
- 输入类型: 眼部图像、眼+脸图像、全脸图像
- 数据集演进: MPIIGaze → ETH-XGaze → VRGaze
这标志着视线估计从”几何模型”到”端到端深度学习”的范式转变已成熟。
一、视线估计问题定义
1. 基本设定
目标:识别视线方向(Line of Sight)
典型配置:
1 | |
2. 标定因素
| 标定类型 | 说明 |
|---|---|
| 相机标定 | 相机内参(焦距、畸变) |
| 几何标定 | 相机-光源-显示器空间关系 |
| 个人标定 | 头姿、眼球参数(角膜曲率、kappa 角) |
3. 视线 vs 注意力
| 概念 | 说明 |
|---|---|
| 视线方向 | 眼睛指向的方向(外显注意) |
| 外显注意 | 注意与眼动一致 |
| 内隐注意 | 注意与眼动分离(无法通过视线检测) |
结论:视线估计捕获外显注意,不完整表征内隐注意。
二、传统方法回顾
1. 方法分类
1 | |
2. 模型基础方法
椭圆虹膜边界模型:
1 | |
球形眼球模型:
1 | |
3. 特征基础方法
PC-CR(Pupil Center - Corneal Reflection):
| 特点 | 说明 |
|---|---|
| 要求 | 红外光源 + 固定头部 |
| 单光源 | 适用于静止场景 |
| 双光源 | 适用于头部运动 |
PC-EC(Pupil Center - Eye Corner):
| 特点 | 说明 |
|---|---|
| 优势 | 无需红外光源,webcam 可用 |
| 挑战 | 眼角关键点难以精确定位 |
4. 外观基础方法
早期方法(2015 前):
| 方法 | 特点 |
|---|---|
| 神经网络(Baluja 1994) | 2000 样本,屏幕坐标预测 |
| 最近邻(Tan 2002) | 252 样本,像素相似度 |
| 半监督高斯过程(Williams 2006) | 减少训练样本需求 |
| 显著性模型(Sugano 2008) | 无需标注 |
局限性:
- 个体特定模型(需每人标定)
- 受控环境(固定头姿)
- 跨个体性能差(>10° 误差)
三、深度学习方法
1. 方法演进时间线
1 | |
2. 输入特征分类
类型一:眼部图像
| 方法 | 输入 | 特点 |
|---|---|---|
| GazeNet(2015) | 单眼灰度 | LeNet 架构 |
| GazeNet(2017) | 单眼灰度 | VGG-16,13 层卷积 |
| Park(2018) | 单眼 | 密集连接网络 |
| Cheng(2018) | 双眼 | 四流 CNN |
| Fischer(2018) | 双眼 | VGG-16 + 头姿 |
类型二:眼部 + 面部图像
| 方法 | 输入 | 特点 |
|---|---|---|
| iTracker(2018) | 双眼+脸+网格 | AlexNet 骨干 |
| Chen(2018) | 双眼+脸 | 扩张卷积 |
| FARE-Net(2019) | 双眼+脸 | 非对称回归 |
| Murthy(2020) | 双眼+脸 | 特征融合 |
| Wu(2020) | 双眼+脸 | 眼特征细化脸特征 |
类型三:全脸图像
| 方法 | 特点 |
|---|---|
| Zhang(2019) | 首个全脸 CNN |
| 空间加权机制 | 强调关键区域 |
| Oh(2022) | 自注意力卷积 |
| GazeCaps(2022) | Capsule 网络 |
| MobGazeNet(2024) | 轻量化 + 多注意力 |
3. 代表性模型架构
(1) CNN 模型
1 | |
(2) 时序模型
| 方法 | 说明 |
|---|---|
| LSTM | 捕捉视线动态变化 |
| GRU | 轻量化时序建模 |
| TCN | 时间卷积网络 |
(3) 生成模型
| 方法 | 应用 |
|---|---|
| GAN | 图像增强(去眼镜、光照校正) |
| VAE | 视线表征学习 |
| 扩散模型 | 数据增强(探索阶段) |
(4) Transformer 模型
| 方法 | 特点 |
|---|---|
| 自注意力 | 全局上下文建模 |
| 交叉注意力 | 多模态融合 |
| Vision Transformer | 图像 patch 处理 |
四、数据集演进
1. 主要数据集
| 数据集 | 年份 | 参与者 | 图像数 | 场景 | 特点 |
|---|---|---|---|---|---|
| MPIIGaze | 2017 | 15 | 213K | 笔记本 | 真实世界 |
| GazeCapture | 2016 | 1450 | 2.4M | 手机 | 大规模 |
| ETH-XGaze | 2020 | 110 | 1M+ | 多相机 | 极端头姿 |
| NVGaze | 2019 | 49 | 2.5M | VR | 近眼 |
| OpenEDS2020 | 2020 | 80 | 550K | VR | On-axis |
| VRGaze | 2026 | 68 | 2.1M | VR | Off-axis |
2. 数据集特性对比
环境控制:
| 类型 | 代表 | 特点 |
|---|---|---|
| 受控环境 | ETH-XGaze | 多相机、固定光照、精确标注 |
| 半受控 | MPIIGaze | 笔记本场景、日常使用 |
| 无约束 | GazeCapture | 手机、多样环境 |
几何配置:
| 类型 | 代表 | 相机配置 |
|---|---|---|
| On-axis | OpenEDS2020 | 相机正对眼睛 |
| Off-axis | VRGaze | 相机倾斜安装 |
五、技术挑战与解决方案
1. 个体差异
问题: Kappa 角(光轴-视轴夹角)因人而异
解决方案:
| 方法 | 说明 |
|---|---|
| 个人标定 | 每人少量校准点 |
| 跨个体训练 | 大规模多样化数据 |
| 领域自适应 | 迁移学习 |
| 元学习 | 快速适应新用户 |
2. 头部运动
问题: 视线受头部姿态影响
解决方案:
| 方法 | 输入 | 说明 |
|---|---|---|
| 显式头姿 | 眼+头姿向量 | 外部估计器 |
| 隐式头姿 | 全脸图像 | 端到端学习 |
| 头姿不变 | 几何模型 | 3D 眼球建模 |
3. 环境变化
问题: 光照、遮挡、眼镜
解决方案:
| 挑战 | 解决方案 |
|---|---|
| 低光照 | GAN 增强(EnlightenGAN) |
| 眼镜 | GAN 去眼镜 |
| 遮挡 | 注意力机制聚焦可见区域 |
| 跨域 | 域泛化/自适应 |
4. 实时性要求
问题: 车载 DMS 需要实时推理
解决方案:
| 方法 | 参数量 | FLOPs | 适用场景 |
|---|---|---|---|
| MobGazeNet | < 1M | < 100M | 边缘设备 |
| GazeShift | 342K | 55M | VR/车载 |
| 模型量化 | 减少 4x | - | 嵌入式 |
| 知识蒸馏 | 减少 10x | - | 移动端 |
六、对 IMS/DMS 开发的启示
1. 技术选型
基于场景的选择:
| 场景 | 推荐方法 | 原因 |
|---|---|---|
| 车载 DMS | 全脸 + Transformer | 鲁棒性、实时性 |
| VR 头显 | 近眼 + 无监督 | 部署便利 |
| 手机 | 轻量 CNN | 计算受限 |
| 研究/高精度 | 多模态融合 | 最高精度 |
2. 数据策略
训练数据:
| 数据类型 | 数量 | 来源 |
|---|---|---|
| 公开数据集 | 100K+ | MPIIGaze, ETH-XGaze |
| 合成数据 | 1M+ | 渲染、GAN |
| 自采数据 | 10K+ | 车队采集 |
| 用户校准 | 17-60 点/人 | 个性化 |
数据增强:
| 方法 | 效果 |
|---|---|
| 光照变化 | 提升鲁棒性 |
| 几何变换 | 增加多样性 |
| GAN 合成 | 扩充稀缺场景 |
3. 评估指标
| 指标 | 说明 | 目标值(DMS) |
|---|---|---|
| 角度误差 | 平均误差(度) | < 3° |
| 落点误差 | 屏幕像素误差 | < 1 cm @ 50cm |
| 实时性 | 推理时间 | < 10 ms |
| 覆盖率 | 成功检测率 | > 95% |
4. 部署考量
边缘设备:
| 平台 | 参数量预算 | FLOPs 预算 |
|---|---|---|
| 高通 8295 | < 5M | < 500M |
| TI TDA4 | < 2M | < 200M |
| 地平线 J5 | < 3M | < 300M |
优化技术:
| 技术 | 压缩比 | 精度损失 |
|---|---|---|
| 量化(INT8) | 4x | < 1% |
| 剪枝 | 2-5x | < 2% |
| 蒸馏 | 5-10x | < 3% |
七、未来趋势
1. 无监督/自监督学习
| 方法 | 优势 |
|---|---|
| GazeShift | 无需视线标注 |
| 对比学习 | 学习通用表征 |
| 掩码预测 | 自监督预训练 |
2. 多模态融合
| 模态 | 信息 |
|---|---|
| 视觉 | 眼动、头姿 |
| 深度 | 距离、3D 结构 |
| IMU | 头部运动 |
| 驾驶行为 | 方向盘、踏板 |
3. 持续学习
| 方法 | 说明 |
|---|---|
| 在线适应 | 用户特定模型 |
| 增量学习 | 新场景扩展 |
| 遗忘缓解 | 稳定旧知识 |
4. 可解释性
| 方法 | 说明 |
|---|---|
| 注意力可视化 | 模型关注区域 |
| 特征归因 | 重要特征分析 |
| 不确定性估计 | 置信度输出 |
八、结论
深度学习视线估计的十年演进:
- 2015-2017: CNN 起步,MPIIGaze 数据集
- 2018-2020: 多输入融合、注意力机制
- 2021-2023: Transformer、无监督学习
- 2024-2026: 大规模预训练、边缘部署、VR 场景
技术成熟度:
| 指标 | 状态 |
|---|---|
| 精度 | ✅ 成熟(< 3°) |
| 实时性 | ✅ 成熟(< 10ms) |
| 鲁棒性 | ⚠️ 挑战(眼镜、遮挡) |
| 泛化性 | ⚠️ 挑战(跨域) |
| 数据效率 | ⚠️ 挑战(标注成本) |
对 IMS 开发的建议:
- 采用 Transformer 架构:全局上下文建模
- 无监督预训练:降低标注成本
- 多模态融合:提升鲁棒性
- 轻量化设计:满足边缘部署
- 用户适应机制:个性化校准
参考资料
- MDPI Robotics: Deep Learning-Based Gaze Estimation: A Review (2026-03)
- MPIIGaze Dataset (2017)
- ETH-XGaze Dataset (2020)
- GazeCapture Dataset (2016)
- VRGaze Dataset (2026)
本文已同步发布至 dapalm.com
Deep-Learning-Gaze-Estimation-Review-CNN-to-Transformer
https://dapalm.com/2026/04/09/2026-04-09-Deep-Learning-Gaze-Estimation-Review-CNN-to-Transformer/