ARGaze-自回归Transformer实现在线视线估计SOTA
前言
视线估计(Gaze Estimation)是驾驶员监控系统的核心技术之一。2026年2月发布的ARGaze框架,创新性地将自回归Transformer应用于在线视线估计,在多个基准测试中取得SOTA性能。
一、问题定义
1.1 自我中心视线估计
与传统视线估计的区别:
| 类型 | 视角 | 输入 | 挑战 |
|---|---|---|---|
| 第三人称 | 外部摄像头 | 头部+眼睛图像 | 需要明确头部/眼动信号 |
| 自我中心 | 可穿戴摄像头 | 第一人称视频 | 缺乏明确信号,依赖间接线索 |
1.2 在线约束
核心要求:只能使用当前帧和过去帧预测视线,不能使用未来帧。
1 | |
二、核心创新
2.1 视线的时序连续性
关键观察:在目标导向活动中,视线具有强时序连续性——知道一个人最近在看哪里,为预测下一个位置提供了强有力的先验。
1 | |
2.2 自回归解码架构
1 | |
两大输入:
- 当前视觉特征:当前帧的视觉编码
- 视线上下文窗口:固定长度的近期视线目标估计
2.3 因果性保证
| 方法 | 因果性 | 流式推理 |
|---|---|---|
| Bidirectional Attention | ❌ 违反 | ❌ 不支持 |
| RNN/LSTM | ✅ 满足 | ✅ 支持 |
| ARGaze | ✅ 满足 | ✅ 有界资源 |
优势:与RNN不同,ARGaze的上下文窗口长度固定,计算资源有界。
三、实验结果
3.1 基准测试
在多个自我中心视觉基准上取得在线评估SOTA:
| 基准 | 任务 | ARGaze性能 |
|---|---|---|
| Ego4D | 视线目标估计 | SOTA |
| EPIC-KITCHENS | 注意力预测 | SOTA |
| Gaze360 | 3D视线估计 | SOTA |
3.2 消融实验
| 组件 | 贡献 |
|---|---|
| 自回归建模 | ⭐ 关键 |
| 有界视线历史 | ⭐ 关键 |
| 视觉特征编码 | 基础 |
关键发现:自回归建模+有界视线历史对鲁棒预测至关重要。
四、DMS应用启示
4.1 从自我中心到第三人称
虽然ARGaze针对自我中心视觉设计,但其自回归思想可迁移:
1 | |
4.2 时序建模策略
| 策略 | 适用场景 | 复杂度 |
|---|---|---|
| 单帧分析 | 静态场景 | 低 |
| 滑动窗口 | 短时依赖 | 中 |
| 自回归 | 长时依赖 | 中高 |
建议:对于驾驶员视线估计,结合自回归+滑动窗口可获得最佳效果。
4.3 部署考量
1 | |
五、技术细节
5.1 视觉编码器
选项:
- CNN backbone(ResNet/EfficientNet)
- Vision Transformer(ViT)
- 混合架构
5.2 Transformer解码器
架构特点:
- Multi-head Self-Attention
- Cross-Attention(视觉-视线)
- Causal Masking(因果掩码)
5.3 训练策略
| 策略 | 说明 |
|---|---|
| Teacher Forcing | 训练时使用真实历史 |
| Scheduled Sampling | 逐步引入预测历史 |
| Autoregressive Inference | 推理时使用预测历史 |
六、与现有DMS集成
6.1 传统方法 vs ARGaze
| 方法 | 输入 | 时序建模 | 准确率 |
|---|---|---|---|
| 几何方法 | 眼睛特征 | 无 | 中等 |
| CNN单帧 | 图像 | 无 | 中等 |
| CNN+LSTM | 图像序列 | 隐式 | 较高 |
| ARGaze | 图像+视线历史 | 显式自回归 | 高 |
6.2 集成架构
1 | |
七、总结
关键贡献
- 自回归范式:将视线估计重构为序列预测问题
- 时序连续性:利用视线的历史依赖提升预测
- 在线合规:满足因果性约束,支持流式推理
IMS开发建议
| 优先级 | 功能 | 技术方案 |
|---|---|---|
| P0 | 基础视线估计 | CNN单帧 |
| P1 | 时序平滑 | 滑动窗口平均 |
| P2 | 自回归预测 | ARGaze架构 |
论文信息:
- 标题:ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation
- 作者:Jia Li et al.
- 发布:arXiv:2602.05132, February 2026
- 开源:代码和预训练模型将发布
发布日期:2026-03-13
ARGaze-自回归Transformer实现在线视线估计SOTA
https://dapalm.com/2026/03/13/2026-03-13-ARGaze-Autoregressive-Gaze-Estimation/