ARGaze自回归视线估计-在线驾驶员注意力预测新范式

前言

视线估计(Gaze Estimation)是DMS的核心功能之一,Euro NCAP 2026要求连续眼动追踪作为5星评分必备条件。

2026年2月发表的ARGaze论文,提出了一种自回归Transformer方法,将视线估计重新定义为序列预测问题:

  • 利用人眼注视的时间连续性
  • 仅使用过去和当前帧(在线设置)
  • 达到SOTA性能

一、研究背景

1.1 视线估计的任务分类

类型 输入 特点 应用
离线视线估计 完整视频序列 可使用未来帧 研究分析
在线视线估计 过去+当前帧 因果、实时 实时DMS
第三人称视角 外部摄像头 有头部/眼睛信号 固定场景
第一人称视角 头戴摄像头 无显式眼信号 AR/辅助技术

ARGaze聚焦:在线第一人称视角视线估计

1.2 核心洞察

关键发现: 注视行为在目标导向活动中具有强时间连续性

1
2
3
4
5
6
7
8
9
10
注视连续性示意:

时间 t-3 t-2 t-1 t
↓ ↓ ↓ ↓
[A] ──→ [A] ──→ [A] ──→ [B]
└─────────────────┘
连续注视A区域
然后跳转到B区域

已知最近注视点 = 预测下一注视点的强先验

二、ARGaze架构

2.1 自回归建模

传统方法 vs ARGaze:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
传统方法(双向注意力):
┌─────────────────────────────────────────┐
│ 输入: [frame_1, ..., frame_t, ..., T] │
│ ↓ ↓ ↓ │
│ ←───── 全局注意力(违反因果) ─────→ │
└─────────────────────────────────────────┘

ARGaze(自回归):
┌─────────────────────────────────────────┐
│ 输入: [frame_t] + Gaze_Context_Window │
│ ↓ ↓ │
│ 当前视觉特征 + 历史注视点 │
│ ↓ │
│ Transformer Decoder (因果) │
│ ↓ │
│ 预测: gaze_t │
└─────────────────────────────────────────┘

2.2 网络结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
ARGaze 架构:

┌─────────────────────────────────────────────────────┐
│ 输入层 │
│ ┌───────────────┐ ┌───────────────┐ │
│ │ 当前帧图像 │ │ 历史注视窗口 │ │
│ │ I_t │ │ G_{t-K:t-1} │ │
│ └───────┬───────┘ └───────┬───────┘ │
└──────────┼─────────────────────┼──────────────────┘
│ │
v v
┌─────────────────────────────────────────────────────┐
│ 特征提取 │
│ ┌───────────────┐ ┌───────────────┐ │
│ │ 视觉编码器 │ │ 注视嵌入 │ │
│ │ (ViT/CNN) │ │ (Position Emb)│ │
│ └───────┬───────┘ └───────┬───────┘ │
└──────────┼─────────────────────┼──────────────────┘
│ │
v v
┌─────────────────────────────────────────────────────┐
│ Transformer Decoder │
│ ┌─────────────────────────────────────────────┐ │
│ │ - 因果自注意力 │ │
│ │ - 交叉注意力(视觉-注视) │ │
│ │ - 前馈网络 │ │
│ └─────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘

v
┌─────────────────────────────────────────────────────┐
│ 输出头 │
│ ┌─────────────────────────────────────────────┐ │
│ │ 注视点预测 (x, y) 或 热力图 │ │
│ └─────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘

2.3 Gaze Context Window

关键设计:固定长度的历史注视窗口

参数 说明
窗口大小K 使用最近K个注视点
嵌入方式 2D位置嵌入
更新机制 FIFO队列
1
2
3
4
5
6
7
8
9
10
11
# 伪代码:Gaze Context Window
class GazeContextWindow:
def __init__(self, size=10):
self.size = size
self.history = deque(maxlen=size)

def update(self, gaze_t):
self.history.append(gaze_t)

def get_context(self):
return list(self.history) # [gaze_{t-K}, ..., gaze_{t-1}]

三、实验结果

3.1 数据集

数据集 任务 特点
Ego4D 第一人称视频 大规模、自然活动
EPIC-KITCHENS 厨房活动 细粒度动作
GTEA 茶饮制作 注视标注

3.2 性能对比

1
2
3
4
5
6
7
8
9
10
11
12
13
在线视线估计性能(Angular误差,度):

┌──────────────────────┬──────────────┬──────────────┐
│ 方法 │ Ego4D │ EPIC-KITCHENS│
├──────────────────────┼──────────────┼──────────────┤
│ 帧独立预测 │ 23.5° │ 21.8° │
│ 双向Transformer │ 19.2°* │ 17.5°* │
│ RNN方法 │ 20.1° │ 18.9° │
│ ARGaze (K=5) │ 18.3° │ 16.2° │
│ ARGaze (K=10) │ 17.1° ✅ │ 15.4° ✅ │
└──────────────────────┴──────────────┴──────────────┘

* 注:双向方法违反因果约束,不能用于实时应用

3.3 消融实验

组件 移除后性能下降
Gaze Context Window -3.2°
Transformer Decoder -2.5°
视觉编码器预训练 -1.8°
位置嵌入 -1.2°

四、与DMS的关系

4.1 第一人称 vs 第三人称

视角 ARGaze适用? DMS场景
第一人称(头戴) ✅ 直接适用 AR眼镜、研究设备
第三人称(车内) 需适配 标准DMS

DMS适配方案:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
第三人称DMS适配:

┌─────────────────────────────────────────────────────┐
│ 标准DMS摄像头 │
│ ┌─────────────────────────────────────────────┐ │
│ │ 输出:头部姿态、眼动、视线方向 │ │
│ └─────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘

v
┌─────────────────────────────────────────────────────┐
│ ARGaze时序建模层(新增) │
│ ┌─────────────────────────────────────────────┐ │
│ │ 输入:历史视线序列 [gaze_{t-K}, ..., t-1] │ │
│ │ 模型:Transformer Decoder │ │
│ │ 输出:预测视线 gaze_t_pred │ │
│ └─────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘

v
┌─────────────────────────────────────────────────────┐
│ 分心检测增强 │
│ ┌─────────────────────────────────────────────┐ │
│ │ 对比:预测视线 vs 实际视线 │ │
│ │ 异常检测:偏离预测轨迹 → 认知分心 │ │
│ └─────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘

4.2 认知分心检测增强

ARGaze的核心价值:预测驾驶员”应该”看哪里

1
2
3
4
5
6
7
8
9
10
11
12
13
分心检测逻辑:

正常驾驶:
预测视线 ≈ 实际视线 → 正常

认知分心:
预测视线 ≠ 实际视线 → 异常
(眼睛在看,但注意力不在)

示例:
- 预测:应看前方道路(基于历史轨迹)
- 实际:盯着前方但瞳孔反应异常、眼动规律性降低
- 结论:认知分心

4.3 Euro NCAP 2026合规

要求 ARGaze贡献
连续眼动追踪 ✅ 时序建模
分心检测 ✅ 异常检测
认知分心 ⚠️ 需与其他指标融合

五、实现细节

5.1 因果Transformer

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 伪代码:因果注意力
class CausalTransformerDecoder(nn.Module):
def __init__(self, d_model, nhead, num_layers):
self.layers = nn.ModuleList([
nn.TransformerDecoderLayer(d_model, nhead)
for _ in range(num_layers)
])

def forward(self, visual_features, gaze_history):
# 因果掩码
causal_mask = generate_causal_mask(gaze_history.size(1))

# 自注意力(仅看历史)
for layer in self.layers:
gaze_history = layer(
gaze_history,
visual_features,
tgt_mask=causal_mask
)

return gaze_history

5.2 损失函数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 伪代码:多任务损失
def compute_loss(pred_gaze, gt_gaze, pred_heatmap, gt_heatmap):
# 坐标回归损失
regression_loss = F.mse_loss(pred_gaze, gt_gaze)

# 热力图损失
heatmap_loss = F.kl_div(pred_heatmap, gt_heatmap)

# 时间连续性损失
temporal_loss = F.mse_loss(
pred_gaze[1:] - pred_gaze[:-1],
gt_gaze[1:] - gt_gaze[:-1]
)

return regression_loss + heatmap_loss + 0.1 * temporal_loss

六、开发启示

6.1 IMS技术路线

阶段 功能 技术
Phase 1 基础视线估计 单帧CNN
Phase 2 时序建模 ARGaze适配
Phase 3 认知分心检测 多模态融合

6.2 部署考量

挑战 解决方案
计算开销 轻量化Transformer(MobileBERT)
延迟 窗口大小K=5,平衡精度与速度
内存 固定窗口,避免无限增长

6.3 研究方向

方向 说明
跨域泛化 不同驾驶员、不同场景
极端姿态 大头部旋转下的视线估计
遮挡处理 墨镜、口罩等遮挡场景

七、总结

核心创新

  1. 自回归建模:首次将视线估计定义为序列预测
  2. 因果设计:满足在线实时应用需求
  3. 历史先验:利用注视连续性提升预测

IMS开发建议

优先级 建议
P0 评估现有视线估计的时序建模需求
P1 实现Gaze Context Window机制
P2 研究与认知分心检测的融合

商业价值

  • 技术领先:SOTA在线视线估计
  • 法规合规:满足Euro NCAP 2026连续追踪要求
  • 差异化:认知分心检测能力

参考文献

  1. Li et al. (2026). ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation. arXiv:2602.05132.
  2. Euro NCAP (2025). Assessment Protocol - Safe Driving.
  3. Lai et al. (2024). Gaze estimation benchmark.

研究日期: 2026-03-13
论文来源: arXiv:2602.05132


ARGaze自回归视线估计-在线驾驶员注意力预测新范式
https://dapalm.com/2026/03/13/ARGaze自回归视线估计-在线驾驶员注意力预测/
作者
Mars
发布于
2026年3月13日
许可协议