EyeCue:眼动引导的自我中心视频认知分心检测(IJCAI 2026 论文解读)
论文信息
- 标题: Driver Cognitive Distraction Detection via Gaze-Empowered Egocentric Video Understanding
- 作者: Lang Zhang, JinYi Yoon, Matthew Corbett, Abhijit Sarkar, Bo Ji
- 机构: Virginia Tech, Inha University, Army Cyber Institute at West Point
- 会议: IJCAI 2026(International Joint Conference on Artificial Intelligence)
- 链接: arXiv:2605.07859
- 代码: GitHub - langzhang2000/EyeCue
核心创新
首次将眼动信号与自我中心视频融合检测认知分心,准确率 74.38%,超越 11 个基线模型 7% 以上。
认知分心(cognitive distraction)是 DMS 领域最难检测的干扰类型——驾驶员视线在路面上、手在方向盘上,但思绪已经飘离。传统疲劳/分心检测方法对此束手无策。
EyeCue 的核心洞察:认知分心体现在眼动与视觉场景的交互模式中,而非单一模态特征。
方法详解
1. 问题定义
输入:
- 自我中心视频片段 $\mathcal{F} = {f_t}_{t=1}^n$(n 帧)
- 眼动坐标序列 $\mathcal{C} = {(x_t, y_t)}_{t=1}^n$
输出: 二分类(认知分心 / 注意力集中)
难点:
- 认知分心无明确物理动作(手/视线位置正常)
- 需要理解”眼动-场景”交互模式
- 现有数据集规模有限、场景单一
2. 架构设计
EyeCue 采用三模块架构:
1 | |
2.1 视频编码器(Video Encoder)
作用: 提取驾驶场景的全局上下文和细粒度视觉细节
输入处理:
- 眼动引导的视频预处理(叠加注视点、热力图掩码、裁剪感兴趣区域)
- 增强驾驶员注视区域的特征表达
输出:
v_CLS:视频分类标记,全局场景表示- $\mathcal{P} = {p_i}_{i=1}^l$:视频 patch 标记序列,细粒度区域特征
骨干网络: TimeSformer / VideoMAE 等时空 Transformer
2.2 眼动编码器(Gaze Encoder)
作用: 建模驾驶员眼动行为模式
处理流程:
1 | |
输出:
g_CLS:全局眼动模式(整个视频片段的注视行为总结)- $\mathcal{G} = {g_t}_{t=1}^n$:帧级眼动特征序列
2.3 眼动驱动语义查询模块(GDSQ)
核心创新: 显式建模眼动与场景的交互
关键假设: 驾驶员用眼动”查询”周围环境,认知状态体现在查询模式中。
处理流程:
1 | |
直觉:
- 注意力集中时,眼动”查询”的对象与驾驶任务高度相关(红绿灯、行人、前车)
- 认知分心时,眼动查询模式混乱,或查询对象与驾驶任务无关
3. 数据集:CogDrive
背景: 现有数据集规模小、场景单一,DR(eye)VE 是唯一包含眼动+视频+认知分心标注的数据集
构建方法:
- 整合 4 个驾驶数据集:DR(eye)VE, BDD-A, DADA-2000, TrafficGaze
- 统一标注协议,增加认知分心标注
- 最终规模: 3,662 个自我中心视频片段 + 眼动信号 + 认知分心标签
场景覆盖:
- 不同道路类型(城市/高速/乡村)
- 不同时段(白天/夜晚)
- 不同天气(晴天/雨天/雾天)
实验结果
1. 主要结果
| 方法类型 | 代表模型 | 准确率 |
|---|---|---|
| 眼动单模态 | Gaze-Only | 55.2% |
| 视频分类 | TimeSformer | 63.4% |
| 自我中心视频 | EgoVLP | 65.8% |
| 基础模型 | VideoMAE | 66.3% |
| 眼动+图像 | DCDD | 67.2% |
| EyeCue(本文) | EyeCue | 74.38% |
关键发现:
- 眼动单模态效果差(55.2%)→ 需要场景上下文
- 纯视频方法次优(63-66%)→ 需要眼动信号引导
- EyeCue 融合后提升 7%+
2. 泛化性能
| 场景 | 准确率 |
|---|---|
| 城市道路 | 72.1% |
| 高速公路 | 73.8% |
| 乡村道路 | 70.5% |
| 白天 | 74.2% |
| 夜晚 | 71.3% |
| 晴天 | 73.5% |
| 雨天 | 70.8% |
结论: 跨场景准确率均超过 70%,泛化能力强。
3. 消融实验
| 配置 | 准确率 | 变化 |
|---|---|---|
| 完整 EyeCue | 74.38% | - |
| 移除 GDSQ | 68.2% | -6.18% |
| 移除眼动编码器 | 69.5% | -4.88% |
| 移除视频预处理 | 71.3% | -3.08% |
关键模块重要性: GDSQ > 眼动编码器 > 视频预处理
代码复现
1. 环境配置
1 | |
2. 核心代码实现
1 | |
3. 推理流程
1 | |
IMS 开发启示
1. 技术路线
| 模块 | EyeCue 启示 | IMS 实施建议 |
|---|---|---|
| 数据采集 | 自我中心视频 + 眼动信号 | 集成 AR 眼镜或车内眼动追踪摄像头 |
| 特征提取 | 视频编码器 + 眼动编码器 | 复用 TimeSformer 预训练模型 |
| 交互建模 | GDSQ 交叉注意力 | 实现 GDSQ 模块,推理延迟约 15ms |
| 部署优化 | 模型量化 + TensorRT | 目标:边缘设备实时推理(≥25fps) |
2. 硬件需求
| 组件 | 最低配置 | 推荐配置 |
|---|---|---|
| 眼动追踪 | 单眼 IR 摄像头 | 双眼 IR 摄像头 + 940nm 补光 |
| 计算 | QCS8255(Hexagon NPU) | Orin-X(GPU 25 TOPS) |
| 存储 | 2GB 模型权重 | 4GB 模型权重 + 视频缓存 |
3. Euro NCAP 2026 对接
认知分心检测场景(预期):
| 场景编号 | 描述 | EyeCue 检测能力 |
|---|---|---|
| CD-01 | 驾驶员思考与驾驶无关的事情 | ✅ 可检测(准确率 74%) |
| CD-02 | 驾驶员”发呆”但视线在路面 | ✅ 核心场景 |
| CD-03 | 复杂交通场景下的注意力分散 | ⚠️ 需扩展训练数据 |
开发优先级:
- 短期(3个月): 复现 EyeCue,在 DR(eye)VE 数据集验证
- 中期(6个月): 采集真实驾驶场景数据,扩展 CogDrive 数据集
- 长期(12个月): 嵌入式部署优化,满足 Euro NCAP 实时性要求
4. 与现有 IMS 模块集成
1 | |
5. 与疲劳/分心检测的协同
graph LR
A[输入视频] --> B[人脸检测]
B --> C[疲劳检测]
B --> D[视觉分心检测]
B --> E[认知分心检测]
C --> F[EAR+PERCLOS]
D --> G[视线落点+AOI]
E --> H[EyeCue 模型]
F --> I[决策融合]
G --> I
H --> I
I --> J{风险等级}
J -->|低| K[正常驾驶]
J -->|中| L[一级警告]
J -->|高| M[二级警告+干预]
融合策略:
- 疲劳检测(生理指标)优先级最高
- 视觉分心(物理行为)次之
- 认知分心(隐性状态)作为补充
局限性分析
| 局限 | 影响 | 解决方案 |
|---|---|---|
| 数据集规模有限(3,662 样本) | 泛化能力受限 | 扩展数据采集,引入数据增强 |
| 依赖眼动追踪设备 | 成本增加,可靠性依赖硬件 | 探索纯视频方案作为降级选项 |
| 未考虑个体差异 | 不同驾驶员基线不同 | 引入个性化校准机制 |
| 实时性未充分验证 | 边缘部署挑战 | 模型剪枝、量化、知识蒸馏 |
参考文献
- Palazzi, A., et al. “DR(eye)VE: A Dataset for Attention-Based Tasks with Applications to Autonomous and Assisted Driving.” CVPR Workshops, 2018.
- Bertasius, G., et al. “Is Space-Time Attention All You Need for Video Understanding?” ICML, 2021. (TimeSformer)
- Tong, Z., et al. “VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training.” NeurIPS, 2022.
总结: EyeCue 为认知分心检测提供了首个有效的深度学习方案,通过眼动-场景交互建模实现了 74.38% 的准确率。对于 IMS 开发,建议优先复现该架构,结合 Euro NCAP 2026 要求进行场景扩展和部署优化。
EyeCue:眼动引导的自我中心视频认知分心检测(IJCAI 2026 论文解读)
https://dapalm.com/2026/06/05/2026-06-05-EyeCue-Cognitive-Distraction-Detection/