EyeCue论文解读:基于眼动-视频融合的认知分心检测
论文信息
- 标题: EyeCue: Driver Cognitive Distraction Detection via Gaze-Empowered Egocentric Video Understanding
- 作者: Lang Zhang, JinYi Yoon, Matthew Corbett, Abhijit Sarkar, Bo Ji
- 机构: Virginia Tech, Inha University, Army Cyber Institute
- 会议: IJCAI 2026
- 链接: arXiv:2605.07859
- 代码: GitHub: EyeCue
核心问题:认知分心检测的困境
认知分心 vs 视觉分心 vs 手动分心
| 类型 | 定义 | 检测难度 | 示例 |
|---|---|---|---|
| 手动分心 | 手离开方向盘 | ⭐ 简单 | 拿手机、吃东西 |
| 视觉分心 | 眼睛离开道路 | ⭐⭐ 中等 | 看导航、看仪表盘 |
| 认知分心 | 思想游离、注意力不集中 | ⭐⭐⭐⭐⭐ 困难 | 发呆、走神、思考其他事情 |
核心挑战:
1 | |
数据支撑:
- 分心驾驶导致约30%的交通死亡事故(2023年美国3,275人死亡)
- 经济损失:98亿美元基础设施维护成本
- 认知分心是最难检测的类型,现有研究严重不足
核心创新:眼动-视觉上下文交互建模
关键洞察
认知分心反映在眼动与环境上下文的交互模式中
1 | |
三大设计挑战
| 挑战 | 问题 | EyeCue解决方案 |
|---|---|---|
| C1:特征提取 | 如何从视频和眼动中提取全局+细粒度特征? | 双编码器架构:视频编码器 + 眼动编码器 |
| C2:多模态融合 | 如何有效融合眼动与视频信息? | GDSQ模块:眼动驱动的语义查询 |
| C3:数据稀缺 | 缺乏认知分心标注数据集 | CogDrive数据集:3,662样本跨场景标注 |
架构详解:EyeCue框架
graph TB
subgraph 输入层
A[第一人称视频] --> B[视频预处理]
C[眼动坐标序列] --> D[眼动嵌入]
end
subgraph 编码器层
B --> E[视频编码器
TimeSformer/VideoMAE]
D --> F[眼动编码器
Lightweight Transformer]
end
subgraph 交互建模层
E --> G[视频patch tokens]
F --> H[眼动特征tokens]
C --> I[注视点选择]
G --> I
I --> J[GDSQ模块
交叉注意力]
H --> J
end
subgraph 融合分类层
E --> K[视频CLS token]
J --> L[语义CLS token]
F --> M[眼动CLS token]
K --> N[拼接]
L --> N
M --> N
N --> O[MLP分类器]
O --> P[认知状态: 分心/专注]
end
核心模块代码实现
1 | |
实验结果:超越所有基线
主要性能对比
| 模型 | 准确率 | F1分数 | 备注 |
|---|---|---|---|
| EyeCue (TimeSformer-K600) | 74.38% | 0.74 | 🏆 最佳 |
| EyeCue (VideoMAE-K400) | 73.12% | 0.72 | 次优 |
| GazeLLM | 68.5% | 0.67 | 训练-free |
| InternVideo2 | 66.8% | 0.65 | 视频基础模型 |
| TimeSformer (仅视频) | 67.53% | 0.66 | 消融实验 |
| Gaze Encoder (仅眼动) | 54.13% | 0.52 | 消融实验 |
| Heatmap-SVM | 48.2% | 0.45 | 传统方法 |
关键发现:
- 眼动+视频融合提升7%+:相比单一模态显著提升
- GDSQ模块贡献明显:单独使用GDSQ达到68.80%
- 跨场景泛化性强:不同道路/天气/时间均保持>70%准确率
消融实验
1 | |
超参数分析
1. 视频片段长度
| 帧数 | 准确率 | 说明 |
|---|---|---|
| 8帧 | 71.2% | 时间上下文不足 |
| 16帧 | 74.38% | 最佳平衡 |
2. 注视点patch数量(h)
| h值 | 准确率 | 说明 |
|---|---|---|
| h=1 | 74.38% | 仅选择注视点所在patch,最佳 |
| h=5 | 72.8% | 引入周边区域,略降 |
| h=9 | 71.5% | 进一步扩大,稀释注视信息 |
| h=25 | 68.2% | 过大区域,失去中心性 |
洞察:
人类视觉的中央凹特性:h=1时,仅选择中央凹注视的单个patch,最精准捕捉驾驶员的视觉焦点。
场景分析
| 场景 | 准确率 | 样本数 | 分析 |
|---|---|---|---|
| 城市 | 72.1% | 1,524 | 干扰因素多 |
| 高速 | 73.8% | 892 | 环境单调,易走神 |
| 乡村 | 76.5% | 682 | 场景简单,检测准确 |
| 白天 | 73.5% | 2,012 | 视觉质量好 |
| 夜间 | 76.2% | 842 | 目标少,干扰小 |
| 晴天 | 75.8% | 2,156 | 最佳条件 |
| 雨天 | 71.3% | 612 | 视觉质量下降 |
CogDrive数据集:填补认知分心数据空白
数据集构建
1 | |
数据集统计
| 数据集 | 专注样本 | 分心样本 | 总计 | 场景 |
|---|---|---|---|---|
| DR(eye)VE | 412 | 156 | 568 | 多道路类型 |
| BDD-A | 892 | 234 | 1,126 | 城市/高速 |
| DADA-2000 | 756 | 198 | 954 | 事故场景 |
| TrafficGaze | 793 | 221 | 1,014 | 交通场景 |
| 总计 | 2,853 | 809 | 3,662 | 跨场景 |
数据集特点:
- 多样化场景:城市/高速/乡村、白天/夜晚、晴天/雨天
- 高质量标注:双人独立标注 + 专家审核,一致性>98%
- 固定长度片段:16帧/片段,适合时序建模
IMS开发启示
1. 认知分心检测技术路线
1 | |
2. 硬件配置建议
| 组件 | 推荐型号 | 参数 | 备注 |
|---|---|---|---|
| RGB-IR摄像头 | OV2311 | 2MP, 全局快门 | 已有DMS摄像头 |
| 眼动追踪 | 现有DMS模块 | - | 复用眼动数据 |
| 处理器 | QCS8255 | Hexagon NPU, 26 TOPS | 已有平台 |
| 额外硬件 | 无需 | - | 软件升级即可 |
3. 开发路线图
graph LR
A[数据收集] --> B[模型训练]
B --> C[边缘部署]
C --> D[功能验证]
D --> E[法规认证]
A -->|3个月| B
B -->|2个月| C
C -->|1个月| D
D -->|2个月| E
E --> F[Euro NCAP 2027合规]
时间估算:
- 数据收集:3个月(标注CogDrive风格数据集)
- 模型训练:2个月(在现有DMS平台基础上)
- 边缘部署:1个月(量化+优化)
- 功能验证:2个月(测试场景验证)
- 法规认证:2个月(Euro NCAP合规测试)
总计:约10个月
4. 技术难点与解决方案
| 难点 | 挑战 | 解决方案 |
|---|---|---|
| 眼动质量依赖 | 眼动追踪误差影响检测 | 多帧平滑 + 鲁棒性训练 |
| 场景泛化 | 不同道路/天气场景 | CogDrive多场景数据增强 |
| 实时性要求 | ≤100ms推理延迟 | 模型量化 + NPU加速 |
| 误报控制 | 合理操作被误判为分心 | 场景上下文建模(如等红灯) |
总结
EyeCue的核心贡献:
- 首次提出眼动-视频融合的认知分心检测框架
- GDSQ模块创新:眼动驱动语义查询,建模注视-上下文交互
- CogDrive数据集:3,662样本跨场景标注,填补领域空白
- 74.38%准确率,超越11个基线模型7%+
对IMS开发的意义:
| 维度 | 价值 |
|---|---|
| 法规合规 | 满足Euro NCAP 2027认知分心检测要求 |
| 技术先进 | 首个非侵入式认知分心检测方案 |
| 部署可行 | 无需额外硬件,软件升级即可 |
| 性能领先 | 超越现有方案7%+ |
下一步行动:
- 下载CogDrive数据集,验证模型性能
- 基于现有DMS平台,集成EyeCue模块
- 开展认知分心数据收集与标注
- 准备Euro NCAP 2027合规测试
参考文献
- Zhang, L., et al. “EyeCue: Driver Cognitive Distraction Detection via Gaze-Empowered Egocentric Video Understanding.” IJCAI 2026.
- Euro NCAP 2026 Assessment Protocol - DSM/OMS Requirements.
- Palazzi, A., et al. “DR(eye)VE: A Dataset for Attention-Aware Driving.” CVPR 2018.
- Kashevnik, A., et al. “Driver Distraction Detection Methods: A Review.” IEEE Trans. Intell. Transp. Syst. 2021.
下载资源:
EyeCue论文解读:基于眼动-视频融合的认知分心检测
https://dapalm.com/2026/06/04/2026-06-04-eyecue-cognitive-distraction-detection/