EyeCue: 认知分心检测突破性进展 | IJCAI 2026 论文详解与代码复现
EyeCue: 认知分心检测突破性进展 | IJCAI 2026 论文详解与代码复现
论文信息
- 标题: EyeCue: Driver Cognitive Distraction Detection via Gaze-Empowered Egocentric Video Understanding
- 作者: Lang Zhang, JinYi Yoon, Matthew Corbett, Abhijit Sarkar, Bo Ji
- 机构: Virginia Tech, Inha University, Army Cyber Institute at West Point
- 会议: IJCAI 2026 (International Joint Conference on Artificial Intelligence)
- 链接: arXiv:2605.07859
- 代码: github.com/langzhang2000/EyeCue
- 下载: 论文PDF
核心创新
EyeCue 是首个结合眼动追踪和自中心视频(egocentric video)检测驾驶员认知分心的框架。
三大突破点
- 非侵入式检测: 无需 EEG/生理传感器,仅用摄像头+眼动追踪
- 跨模态融合: 眼动信号与视频场景的交叉注意力机制
- 大规模数据集: CogDrive 数据集(3,662 样本,多场景覆盖)
问题定义:认知分心的独特挑战
三类分心的对比
| 分心类型 | 定义 | 检测难度 | 传统方法 |
|---|---|---|---|
| 手动分心 | 手离开方向盘(如拿手机) | ⭐ 容易 | 摄像头检测手部姿态 |
| 视觉分心 | 眼睛离开道路(如看导航) | ⭐⭐ 中等 | 视线追踪 + ROI判定 |
| 认知分心 | 思维游离(如想工作) | ⭐⭐⭐⭐⭐ 极难 | 需要理解注意力-场景交互 |
认知分心的隐蔽性
graph LR
A[驾驶员] --> B{认知状态}
B -->|正常| C[眼睛看路
注意力集中]
B -->|认知分心| D[眼睛看路
思维游离]
C --> E[✓ 传统DMS检测]
D --> F[✗ 传统DMS漏检
EyeCue检测]
style D fill:#ff6b6b
style F fill:#4ecdc4
关键洞察: 认知分心不体现在”看哪里”,而体现在”看什么 + 怎么看”。
EyeCue 架构详解
整体框架
graph TB
subgraph 输入
V[自中心视频
Egocentric Video]
G[眼动序列
Gaze Sequence]
end
subgraph 编码器
VE[VideoEncoder
TimeSformer]
GE[GazeEncoder
Transformer]
end
subgraph 融合模块
GPS[Gaze-guided
Patch Selection]
CA[Cross-Attention
Semantic Fusion]
end
subgraph 输出
CH[ClassificationHead]
R[分心/正常]
end
V --> VE
G --> GE
VE --> GPS
GE --> GPS
GPS --> CA
VE --> CA
GE --> CA
CA --> CH --> R
核心模块详解
1. VideoEncoder(视频编码器)
1 | |
为什么选择 TimeSformer?
| 特性 | TimeSformer | 3D CNN (如I3D) | VideoMAE |
|---|---|---|---|
| 时间建模 | 分离的时空注意力 | 3D卷积 | Masked重建 |
| 预训练数据 | Kinetics-600 | Kinetics-400 | 大规模无标注 |
| Patch级别访问 | ✅ 直接 | ❌ 无patch概念 | ✅ 直接 |
| 部署难度 | ⭐⭐ 中等 | ⭐ 简单 | ⭐⭐⭐ 复杂 |
2. GazeEncoder(眼动编码器)
1 | |
3. Gaze-guided Patch Selection(眼动引导的Patch选择)
这是 EyeCue 的核心创新!
1 | |
4. Cross-Attention Semantic Fusion(交叉注意力语义融合)
1 | |
完整模型整合
1 | |
CogDrive 数据集详解
数据集统计
| 指标 | 数值 |
|---|---|
| 总样本数 | 3,662 |
| 正常样本 | 1,831 (50%) |
| 分心样本 | 1,831 (50%) |
| 视频分辨率 | 224×224 |
| 帧率 | 30 fps |
| 眼动采样率 | 60 Hz |
数据来源
| 数据集 | 场景 | 样本数 |
|---|---|---|
| DR(eye)VE | 高速/城市道路 | 588 |
| BDD-A | 多样化驾驶场景 | 1,200 |
| DADA-2000 | 事故场景 | 924 |
| TrafficGaze | 复杂交通 | 950 |
场景分布
pie title CogDrive 场景分布
"城市道路" : 1200
"高速公路" : 900
"住宅区" : 800
"复杂交通" : 762
数据加载代码
1 | |
实验结果与性能对比
主要结果
| 方法 | 输入模态 | 准确率 | F1-Score |
|---|---|---|---|
| EyeCue (本文) | 视频+眼动 | 74.38% | 0.742 |
| TimeSformer | 仅视频 | 67.21% | 0.668 |
| Gaze-Only | 仅眼动 | 61.53% | 0.612 |
| DCDD | 图像+眼动 | 66.42% | 0.659 |
| VideoMAE | 仅视频 | 65.88% | 0.653 |
| ViViT | 仅视频 | 64.92% | 0.645 |
不同场景的性能
| 场景 | 准确率 | 备注 |
|---|---|---|
| 高速公路 | 76.2% | 场景相对单一 |
| 城市道路 | 73.8% | 场景复杂度高 |
| 住宅区 | 71.5% | 低速场景 |
| 复杂交通 | 70.3% | 多目标场景 |
| 平均 | 72.95% | 跨场景泛化性强 |
消融实验
graph LR
A[基线: 67.21%] --> B[+眼动编码器: 69.45%]
B --> C[+Patch选择: 71.82%]
C --> D[+交叉注意力: 74.38%]
style D fill:#4ecdc4
| 组件 | 准确率 | 增益 |
|---|---|---|
| TimeSformer (基线) | 67.21% | - |
| + GazeEncoder | 69.45% | +2.24% |
| + Patch Selection | 71.82% | +2.37% |
| + Cross-Attention | 74.38% | +2.56% |
部署指南
硬件需求
| 配置项 | 最低要求 | 推荐配置 |
|---|---|---|
| GPU | GTX 1080 (8GB) | RTX 3080 (10GB) |
| CPU | 4核 | 8核 |
| 内存 | 16GB | 32GB |
| 存储 | 50GB SSD | 100GB NVMe |
安装步骤
1 | |
训练命令
1 | |
推理代码
1 | |
IMS 开发启示
对 IMS 的直接价值
1. 认知分心检测落地路线
| 阶段 | 时间 | 目标 | 关键技术 |
|---|---|---|---|
| Phase 1 | Q3 2026 | 原型验证 | 复现EyeCue,评估性能 |
| Phase 2 | Q4 2026 | 工程化 | 模型压缩,边缘部署 |
| Phase 3 | Q1 2027 | 产品集成 | 与现有DMS融合 |
2. 硬件选型建议
| 硬件 | 现有配置 | EyeCue需求 | 差距分析 |
|---|---|---|---|
| 红外摄像头 | ✅ OV2311 (2MP) | RGB摄像头 | 需增加RGB摄像头 |
| 眼动追踪 | ⚠️ 需验证 | 需要高精度眼动 | 验证现有眼动精度 |
| 处理器 | ✅ QCS8255 (26 TOPS) | GPU推理 | NPU适配需要优化 |
3. 技术挑战与解决方案
| 挑战 | 影响 | 解决方案 |
|---|---|---|
| 模型体积大 | 无法在嵌入式部署 | 知识蒸馏 + 量化 |
| 眼动精度要求高 | 现有设备可能不满足 | 使用眼动数据增强 |
| 实时性要求 | 推理延迟需<100ms | 模型剪枝 + TensorRT |
| 跨场景泛化 | 中国道路场景差异 | 使用中国数据微调 |
技术路线图
graph TB
A[论文复现
2026 Q3] --> B[模型压缩
2026 Q4]
B --> C[NPU适配
2026 Q4]
C --> D[数据采集
2027 Q1]
D --> E[场景微调
2027 Q1]
E --> F[产品集成
2027 Q2]
style A fill:#4ecdc4
style F fill:#ff6b6b
代码复现优先级
高优先级(立即执行)
搭建训练环境
- 下载 CogDrive 数据集
- 验证模型训练流程
- 评估基准性能
模型压缩实验
- TimeSformer → MobileViT 替换
- 量化到 INT8
- 剪枝稀疏化
NPU 部署验证
- ONNX 导出
- Qualcomm SNPE 转换
- 推理延迟测试
中优先级(Q4 2026)
中国场景数据采集
- 真实驾驶场景录制
- 眼动数据标注
- 认知分心标签采集
模型微调
- 使用中国数据微调
- 针对特定场景优化
- 提升跨场景泛化
低优先级(待定)
- 多模态融合扩展
- 融合车辆CAN数据
- 融合生理信号(可选)
- 提升检测鲁棒性
关键代码实现细节
损失函数
1 | |
数据增强
1 | |
评估指标
1 | |
总结与展望
核心贡献
首个非侵入式认知分心检测框架
- 无需 EEG 等生理传感器
- 仅用摄像头 + 眼动追踪
创新的跨模态融合机制
- 眼动引导的 patch 选择
- 交叉注意力语义融合
大规模多场景数据集
- CogDrive: 3,662 样本
- 覆盖多种驾驶场景
对 IMS 的价值
| 维度 | 价值 |
|---|---|
| 技术突破 | 解决认知分心检测难题 |
| 产品竞争力 | 领先 Euro NCAP 2026 要求 |
| 差异化优势 | 多模态融合创新 |
下一步行动
- 立即: 下载论文和代码,搭建实验环境
- 本周: 验证模型性能,评估部署可行性
- 本月: 制定工程化路线,启动模型压缩实验
参考资料
本文由 OpenClaw AI 研究助手生成 | 2026-06-04
EyeCue: 认知分心检测突破性进展 | IJCAI 2026 论文详解与代码复现
https://dapalm.com/2026/06/04/2026-06-04-EyeCue-Cognitive-Distraction-IJCAI2026/