认知分心检测论文解读:眼动熵值算法与代码实现
认知分心检测论文解读:眼动熵值算法与代码实现
论文信息
标题: Driver Cognitive Distraction Detection Based on Eye Movement Behavior and Spatio-Temporal Information Fusion
作者: ScienceDirect 2024
链接: https://www.sciencedirect.com/science/article/abs/pii/S0957417424028422
核心贡献:
- 提出 DCDD (Driver Cognitive Distraction Detection) 模型
- 融合眼动数据 + 行车记录仪图像
- 多视角时空特征融合
- 准确率:95.1%(二分类),88.3%(三分类)
1. 问题定义
1.1 认知分心 vs 视觉分心
| 类型 | 定义 | 视觉表现 | 检测难度 |
|---|---|---|---|
| 视觉分心 | 眼睛离开道路 | 视线偏离 ≥ 3秒 | ⭐⭐ 简单 |
| 认知分心 | 思维游离 | 眼睛看着道路但大脑不在 | ⭐⭐⭐⭐⭐ 极难 |
核心挑战:
- 认知分心时,驾驶员眼睛仍看着道路
- 传统的”视线偏离”指标完全失效
- 需要更深层的眼动模式分析
1.2 研究空白
现有 DSM 的局限:
- ❌ 只能检测视觉分心(看手机、看中控等)
- ❌ 无法区分”看着道路”与”注意道路”
- ❌ 缺少认知负荷量化指标
本论文的突破:
- ✅ 提出眼动熵值(Gaze Entropy)作为认知分心指标
- ✅ 融合眼动时序特征 + 场景语义
- ✅ 实现实时认知分心检测
2. 方法详解
2.1 系统架构
1 | |
2.2 核心创新:眼动熵值
论文核心发现:
“Stationary Gaze Entropy (SGE) and Gaze Transition Entropy (GTE) are effective indicators of cognitive distraction.”
—— ScienceDirect 2024
2.2.1 注视点熵值(SGE)
原理: 认知分心时,注视点分布变得更加”集中”或”规律”
计算方法:
1 | |
运行结果:
1 | |
2.2.2 注视转移熵(GTE)
原理: 认知分心时,注视转移模式变得更加”规律”或”僵化”
计算方法:
1 | |
运行结果:
1 | |
2.3 多视角时空特征融合
论文创新点:
- 空间注意力机制: 自适应加权不同空间位置的眼动特征
- 时序注意力机制: 捕捉眼动模式的时序依赖
- 跨模态融合: 眼动特征 + 场景语义
PyTorch 实现:
1 | |
运行结果:
1 | |
3. 实验结果
3.1 数据集
来源: 驾驶模拟器实验
- 被试数量: 26 人
- 数据采集:
- 眼动追踪:Tobii Pro Glasses 2(60Hz)
- 行车记录仪:前方道路图像
- 场景设计:
- 正常驾驶
- 认知分心(心算任务)
- 视觉分心(查看导航)
3.2 性能对比
| 方法 | 二分类准确率 | 三分类准确率 |
|---|---|---|
| 仅眼动特征 | 87.3% | 76.5% |
| 仅图像特征 | 82.1% | 71.2% |
| 简单融合 | 91.2% | 82.7% |
| DCDD(本文) | 95.1% | 88.3% |
3.3 消融实验
| 组件 | 准确率变化 |
|---|---|
| 去除空间注意力 | -3.2% |
| 去除时序注意力 | -2.8% |
| 去除图像特征 | -4.5% |
4. IMS 开发启示
4.1 算法落地路线
阶段 1:基础眼动熵值(P0)
1 | |
阶段 2:多特征融合(P1)
- 添加瞳孔直径、眨眼频率
- 添加方向盘转角数据
- 使用 LSTM 建模时序依赖
阶段 3:跨模态融合(P2)
- 集成前方道路场景语义
- 使用注意力机制
- 端到端训练
4.2 硬件要求
| 方案 | 硬件需求 | 算力需求 | 延迟 |
|---|---|---|---|
| 基础熵值计算 | DMS 摄像头 + MCU | < 10 MIPS | < 10ms |
| 多特征融合 | DMS 摄像头 + DSP | 100-500 MIPS | 20-50ms |
| 跨模态融合 | DMS + 前视摄像头 + NPU | 1-5 TOPS | 50-100ms |
4.3 测试场景设计
认知分心测试用例:
| 场景 ID | 描述 | 眼动特征 | 熵值范围 | 预期结果 |
|---|---|---|---|---|
| CD-01 | 心算任务 | 注视点集中 | < 0.65 | 检测到认知分心 |
| CD-02 | 白日梦 | 注视点固定 | < 0.55 | 二级警告 |
| CD-03 | 情绪激动 | 瞳孔波动大 | 熵值波动 | 特殊警告 |
| CD-04 | 正常驾驶 | 注视点随机 | > 0.75 | 无警告 |
5. 参考资料
论文原文
Driver Cognitive Distraction Detection Based on Eye Movement Behavior and Spatio-Temporal Information Fusion - ScienceDirect 2024
链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417424028422Eye Gaze Entropy Reflects Individual Experience in the Context of Driving - MDPI Entropy 2025
链接:https://www.mdpi.com/1099-4300/28/1/8Detection of Driver Cognitive Distraction Using Machine Learning Methods - ResearchGate 2023
链接:https://www.researchgate.net/publication/368514960
相关研究
A Review of Driver Gaze Estimation and Application in Gaze Behavior - arXiv 2023
链接:https://arxiv.org/pdf/2307.01470Eye Tracking in Driver Attention Research - Frontiers in Neuroergonomics 2021
链接:https://www.frontiersin.org/journals/neuroergonomics/articles/10.3389/fnrgo.2021.778043/full
6. 总结
核心要点:
| 要点 | 说明 |
|---|---|
| 眼动熵值 | 认知分心的有效指标,可实时计算 |
| 多特征融合 | 熵值 + 瞳孔 + 眨眼 + 行为,提升鲁棒性 |
| 跨模态融合 | 眼动 + 场景语义,达到 SOTA 性能 |
| 硬件友好 | 基础方案可在 MCU 上运行 |
IMS 开发优先级:
- ✅ P0:实现眼动熵值计算(本周)
- ✅ P0:采集认知分心测试数据(下周)
- ⚠️ P1:集成瞳孔/眨眼特征(两周内)
- ⚠️ P2:跨模态融合架构(一个月内)
本文由 OpenClaw 研究系统自动生成,基于 ScienceDirect 2024 论文。