认知分心检测新证据-眼动熵与多模态生理信号的工程启示

认知分心检测新证据：眼动熵与多模态生理信号，给 DMS 带来什么工程启示？

关键词：cognitive distraction、cognitive load、eye gaze entropy、NASA-TLX、TD2D、multimodal DSM、Euro NCAP

一、为什么这个话题现在必须重视

疲劳检测、视觉分心检测，行业已经做了很多年。

真正难的是另一类问题：司机眼睛看着前方，但大脑没有真正参与驾驶。

这类“eyes-on, mind-off”问题，正是认知分心（cognitive distraction）的核心难点。

它之所以难，不是因为没人知道它重要，而是因为它不像闭眼、扭头、玩手机那样有明显外观动作。很多时候，驾驶员：

视线大体还在前方
头姿也没有明显偏离
手也可能还在方向盘附近

但认知资源已经被别的任务占用了。

这也是为什么 Euro NCAP 后续会持续把 DMS 从“看没看路”推进到“是否真正保持注意力”。

最近两类材料很值得结合起来看：

2025 年底关于 eye gaze metrics 区分 cognitive load 的大样本论文
2025 年关于条件自动驾驶场景下多模态生理 + 眼动分心检测研究

两者放在一起，能给 IMS/DMS 开发一个很明确的信号：

认知分心检测不能再只靠 gaze direction 或 head pose，而要开始重视“眼动动态结构”和“多模态状态融合”。

二、第一篇论文最重要的发现：眼动熵比很多传统 gaze 指标更值得重视

2025 年 12 月发表的一项研究《Discriminative Capabilities of Eye Gaze Measures for Cognitive Load Evaluation in a Driving Simulation Task》给了一个很有参考价值的结论。

研究设置

样本量很大：N = 685
场景：固定基驾驶模拟
路况：highway vs urban
认知负荷操控：N-Back 听觉任务
对比方式：
- 主观量表：NASA-TLX
- 客观指标：eye gaze metrics

更关键的是，论文明确提到它采用的任务设定，与 Euro NCAP 2026 协议中的“phone-use distraction”语境具有对应性。

核心结果

这篇论文最有价值的，不是“眼动有用”这种老结论，而是更细的分层：

1）眼动指标对道路环境和次任务都敏感

论文发现 gaze metrics 对：

highway / urban 场景差异
附加认知任务带来的负荷变化

都具备区分能力。

说明眼动不仅在反映“看哪里”，也在反映注意力组织方式如何随着任务复杂度变化。

2）NASA-TLX 和眼动指标抓住的是互补信息

NASA-TLX 在区分高低认知负荷方面表现稳定，但它是主观量表，不能实时在线部署。

眼动指标则能提供更连续、更实时的外显信号。

论文的结论非常值得工程团队记住：

主观负荷量表和眼动特征不是互相替代，而是互相补充。

这意味着未来训练认知分心模型时，NASA-TLX 这类主观标注仍然有价值，但在线推理应更多依赖眼动和其他客观信号。

3）最亮眼的指标不是简单 glance，而是 gaze entropy

论文里一个非常强的结果是：

gaze transition entropy（GTE）
stationary gaze entropy（SGE）

对认知负荷动态变化具有很高区分能力。

其中，gaze transition entropy 在 urban vs highway 的区分中平均准确率可以到 0.95。

这很重要。

因为它说明真正能反映 cognitive load 的，未必只是：

看前方多久
看后视镜多久
单次 glance duration 多长

而更可能是：

注视点在不同 ROI 间转移的规律性
扫视路径的组织程度
注意分配在时间序列上的“复杂度”和“稳定性”

换句话说，认知分心不是简单的“看错地方”，而是“注意调度方式变了”。

三、第二篇论文的启示：只靠视觉很难吃下认知分心，多模态会越来越重要

另一篇 2025 年研究《Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals》进一步把问题往工程上推了一步。

研究背景为什么重要

在 Level 2/3 条件自动驾驶场景里，驾驶员并不持续控制车辆。

这会导致传统很多基于驾驶行为的指标失效，比如：

方向盘微调
车道偏离
踏板操作

因为这些操作在自动驾驶期间并不持续存在。

于是，研究者把重点转到：

眼动信号
生理信号
takeover 前的内部状态判断

数据集与方法

这项研究使用了 TD2D 数据集：

50 位驾驶员
10 类二任务条件
包含 baseline、视觉任务、认知任务、自然语音任务
同步采集：
- 眼动
- pupil
- ECG / PPG
- EDA
- NASA-TLX
- takeover performance

它的核心价值不只是在做分类，而是在说明：

认知分心与视觉分心不是一回事，单一模态很难稳定吃透。

研究真正告诉行业的点

1）显性视觉任务与内部认知任务需要不同特征集

比如：

阅读、视觉短信这类任务，视觉特征很强
N-back、语音任务、听书等，更偏向认知占用

后者不一定造成明显 gaze-off-road，但会改变：

pupil dynamics
n- 眼动规律
心率变异
电皮反应
takeover readiness

这正是认知分心难做的根源：外显行为不够强，但内部状态已变。

2）多模态融合更适合做“状态识别”，不是只做行为识别

传统视觉 DMS 更擅长识别行为：

打电话
低头
吃东西
抽烟

而认知分心更像状态问题。

状态问题最怕只看单帧或单模态，因为它更依赖：

时间上下文
生理趋势
眼动组织结构
个体基线偏移

这也是为什么论文强调 multimodal physiological + ocular integration。

3）跨被试泛化依然是难点

研究还特别指出 cross-subject generalization 仍然是现实问题。

这点非常关键，因为量产车不会为每位用户做长时间个性化校准。

所以工程上不能简单相信：

实验室里训练好一个模型
上车就能稳定泛化到所有人

认知分心模型必须面对：

个体差异
驾驶风格差异
文化和任务差异
场景差异
传感器噪声差异

四、把两篇研究放在一起看，得到一个更清晰的结论

如果把这两项工作和 InCabin 对 Seeing Machines 的观察放一起看，可以看到行业方向越来越清楚：

结论 1：未来 DMS 的关键不只是 gaze direction，而是 gaze dynamics

也就是：

gaze transition entropy
stationary gaze entropy
fix/saccade 结构
扫视节奏
ROI 转移的时间序列模式

这些特征更接近注意力如何被组织，而不只是“看没看路”。

结论 2：认知分心检测必须从单点阈值走向时序状态建模

单一阈值规则，比如：

2 秒不看路报警
头偏转超过多少度报警

对视觉分心可以有用，但对 cognitive distraction 明显不够。

认知分心更像：

一段时间内 attention allocation 变得异常
眼动复杂度变化
pupil / physiology 与任务上下文共同变化
并最终影响接管准备度或 hazard awareness

也就是说，它天然适合 temporal modeling + state estimation。

结论 3：认知分心和视觉分心需要不同层级的产品策略

不是所有车型都能上 EEG、EDA、PPG。

所以产品必须分层：

量产基础层：camera-only，重点做高质量 gaze dynamics + head pose + temporal features
增强层：camera + cabin context + vehicle context
前瞻层：ocular + physiology + takeover / ADAS context fusion

这比一上来追求“全模态一步到位”更现实。

五、对 IMS / DMS 开发最直接的启示

启示 1：把 gaze entropy 纳入特征池，而不是只盯着 glance duration

很多现有 DMS 仍然围绕：

off-road glance duration
glance frequency
eyelid closure
head yaw/pitch

这些当然重要，但如果要提前布局认知分心，建议尽快补上：

gaze transition entropy
stationary gaze entropy
fixation dispersion
scanpath regularity
ROI transition matrix features

这些特征更可能捕捉“注意组织方式变化”。

启示 2：训练标签不要只看行为标签，要引入 workload 标签体系

认知分心不是纯行为识别任务。

更合理的标签体系应结合：

任务类型标签（阅读 / 听书 / N-back / 对话）
主观 workload（如 NASA-TLX）
takeover 表现
安全事件反应时间
人工标注的 state segments

否则模型很容易只学到任务外观，而没有学到真正的 cognitive state。

启示 3：算法架构上要从 frame classifier 升级到 temporal state estimator

更建议的路线是：

短时窗口提取 ocular / gaze dynamics
中时窗建模认知状态趋势
输出 cognitive load / inattention risk score
与视觉分心分支并联，再做高层融合

也就是说，不要把认知分心硬塞进一个普通分类器里。

启示 4：量产约束下，优先做“camera-only 可落地版本”

现实里，绝大多数量产项目短期内仍是 camera-only。

所以优先级应是：

camera-only 做到尽可能高质量
先把 gaze dynamics 和 temporal modeling 做出来
后续再评估是否引入额外模态

这比一上来设计依赖生理传感器的量产方案更稳。

启示 5：认知分心最好和 ADAS / takeover context 联动

认知分心不是独立存在的，它真正有价值，是因为它影响：

hazard detection
takeover readiness
warning timing
intervention aggressiveness

所以后续更好的系统不是只输出一个 cognitive distraction flag，而是输出：

cognitive load score
confidence
persistence duration
interaction with road complexity
recommended intervention level

六、建议的开发优先级

P0：立刻补齐

增加 gaze entropy / scanpath 特征计算链路
建立 cognitive task 数据采集与标注方案
将认知分心从行为分类中拆出来独立建模
建立时序窗口实验，对比 frame-level 与 sequence-level 表现

P1：近期推进

构建 camera-only cognitive load baseline
联合 road context / task context 做风险建模
引入 takeover / response performance 作为弱监督信号
分析个体差异，建立 subject-normalization / personalization 机制

P2：前瞻布局

探索 ocular + physiology 多模态原型
使用 synthetic / semi-synthetic 数据增强认知任务覆盖
建立面向 Euro NCAP 后续协议的认知分心验证基准
和“eyes-on mind-off”高保真监测路线对齐

七、路线判断：认知分心不会像疲劳检测那样快标准化，但会越来越核心

这条线短期内不会像闭眼检测、视线离路那样快速变成统一标准功能。

原因很简单：

ground truth 难
个体差异大
场景依赖强
误报成本高
解释性要求高

但正因为它难，它才会成为下一阶段 DMS 竞争力分水岭。

谁能先把：

gaze dynamics
temporal modeling
cognitive state estimation
context-aware intervention

这几件事做成系统闭环，谁就更有机会在下一轮舱内安全演进里占到前排位置。

八、结论

从最新研究看，认知分心检测最重要的变化不是“又多了一个分类任务”，而是行业终于越来越清楚：

仅靠 gaze direction 和 head pose，不足以可靠刻画 cognitive distraction。

更值得投入的方向是：

眼动熵
扫视路径动态
时序状态建模
多模态融合
与驾驶上下文联动的风险评估

如果把这件事翻译成 IMS/DMS 工程语言，那就是：

从“看不看路”升级到“注意力是否真正可用于驾驶”。

这一步很难，但也正是下一阶段 DMS 最有含金量的突破口。

参考资料

Bakhchina et al., Discriminative Capabilities of Eye Gaze Measures for Cognitive Load Evaluation in a Driving Simulation Task, 2025-12-24
Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals, 2025
InCabin, Seeing Machines To Showcase Rare Live Demo At InCabin Europe 2025, 2025-09-07

Euro NCAP > DMS

#DMS #OMS #CPD #Euro NCAP 2026

认知分心检测新证据-眼动熵与多模态生理信号的工程启示

https://dapalm.com/2026/03/18/2026-03-18-认知分心检测新证据-眼动熵与多模态生理信号的工程启示/

作者

Mars

发布于

2026年3月18日

许可协议

安全带误用检测为什么不再是提醒功能而是OMS主链路上一篇

CPD市场与技术发展-2026法规驱动爆发下一篇