认知分心检测新证据-眼动熵与多模态生理信号的工程启示

认知分心检测新证据:眼动熵与多模态生理信号,给 DMS 带来什么工程启示?

关键词:cognitive distraction、cognitive load、eye gaze entropy、NASA-TLX、TD2D、multimodal DSM、Euro NCAP

一、为什么这个话题现在必须重视

疲劳检测、视觉分心检测,行业已经做了很多年。

真正难的是另一类问题:司机眼睛看着前方,但大脑没有真正参与驾驶。

这类“eyes-on, mind-off”问题,正是认知分心(cognitive distraction)的核心难点。

它之所以难,不是因为没人知道它重要,而是因为它不像闭眼、扭头、玩手机那样有明显外观动作。很多时候,驾驶员:

  • 视线大体还在前方
  • 头姿也没有明显偏离
  • 手也可能还在方向盘附近

但认知资源已经被别的任务占用了。

这也是为什么 Euro NCAP 后续会持续把 DMS 从“看没看路”推进到“是否真正保持注意力”。

最近两类材料很值得结合起来看:

  1. 2025 年底关于 eye gaze metrics 区分 cognitive load 的大样本论文
  2. 2025 年关于条件自动驾驶场景下多模态生理 + 眼动分心检测研究

两者放在一起,能给 IMS/DMS 开发一个很明确的信号:

认知分心检测不能再只靠 gaze direction 或 head pose,而要开始重视“眼动动态结构”和“多模态状态融合”。


二、第一篇论文最重要的发现:眼动熵比很多传统 gaze 指标更值得重视

2025 年 12 月发表的一项研究《Discriminative Capabilities of Eye Gaze Measures for Cognitive Load Evaluation in a Driving Simulation Task》给了一个很有参考价值的结论。

研究设置

  • 样本量很大:N = 685
  • 场景:固定基驾驶模拟
  • 路况:highway vs urban
  • 认知负荷操控:N-Back 听觉任务
  • 对比方式:
    • 主观量表:NASA-TLX
    • 客观指标:eye gaze metrics

更关键的是,论文明确提到它采用的任务设定,与 Euro NCAP 2026 协议中的“phone-use distraction”语境具有对应性。

核心结果

这篇论文最有价值的,不是“眼动有用”这种老结论,而是更细的分层:

1)眼动指标对道路环境和次任务都敏感

论文发现 gaze metrics 对:

  • highway / urban 场景差异
  • 附加认知任务带来的负荷变化

都具备区分能力。

说明眼动不仅在反映“看哪里”,也在反映注意力组织方式如何随着任务复杂度变化。

2)NASA-TLX 和眼动指标抓住的是互补信息

NASA-TLX 在区分高低认知负荷方面表现稳定,但它是主观量表,不能实时在线部署。

眼动指标则能提供更连续、更实时的外显信号。

论文的结论非常值得工程团队记住:

主观负荷量表和眼动特征不是互相替代,而是互相补充。

这意味着未来训练认知分心模型时,NASA-TLX 这类主观标注仍然有价值,但在线推理应更多依赖眼动和其他客观信号。

3)最亮眼的指标不是简单 glance,而是 gaze entropy

论文里一个非常强的结果是:

  • gaze transition entropy(GTE)
  • stationary gaze entropy(SGE)

对认知负荷动态变化具有很高区分能力。

其中,gaze transition entropy 在 urban vs highway 的区分中平均准确率可以到 0.95

这很重要。

因为它说明真正能反映 cognitive load 的,未必只是:

  • 看前方多久
  • 看后视镜多久
  • 单次 glance duration 多长

而更可能是:

  • 注视点在不同 ROI 间转移的规律性
  • 扫视路径的组织程度
  • 注意分配在时间序列上的“复杂度”和“稳定性”

换句话说,认知分心不是简单的“看错地方”,而是“注意调度方式变了”。


三、第二篇论文的启示:只靠视觉很难吃下认知分心,多模态会越来越重要

另一篇 2025 年研究《Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals》进一步把问题往工程上推了一步。

研究背景为什么重要

在 Level 2/3 条件自动驾驶场景里,驾驶员并不持续控制车辆。

这会导致传统很多基于驾驶行为的指标失效,比如:

  • 方向盘微调
  • 车道偏离
  • 踏板操作

因为这些操作在自动驾驶期间并不持续存在。

于是,研究者把重点转到:

  • 眼动信号
  • 生理信号
  • takeover 前的内部状态判断

数据集与方法

这项研究使用了 TD2D 数据集

  • 50 位驾驶员
  • 10 类二任务条件
  • 包含 baseline、视觉任务、认知任务、自然语音任务
  • 同步采集:
    • 眼动
    • pupil
    • ECG / PPG
    • EDA
    • NASA-TLX
    • takeover performance

它的核心价值不只是在做分类,而是在说明:

认知分心与视觉分心不是一回事,单一模态很难稳定吃透。

研究真正告诉行业的点

1)显性视觉任务与内部认知任务需要不同特征集

比如:

  • 阅读、视觉短信这类任务,视觉特征很强
  • N-back、语音任务、听书等,更偏向认知占用

后者不一定造成明显 gaze-off-road,但会改变:

  • pupil dynamics
    n- 眼动规律
  • 心率变异
  • 电皮反应
  • takeover readiness

这正是认知分心难做的根源:外显行为不够强,但内部状态已变。

2)多模态融合更适合做“状态识别”,不是只做行为识别

传统视觉 DMS 更擅长识别行为:

  • 打电话
  • 低头
  • 吃东西
  • 抽烟

而认知分心更像状态问题。

状态问题最怕只看单帧或单模态,因为它更依赖:

  • 时间上下文
  • 生理趋势
  • 眼动组织结构
  • 个体基线偏移

这也是为什么论文强调 multimodal physiological + ocular integration。

3)跨被试泛化依然是难点

研究还特别指出 cross-subject generalization 仍然是现实问题。

这点非常关键,因为量产车不会为每位用户做长时间个性化校准。

所以工程上不能简单相信:

  • 实验室里训练好一个模型
  • 上车就能稳定泛化到所有人

认知分心模型必须面对:

  • 个体差异
  • 驾驶风格差异
  • 文化和任务差异
  • 场景差异
  • 传感器噪声差异

四、把两篇研究放在一起看,得到一个更清晰的结论

如果把这两项工作和 InCabin 对 Seeing Machines 的观察放一起看,可以看到行业方向越来越清楚:

结论 1:未来 DMS 的关键不只是 gaze direction,而是 gaze dynamics

也就是:

  • gaze transition entropy
  • stationary gaze entropy
  • fix/saccade 结构
  • 扫视节奏
  • ROI 转移的时间序列模式

这些特征更接近注意力如何被组织,而不只是“看没看路”。

结论 2:认知分心检测必须从单点阈值走向时序状态建模

单一阈值规则,比如:

  • 2 秒不看路报警
  • 头偏转超过多少度报警

对视觉分心可以有用,但对 cognitive distraction 明显不够。

认知分心更像:

  • 一段时间内 attention allocation 变得异常
  • 眼动复杂度变化
  • pupil / physiology 与任务上下文共同变化
  • 并最终影响接管准备度或 hazard awareness

也就是说,它天然适合 temporal modeling + state estimation

结论 3:认知分心和视觉分心需要不同层级的产品策略

不是所有车型都能上 EEG、EDA、PPG。

所以产品必须分层:

  • 量产基础层:camera-only,重点做高质量 gaze dynamics + head pose + temporal features
  • 增强层:camera + cabin context + vehicle context
  • 前瞻层:ocular + physiology + takeover / ADAS context fusion

这比一上来追求“全模态一步到位”更现实。


五、对 IMS / DMS 开发最直接的启示

启示 1:把 gaze entropy 纳入特征池,而不是只盯着 glance duration

很多现有 DMS 仍然围绕:

  • off-road glance duration
  • glance frequency
  • eyelid closure
  • head yaw/pitch

这些当然重要,但如果要提前布局认知分心,建议尽快补上:

  • gaze transition entropy
  • stationary gaze entropy
  • fixation dispersion
  • scanpath regularity
  • ROI transition matrix features

这些特征更可能捕捉“注意组织方式变化”。

启示 2:训练标签不要只看行为标签,要引入 workload 标签体系

认知分心不是纯行为识别任务。

更合理的标签体系应结合:

  • 任务类型标签(阅读 / 听书 / N-back / 对话)
  • 主观 workload(如 NASA-TLX)
  • takeover 表现
  • 安全事件反应时间
  • 人工标注的 state segments

否则模型很容易只学到任务外观,而没有学到真正的 cognitive state。

启示 3:算法架构上要从 frame classifier 升级到 temporal state estimator

更建议的路线是:

  • 短时窗口提取 ocular / gaze dynamics
  • 中时窗建模认知状态趋势
  • 输出 cognitive load / inattention risk score
  • 与视觉分心分支并联,再做高层融合

也就是说,不要把认知分心硬塞进一个普通分类器里。

启示 4:量产约束下,优先做“camera-only 可落地版本”

现实里,绝大多数量产项目短期内仍是 camera-only。

所以优先级应是:

  1. camera-only 做到尽可能高质量
  2. 先把 gaze dynamics 和 temporal modeling 做出来
  3. 后续再评估是否引入额外模态

这比一上来设计依赖生理传感器的量产方案更稳。

启示 5:认知分心最好和 ADAS / takeover context 联动

认知分心不是独立存在的,它真正有价值,是因为它影响:

  • hazard detection
  • takeover readiness
  • warning timing
  • intervention aggressiveness

所以后续更好的系统不是只输出一个 cognitive distraction flag,而是输出:

  • cognitive load score
  • confidence
  • persistence duration
  • interaction with road complexity
  • recommended intervention level

六、建议的开发优先级

P0:立刻补齐

  1. 增加 gaze entropy / scanpath 特征计算链路
  2. 建立 cognitive task 数据采集与标注方案
  3. 将认知分心从行为分类中拆出来独立建模
  4. 建立时序窗口实验,对比 frame-level 与 sequence-level 表现

P1:近期推进

  1. 构建 camera-only cognitive load baseline
  2. 联合 road context / task context 做风险建模
  3. 引入 takeover / response performance 作为弱监督信号
  4. 分析个体差异,建立 subject-normalization / personalization 机制

P2:前瞻布局

  1. 探索 ocular + physiology 多模态原型
  2. 使用 synthetic / semi-synthetic 数据增强认知任务覆盖
  3. 建立面向 Euro NCAP 后续协议的认知分心验证基准
  4. 和“eyes-on mind-off”高保真监测路线对齐

七、路线判断:认知分心不会像疲劳检测那样快标准化,但会越来越核心

这条线短期内不会像闭眼检测、视线离路那样快速变成统一标准功能。

原因很简单:

  • ground truth 难
  • 个体差异大
  • 场景依赖强
  • 误报成本高
  • 解释性要求高

但正因为它难,它才会成为下一阶段 DMS 竞争力分水岭。

谁能先把:

  • gaze dynamics
  • temporal modeling
  • cognitive state estimation
  • context-aware intervention

这几件事做成系统闭环,谁就更有机会在下一轮舱内安全演进里占到前排位置。


八、结论

从最新研究看,认知分心检测最重要的变化不是“又多了一个分类任务”,而是行业终于越来越清楚:

仅靠 gaze direction 和 head pose,不足以可靠刻画 cognitive distraction。

更值得投入的方向是:

  • 眼动熵
  • 扫视路径动态
  • 时序状态建模
  • 多模态融合
  • 与驾驶上下文联动的风险评估

如果把这件事翻译成 IMS/DMS 工程语言,那就是:

从“看不看路”升级到“注意力是否真正可用于驾驶”。

这一步很难,但也正是下一阶段 DMS 最有含金量的突破口。


参考资料

  1. Bakhchina et al., Discriminative Capabilities of Eye Gaze Measures for Cognitive Load Evaluation in a Driving Simulation Task, 2025-12-24
  2. Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals, 2025
  3. InCabin, Seeing Machines To Showcase Rare Live Demo At InCabin Europe 2025, 2025-09-07

认知分心检测新证据-眼动熵与多模态生理信号的工程启示
https://dapalm.com/2026/03/18/2026-03-18-认知分心检测新证据-眼动熵与多模态生理信号的工程启示/
作者
Mars
发布于
2026年3月18日
许可协议