认知分心检测新证据-眼动熵与多模态生理信号的工程启示
认知分心检测新证据:眼动熵与多模态生理信号,给 DMS 带来什么工程启示?
关键词:cognitive distraction、cognitive load、eye gaze entropy、NASA-TLX、TD2D、multimodal DSM、Euro NCAP
一、为什么这个话题现在必须重视
疲劳检测、视觉分心检测,行业已经做了很多年。
真正难的是另一类问题:司机眼睛看着前方,但大脑没有真正参与驾驶。
这类“eyes-on, mind-off”问题,正是认知分心(cognitive distraction)的核心难点。
它之所以难,不是因为没人知道它重要,而是因为它不像闭眼、扭头、玩手机那样有明显外观动作。很多时候,驾驶员:
- 视线大体还在前方
- 头姿也没有明显偏离
- 手也可能还在方向盘附近
但认知资源已经被别的任务占用了。
这也是为什么 Euro NCAP 后续会持续把 DMS 从“看没看路”推进到“是否真正保持注意力”。
最近两类材料很值得结合起来看:
- 2025 年底关于 eye gaze metrics 区分 cognitive load 的大样本论文
- 2025 年关于条件自动驾驶场景下多模态生理 + 眼动分心检测研究
两者放在一起,能给 IMS/DMS 开发一个很明确的信号:
认知分心检测不能再只靠 gaze direction 或 head pose,而要开始重视“眼动动态结构”和“多模态状态融合”。
二、第一篇论文最重要的发现:眼动熵比很多传统 gaze 指标更值得重视
2025 年 12 月发表的一项研究《Discriminative Capabilities of Eye Gaze Measures for Cognitive Load Evaluation in a Driving Simulation Task》给了一个很有参考价值的结论。
研究设置
- 样本量很大:N = 685
- 场景:固定基驾驶模拟
- 路况:highway vs urban
- 认知负荷操控:N-Back 听觉任务
- 对比方式:
- 主观量表:NASA-TLX
- 客观指标:eye gaze metrics
更关键的是,论文明确提到它采用的任务设定,与 Euro NCAP 2026 协议中的“phone-use distraction”语境具有对应性。
核心结果
这篇论文最有价值的,不是“眼动有用”这种老结论,而是更细的分层:
1)眼动指标对道路环境和次任务都敏感
论文发现 gaze metrics 对:
- highway / urban 场景差异
- 附加认知任务带来的负荷变化
都具备区分能力。
说明眼动不仅在反映“看哪里”,也在反映注意力组织方式如何随着任务复杂度变化。
2)NASA-TLX 和眼动指标抓住的是互补信息
NASA-TLX 在区分高低认知负荷方面表现稳定,但它是主观量表,不能实时在线部署。
眼动指标则能提供更连续、更实时的外显信号。
论文的结论非常值得工程团队记住:
主观负荷量表和眼动特征不是互相替代,而是互相补充。
这意味着未来训练认知分心模型时,NASA-TLX 这类主观标注仍然有价值,但在线推理应更多依赖眼动和其他客观信号。
3)最亮眼的指标不是简单 glance,而是 gaze entropy
论文里一个非常强的结果是:
- gaze transition entropy(GTE)
- stationary gaze entropy(SGE)
对认知负荷动态变化具有很高区分能力。
其中,gaze transition entropy 在 urban vs highway 的区分中平均准确率可以到 0.95。
这很重要。
因为它说明真正能反映 cognitive load 的,未必只是:
- 看前方多久
- 看后视镜多久
- 单次 glance duration 多长
而更可能是:
- 注视点在不同 ROI 间转移的规律性
- 扫视路径的组织程度
- 注意分配在时间序列上的“复杂度”和“稳定性”
换句话说,认知分心不是简单的“看错地方”,而是“注意调度方式变了”。
三、第二篇论文的启示:只靠视觉很难吃下认知分心,多模态会越来越重要
另一篇 2025 年研究《Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals》进一步把问题往工程上推了一步。
研究背景为什么重要
在 Level 2/3 条件自动驾驶场景里,驾驶员并不持续控制车辆。
这会导致传统很多基于驾驶行为的指标失效,比如:
- 方向盘微调
- 车道偏离
- 踏板操作
因为这些操作在自动驾驶期间并不持续存在。
于是,研究者把重点转到:
- 眼动信号
- 生理信号
- takeover 前的内部状态判断
数据集与方法
这项研究使用了 TD2D 数据集:
- 50 位驾驶员
- 10 类二任务条件
- 包含 baseline、视觉任务、认知任务、自然语音任务
- 同步采集:
- 眼动
- pupil
- ECG / PPG
- EDA
- NASA-TLX
- takeover performance
它的核心价值不只是在做分类,而是在说明:
认知分心与视觉分心不是一回事,单一模态很难稳定吃透。
研究真正告诉行业的点
1)显性视觉任务与内部认知任务需要不同特征集
比如:
- 阅读、视觉短信这类任务,视觉特征很强
- N-back、语音任务、听书等,更偏向认知占用
后者不一定造成明显 gaze-off-road,但会改变:
- pupil dynamics
n- 眼动规律 - 心率变异
- 电皮反应
- takeover readiness
这正是认知分心难做的根源:外显行为不够强,但内部状态已变。
2)多模态融合更适合做“状态识别”,不是只做行为识别
传统视觉 DMS 更擅长识别行为:
- 打电话
- 低头
- 吃东西
- 抽烟
而认知分心更像状态问题。
状态问题最怕只看单帧或单模态,因为它更依赖:
- 时间上下文
- 生理趋势
- 眼动组织结构
- 个体基线偏移
这也是为什么论文强调 multimodal physiological + ocular integration。
3)跨被试泛化依然是难点
研究还特别指出 cross-subject generalization 仍然是现实问题。
这点非常关键,因为量产车不会为每位用户做长时间个性化校准。
所以工程上不能简单相信:
- 实验室里训练好一个模型
- 上车就能稳定泛化到所有人
认知分心模型必须面对:
- 个体差异
- 驾驶风格差异
- 文化和任务差异
- 场景差异
- 传感器噪声差异
四、把两篇研究放在一起看,得到一个更清晰的结论
如果把这两项工作和 InCabin 对 Seeing Machines 的观察放一起看,可以看到行业方向越来越清楚:
结论 1:未来 DMS 的关键不只是 gaze direction,而是 gaze dynamics
也就是:
- gaze transition entropy
- stationary gaze entropy
- fix/saccade 结构
- 扫视节奏
- ROI 转移的时间序列模式
这些特征更接近注意力如何被组织,而不只是“看没看路”。
结论 2:认知分心检测必须从单点阈值走向时序状态建模
单一阈值规则,比如:
- 2 秒不看路报警
- 头偏转超过多少度报警
对视觉分心可以有用,但对 cognitive distraction 明显不够。
认知分心更像:
- 一段时间内 attention allocation 变得异常
- 眼动复杂度变化
- pupil / physiology 与任务上下文共同变化
- 并最终影响接管准备度或 hazard awareness
也就是说,它天然适合 temporal modeling + state estimation。
结论 3:认知分心和视觉分心需要不同层级的产品策略
不是所有车型都能上 EEG、EDA、PPG。
所以产品必须分层:
- 量产基础层:camera-only,重点做高质量 gaze dynamics + head pose + temporal features
- 增强层:camera + cabin context + vehicle context
- 前瞻层:ocular + physiology + takeover / ADAS context fusion
这比一上来追求“全模态一步到位”更现实。
五、对 IMS / DMS 开发最直接的启示
启示 1:把 gaze entropy 纳入特征池,而不是只盯着 glance duration
很多现有 DMS 仍然围绕:
- off-road glance duration
- glance frequency
- eyelid closure
- head yaw/pitch
这些当然重要,但如果要提前布局认知分心,建议尽快补上:
- gaze transition entropy
- stationary gaze entropy
- fixation dispersion
- scanpath regularity
- ROI transition matrix features
这些特征更可能捕捉“注意组织方式变化”。
启示 2:训练标签不要只看行为标签,要引入 workload 标签体系
认知分心不是纯行为识别任务。
更合理的标签体系应结合:
- 任务类型标签(阅读 / 听书 / N-back / 对话)
- 主观 workload(如 NASA-TLX)
- takeover 表现
- 安全事件反应时间
- 人工标注的 state segments
否则模型很容易只学到任务外观,而没有学到真正的 cognitive state。
启示 3:算法架构上要从 frame classifier 升级到 temporal state estimator
更建议的路线是:
- 短时窗口提取 ocular / gaze dynamics
- 中时窗建模认知状态趋势
- 输出 cognitive load / inattention risk score
- 与视觉分心分支并联,再做高层融合
也就是说,不要把认知分心硬塞进一个普通分类器里。
启示 4:量产约束下,优先做“camera-only 可落地版本”
现实里,绝大多数量产项目短期内仍是 camera-only。
所以优先级应是:
- camera-only 做到尽可能高质量
- 先把 gaze dynamics 和 temporal modeling 做出来
- 后续再评估是否引入额外模态
这比一上来设计依赖生理传感器的量产方案更稳。
启示 5:认知分心最好和 ADAS / takeover context 联动
认知分心不是独立存在的,它真正有价值,是因为它影响:
- hazard detection
- takeover readiness
- warning timing
- intervention aggressiveness
所以后续更好的系统不是只输出一个 cognitive distraction flag,而是输出:
- cognitive load score
- confidence
- persistence duration
- interaction with road complexity
- recommended intervention level
六、建议的开发优先级
P0:立刻补齐
- 增加 gaze entropy / scanpath 特征计算链路
- 建立 cognitive task 数据采集与标注方案
- 将认知分心从行为分类中拆出来独立建模
- 建立时序窗口实验,对比 frame-level 与 sequence-level 表现
P1:近期推进
- 构建 camera-only cognitive load baseline
- 联合 road context / task context 做风险建模
- 引入 takeover / response performance 作为弱监督信号
- 分析个体差异,建立 subject-normalization / personalization 机制
P2:前瞻布局
- 探索 ocular + physiology 多模态原型
- 使用 synthetic / semi-synthetic 数据增强认知任务覆盖
- 建立面向 Euro NCAP 后续协议的认知分心验证基准
- 和“eyes-on mind-off”高保真监测路线对齐
七、路线判断:认知分心不会像疲劳检测那样快标准化,但会越来越核心
这条线短期内不会像闭眼检测、视线离路那样快速变成统一标准功能。
原因很简单:
- ground truth 难
- 个体差异大
- 场景依赖强
- 误报成本高
- 解释性要求高
但正因为它难,它才会成为下一阶段 DMS 竞争力分水岭。
谁能先把:
- gaze dynamics
- temporal modeling
- cognitive state estimation
- context-aware intervention
这几件事做成系统闭环,谁就更有机会在下一轮舱内安全演进里占到前排位置。
八、结论
从最新研究看,认知分心检测最重要的变化不是“又多了一个分类任务”,而是行业终于越来越清楚:
仅靠 gaze direction 和 head pose,不足以可靠刻画 cognitive distraction。
更值得投入的方向是:
- 眼动熵
- 扫视路径动态
- 时序状态建模
- 多模态融合
- 与驾驶上下文联动的风险评估
如果把这件事翻译成 IMS/DMS 工程语言,那就是:
从“看不看路”升级到“注意力是否真正可用于驾驶”。
这一步很难,但也正是下一阶段 DMS 最有含金量的突破口。
参考资料
- Bakhchina et al., Discriminative Capabilities of Eye Gaze Measures for Cognitive Load Evaluation in a Driving Simulation Task, 2025-12-24
- Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals, 2025
- InCabin, Seeing Machines To Showcase Rare Live Demo At InCabin Europe 2025, 2025-09-07