认知分心检测正在从看不看路转向眼动节律与负荷代理量建模
认知分心检测正在从“看不看路”转向眼动节律与负荷代理量建模
发布时间: 2026-03-26
主题: cognitive distraction / DMS / eye tracking / mental workload / eyes-on-mind-off
关键词: cognitive distraction、mental workload、gaze dispersion、percent road center、ocular signals、TD2D、driver monitoring
一句话结论
过去很多 DMS 对“分心”的理解,本质上还是:
- 眼睛有没有离开前方
- 头有没有转开
- 手机上没手机、手上拿没拿手机
这套逻辑对视觉分心有效,但对认知分心远远不够。
因为认知分心最麻烦的地方恰恰在于:
人可能一直在看前方,但脑子已经不在驾驶任务上。
2025 年前后的公开研究和产业信号越来越一致地表明:
- 认知分心不能再只靠“eyes off road”范式解决
- 真正有价值的信号,正在从 glance target 转向眼动节律、分布稳定性、负荷代理量
- 下一代 DMS 更像是在估计 attentional resource depletion,而不是只做 gaze direction classification
1. 为什么这个方向现在更值得优先做
认知分心一直难,不是因为没人重视,而是因为它天生不像手机分心那样“看得见”。
它常见的表现包括:
- 视线还在前方,但 hazard 扫描质量下降
- 眼睛有运动,但信息采样节律变差
- 对路面关键区域仍有 glance,却缺少有效理解
- takeover 场景中能看见界面,却没有真正恢复 situational awareness
这也是为什么行业里经常提到一个经典问题:
eyes on, mind off
如果系统还停留在“有没有看路”,那它很容易把最危险的一类失效漏掉。
2. 一个关键变化:研究对象正在从 glance target 变成 attention dynamics
arXiv / AutomotiveUI 2025 的研究《Gaze-Based Indicators of Driver Cognitive Distraction: Effects of Different Traffic Conditions and Adaptive Cruise Control Use》给了一个很有价值的信号。
这篇研究没有简单把认知分心理解成“看不看前方”,而是重点观察:
- percent road center
- horizontal / vertical gaze dispersion
- 这些指标在 交通复杂度 与 ACC 使用 下如何变化
结论里最重要的不是“某个指标上升/下降”,而是它揭示了认知分心检测的两个现实:
2.1 认知分心的 gaze 信号会被场景复杂度和自动驾驶状态强烈调制
研究指出:
- vertical gaze dispersion 会随着交通复杂度提升而上升
- 使用 ACC 会让 gaze 更集中到 road center
- 认知分心会降低 road center gaze,并增大 vertical dispersion
这意味着什么?
意味着认知分心并不是一个脱离场景的静态模式。
同样的 gaze pattern,在不同情境下语义可能完全不同:
- 在复杂交通中 gaze dispersion 增大,可能是更积极的环境采样
- 在 ACC 打开时 gaze 集中,可能不是更专注,而可能是更被动地盯着前方
- 在认知任务插入后,road center 比例下降,并不一定代表视觉分心,而可能是 attentional strategy 在变化
所以:
下一代 cognitive DMS 一定不能脱离驾驶上下文去解释 gaze 数值。
2.2 认知分心并不是“持续同一种 gaze 异常”,而可能表现为节律变化
更有意思的是,这篇研究提到一个容易被忽略的点:
- 一些 gaze 特征的变化主要出现在 mental calculations 之间
- 而在真正执行 mental calculation 的短时间内,反而可能出现 temporary gaze concentration
这很重要。
因为它说明认知分心不总是“越乱越分心”,有时反而表现为:
- 视线更集中
- 扫描更窄
- 对 road center 的凝视更强
- 但环境采样广度和有效性下降
这和传统“分心=东张西望”是相反的。
也就是说,认知分心更像:
attention allocation 方式变了,而不是 gaze 一定离开了道路。
3. 对 DMS 架构的直接冲击:不能再只做 ROI/target 分类
很多今天的 DMS 实际上更擅长做三类事:
- 眼睛闭没闭
- 头有没有转开
- 视线是不是落在路外或车内设备上
这些都偏向 visual/manual distraction pipeline。
但认知分心需要的是另一套能力:
3.1 从“看哪里”扩展到“怎么扫、多久扫、扫得是否规律”
更值得监控的,不只是 gaze target,而是:
- road center 占比的时变模式
- 水平/垂直 gaze dispersion
- fixation duration 分布
- saccade / scanpath 的节律稳定性
- blink / pupil / 微小眼动在 workload 提升时的耦合变化
3.2 从静态阈值扩展到上下文条件化阈值
同样一个 gaze concentration:
- 在人工驾驶复杂场景,可能表示 tunnel vision 风险
- 在低复杂场景,可能是正常行为
- 在 L2/L3 自动驾驶中,可能意味着监督衰退
所以认知分心模型必须条件化于:
- driving mode(manual / ACC / L2 / L3)
- road complexity
- traffic density
- takeover proximity
- HMI task context
3.3 从单一指标扩展到“负荷代理量”
认知分心很难被单一观测量直接定义。
更现实的做法是构建一个 cognitive load / attentional depletion proxy,把多个非侵入式信号组合起来:
- gaze dispersion
- percent road center
- fixation variability
- blink timing
- pupil-related metrics(若硬件允许)
- head micro-movements
- automation context
然后估计的不是“你是不是 100% cognitive distraction”,而是:
- 当前 attentional reserve 是否下降
- 当前 supervision quality 是否变差
- 当前是否进入 eyes-on-mind-off 风险区间
4. 多模态研究在提醒我们:仅靠视觉很难吃下全部认知分心
MDPI 2025 论文《Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals》进一步说明了这件事。
它的价值不在于“又做了一个分类器”,而在于它清楚指出:
- 在 Level 2–3 条件自动驾驶里,传统驾驶性能指标(转向、车道偏移等)往往不可用
- 图像方法对 overt NDRTs 有优势,但对 internal cognitive distraction 有局限
- 因此需要结合 ocular + physiological 的多模态框架
- 研究使用 TD2D 数据集,并把任务重新按 subjective workload 映射为更贴近认知负荷的类别
这件事给 IMS 的一个很实际启示是:
认知分心的真正对象不是任务标签,而是工作负荷状态。
也就是说,系统不该只问:
- 你在不在打电话?
- 你有没有看手机?
而该问:
- 你当前的 attentional capacity 是否已经被占满?
- 你是否仍有足够资源监督道路与自动驾驶?
这是从 task recognition 向 capability estimation 的升级。
5. 为什么这条线会和 takeover readiness、driver capability 自然合流
认知分心之所以重要,不只是因为它本身危险,而是因为它和接管能力直接相关。
在 L2/L3 场景下,很多时候问题不是司机“看没看见”,而是:
- 看见了,但没有及时理解
- 理解了,但反应迟了
- 盯着 HMI 或前方,却没有形成有效 situational model
所以认知分心并不应该作为一个孤立标签存在,而更适合作为:
- driver capability state 的一个输入维度
- takeover readiness 的一个衰减因子
- warning / escalation / assist-ready 的仲裁依据
也就是说,前面已经收敛出的统一干预层思路,在这里同样成立:
- evidence layer:ocular / physiological / context
- capability layer:attentional reserve / cognitive load proxy
- intervention layer:warning / takeover prompt / ADAS sensitivity / escalation
6. 对 IMS 来说,最值得建设的不是“认知分心分类器”,而是四层能力
6.1 眼动节律层
关注的不只是 gaze angle,而是时间结构:
- fixation duration statistics
- scanpath regularity
- dispersion dynamics
- glance-to-glance transition rhythm
- road-center concentration oscillation
6.2 负荷代理层
把可采的非侵入式信号转成 workload proxy:
- ocular indicators
- blink / pupil-related features
- temporal instability
- automation mode context
- traffic complexity context
6.3 能力评估层
不要直接输出“认知分心 yes/no”,而是输出更适合控制层使用的量:
- cognitive_load_level
- attentional_reserve
- supervision_quality
- takeover_readiness_penalty
- confidence / ambiguity
6.4 干预与验证层
把结果真正接到系统动作,而不是只停留在 dashboard 图标:
- 提醒节奏调整
- 接管提示提前量增加
- ADAS 敏感度变化
- trace 回放与策略审计
7. 产业信号也在往同一个方向走:不是更多看脸,而是更高保真地理解注意力
InCabin 2025 关于 Seeing Machines 的公开内容里,有两个表述非常值得注意:
- Euro NCAP 2030 将把 cognitive distraction 纳入协议
- 未来 DMS 的差异化在于 fidelity,即能否捕捉更细腻的行为信号、正确解释,并在不同驾驶上下文下采取恰当干预
这两个点拼在一起,其实已经把行业方向说透了:
认知分心的竞争重点不会是“能不能大致猜到”,而是“能不能在不同上下文下稳定地做高保真推断”。
这里的 fidelity,本质上包含三层:
- 感知 fidelity:眼动/头姿/上下文采样够不够细
- 解释 fidelity:能不能区分 tunnel vision、正常专注、automation supervision drift
- 动作 fidelity:能不能把风险程度映射成合适提醒,而不是一刀切误报
8. 我的路线判断:认知分心的下一阶段不会赢在“更大模型”,而会赢在“更好的状态抽象”
如果只问“要不要做一个更强的 cognitive distraction classifier”,我会觉得问得不够对。
真正关键的是三件事:
8.1 从标签转向状态
把 cognitive distraction 看成一个连续状态,而不是二分类事件。
8.2 从视觉分心范式转向注意力资源范式
目标不再只是判断眼睛在哪,而是判断:
- attentional resource 是否被占用
- 环境采样是否退化
- supervision quality 是否下降
8.3 从单 feature 转向 driver capability 共栈
认知分心应和:
- fatigue
- visual distraction
- impairment
- sudden sickness
- takeover readiness
放在同一个 capability space 里共同仲裁,而不是各自孤立输出一个告警。
9. 对当前 IMS 团队的优先级建议
如果现在排优先级,我会这样排:
P0:把认知分心需求从“看前方时长”改写为“眼动节律 + 负荷代理量”需求
需求文档应显式加入:
- percent road center 动态指标
- horizontal / vertical dispersion
- fixation / scan rhythm 特征
- driving-mode / traffic-context 条件化解释
P1:把认知分心接入统一 driver capability 模型
不要单独挂一个 cognitive_alert_flag。
更合理的是输出:
- cognitive_load_level
- supervision_quality
- takeover_penalty
- recommended_action
P1:围绕 TD2D 这类多任务、多负荷数据集做验证策略设计
重点不是复现论文精度,而是研究:
- visual / auditory / cognitive task 如何映射到统一 capability 空间
- 哪些 ocular 指标具有跨任务泛化能力
- 哪些指标强依赖场景复杂度,需要条件化建模
P2:提前为多模态二阶段确认留接口
短期量产可以先从纯 ocular / camera 路线起步;
但中期应为以下模态预留接口:
- pupil / NIR quality
- EDA / heart-rate proxy(如有可行硬件)
- cabin radar / vital signs
- steering / HMI interaction context
P2:验证矩阵升级为上下文矩阵
建议至少覆盖:
- manual/ACC/L2/L3 × traffic complexity × task type × alert stage × takeover proximity × individual baseline drift
10. 下一轮 TrendRadar 关键词建议
这轮之后,认知分心方向的搜索词建议从简单的 “cognitive distraction driver monitoring” 进一步进化成:
- cognitive distraction eye movement regularity driving
- percent road center gaze dispersion mental workload DMS
- eyes-on mind-off driver monitoring takeover readiness
- ocular signals cognitive load automated driving
- attentional reserve estimation driver monitoring
- driver capability cognitive load intervention policy
因为真正值得追踪的,不是“又找到一个 cognitive distraction 论文”,而是:
谁在把认知分心从 gaze 标签检测,升级成 attention dynamics 与 driver capability 的可控输入。
总结
我对这条线的判断已经很明确:
认知分心检测正在从“看不看路”,转向“眼动节律 + 负荷代理量 + 注意力资源建模”。
下一代真正有价值的 DMS,不会只回答:
- 你有没有看手机
- 你有没有转头
- 你有没有离开前方
而会开始回答:
- 你的 attentional reserve 还够不够
- 你的 supervision quality 是否已经退化
- 你现在是不是进入了 eyes-on-mind-off 风险区
- 系统接下来该如何调节提醒与接管策略
谁先把这套能力做成统一 driver capability 平台的一部分,谁就更接近 2030 前认知分心真正落地的主路线。
参考资料
- Gaze-Based Indicators of Driver Cognitive Distraction: Effects of Different Traffic Conditions and Adaptive Cruise Control Use, AutomotiveUI 2025 / arXiv:2508.10624
https://arxiv.org/html/2508.10624 - Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals, Electronics (MDPI), 2025
https://www.mdpi.com/2079-9292/14/19/3811 - InCabin, Seeing Machines To Showcase Rare Live Demo At InCabin Europe 2025, 2025-09-07
https://incabin.com/blog/seeing-machines-to-showcase-rare-live-demo-at-incabin-europe-2025/