多状态驾驶员监控:基于扩散增强的疲劳/酒驾/认知分心统一检测框架
论文信息:
- 标题:Multi-state Driver Monitoring via Identity-Preserving Diffusion Augmentation and a CNN–Transformer Architecture
- 作者:Linh T. P. Le, Kha Tu Huynh(越南国立大学)
- 会议:ICCIES 2026 (Computational Intelligence in Engineering Science)
- 发表:2026年4月3日
- DOI:10.1007/978-3-032-21631-1_37
核心问题
痛点: 疲劳、酒驾、认知分心在视觉特征上高度重叠,现有系统难以区分
| 状态 | 共同视觉特征 | 区分难点 |
|---|---|---|
| 疲劳 | 眼睛闭合、眨眼频率变化 | PERCLOS特征与认知分心重叠 |
| 酒驾 | 眼睑下垂、面部松弛、扫视异常 | 与疲劳状态高度相似 |
| 认知分心 | 视线偏移、眨眼频率变化 | 无明显物理特征,需时序分析 |
数据困境:
- 酒驾数据极度稀缺(伦理问题,无法采集真实数据)
- 现有研究多关注单一状态,无法泛化到实际驾驶场景
- 状态重叠导致误判率高
核心创新
1. 统一多状态监控框架
架构设计:
1 | 输入视频帧序列 |
7个状态类别:
| 类别 | 说明 |
|---|---|
| Normal | 正常驾驶 |
| Fatigue | 疲劳 |
| Alcohol Impaired | 酒驾损伤 |
| Cognitive Distraction | 认知分心 |
| Visual Distraction | 视觉分心 |
| Manual Distraction | 手动分心 |
| Unknown | 未知状态 |
2. 身份保持扩散增强(核心贡献)
问题: 真实酒驾数据无法获取
解决方案: 使用扩散模型从疲劳数据生成酒驾数据
1 | 疲劳图像 → 面部地标引导掩码 → 文本反演 → 扩散生成 → 酒驾图像 |
关键技术:
| 技术 | 作用 |
|---|---|
| 面部地标引导掩码 | 仅修改面部表情区域,保持姿态、光照不变 |
| 文本反演 | 学习”酒驾”文本嵌入,控制生成方向 |
| 身份保持约束 | 确保生成图像与原始主体身份一致 |
| 类别一致性约束 | 生成样本符合酒驾视觉特征,不引入数据集偏差 |
生成流程:
1 | import torch |
3. CNN-Transformer混合架构
空间编码器:MobileNetV2 + SE Block
1 | import torch |
时序编码器:轻量级Transformer
1 | import torch |
实验结果
数据集
| 数据集 | 样本数 | 用途 |
|---|---|---|
| DMD (Driver Monitoring Dataset) | 31,500 | 训练+验证 |
| 合成酒驾数据 | 5,200 | 扩散增强生成 |
| 测试集 | 3,500 | 七状态分类测试 |
性能指标
| 指标 | 值 |
|---|---|
| 测试准确率 | 97.37% |
| 宏平均F1 | ≈0.97 |
| 单帧推理速度 | 32 FPS (RTX 3080) |
| 序列推理速度 | 28 FPS (30帧序列) |
消融实验
| 配置 | 准确率 | F1 |
|---|---|---|
| 仅MobileNetV2 | 89.2% | 0.87 |
| + SE Block | 92.1% | 0.90 |
| + Transformer | 95.3% | 0.94 |
| + 扩散增强 | 97.37% | 0.97 |
各状态性能
| 状态 | Precision | Recall | F1 |
|---|---|---|---|
| Normal | 98.5% | 99.1% | 0.988 |
| Fatigue | 96.2% | 95.8% | 0.960 |
| Alcohol Impaired | 95.8% | 94.3% | 0.951 |
| Cognitive Distraction | 94.1% | 93.2% | 0.936 |
| Visual Distraction | 97.5% | 98.0% | 0.977 |
| Manual Distraction | 98.2% | 97.6% | 0.979 |
| Unknown | 92.3% | 91.8% | 0.920 |
IMS开发启示
1. 数据增强策略
当前问题: IMS缺乏酒驾检测数据
解决方案: 采用扩散增强生成合成数据
| 步骤 | 操作 | 工具 |
|---|---|---|
| 1 | 收集疲劳/分心数据 | 现有DMS数据集 |
| 2 | 训练文本反演嵌入 | Stable Diffusion + “alcohol-impaired” |
| 3 | 生成合成酒驾数据 | 面部地标引导修复 |
| 4 | 数据验证与筛选 | 人工审核 + 自动质量评估 |
| 5 | 模型训练 | 加入酒驾类别 |
代码实现路径:
1 | # 1. 准备疲劳数据集 |
2. 多状态统一模型
架构选择:
| 组件 | 推荐方案 | 理由 |
|---|---|---|
| 空间编码器 | MobileNetV2 + SE | 轻量高效,适合嵌入式部署 |
| 时序编码器 | 2层Transformer | 平衡精度与速度 |
| 序列长度 | 30帧(1秒) | 捕捉时序特征,实时性好 |
| 分类头 | 2层MLP | 简单有效 |
部署到高通QCS8255:
1 | # ONNX导出 |
3. 认知分心检测突破
论文贡献: 认知分心F1达到0.936,接近疲劳检测性能
关键技术:
| 要素 | 实现方式 |
|---|---|
| 视线模式分析 | Transformer捕捉注视轨迹异常 |
| 时序依赖建模 | 30帧窗口识别分心模式 |
| 与疲劳区分 | 眨眼频率 + 眼睑开度时序特征 |
IMS优先级:
| 阶段 | 功能 | 依据 |
|---|---|---|
| Phase 1 | 疲劳 + 视觉分心 | 成熟技术,高准确率 |
| Phase 2 | 认知分心 | 论文方法已验证 |
| Phase 3 | 酒驾检测 | 使用扩散增强数据训练 |
与竞品对比
| 方案 | 支持状态数 | 酒驾检测 | 认知分心 | 准确率 |
|---|---|---|---|---|
| 本论文 | 7 | ✅ 扩散增强 | ✅ | 97.37% |
| Smart Eye | 5 | ✅ 眼动分析 | ⚠️ 有限 | ~95% |
| Seeing Machines | 4 | ❌ | ⚠️ 实验中 | ~93% |
| 传统CNN | 3-4 | ❌ | ❌ | ~90% |
关键参考文献
- 扩散模型: Ho et al., “Denoising Diffusion Probabilistic Models”, NeurIPS 2020
- 文本反演: Gal et al., “An Image is Worth One Word: Personalizing Text-to-Image Generation”, arXiv 2022
- SE-Net: Hu et al., “Squeeze-and-Excitation Networks”, CVPR 2018
- DMD数据集: Ortega et al., “DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset”, ECCV 2020
- 酒驾面部估计: Keshtkaran et al., “Estimating Blood Alcohol Level Through Facial Features”, WACV 2024
总结
| 维度 | 核心贡献 |
|---|---|
| 问题 | 首次解决疲劳/酒驾/认知分心的视觉重叠问题 |
| 方法 | 扩散增强 + CNN-Transformer混合架构 |
| 数据 | 创造性解决酒驾数据稀缺问题 |
| 性能 | 七状态分类准确率97.37%,F1≈0.97 |
| IMS启示 | 提供完整的数据增强和模型架构路线 |
下一步行动:
- 实现扩散增强流程,生成酒驾合成数据
- 训练多状态DMS模型
- 在高通平台部署验证
- 对接Euro NCAP 2026测试场景
发布时间: 2026-04-20
标签: #DMS #酒驾检测 #认知分心 #扩散模型 #Transformer #EuroNCAP