DMS 模型以人为本基准测试:准确率并非唯一标准,鲁棒性与可解释性同等重要
DMS 模型以人为本基准测试:准确率并非唯一标准,鲁棒性与可解释性同等重要
一、论文信息
- 标题: Human-Centered Benchmarking of Driver Monitoring Models
- 作者: Ruben Dario Florez-Zela(Universidad Nacional de San Agustin de Arequipa)
- 发表: arXiv:2606.08123(2026年6月)
- 链接: https://arxiv.org/html/2606.08123
二、核心创新
2.1 问题陈述
传统 DMS 评估的局限性:
| 问题 | 描述 |
|---|---|
| 单一指标 | 仅关注准确率(Accuracy) |
| 忽略鲁棒性 | 干净数据集高准确率 ≠ 实际部署可靠 |
| 忽视可解释性 | 模型决策过程不透明 |
| 缺失效率评估 | 未考虑嵌入式部署约束 |
论文核心观点:
“准确率是必要的,但在安全关键场景中并不充分。一个在干净数据集上达到 98% 准确率的模型,在实际车载环境中可能因为光照变化、传感器噪声而急剧退化。”
2.2 提出的解决方案:HCBF 框架
Human-Centered Benchmarking Framework(HCBF):
1 | |
三、四维评估详解
3.1 准确率(Accuracy)
计算公式:
1 | |
3.2 可解释性(Explainability)
Deletion & Insertion AUC 方法:
1 | |
原理图:
1 | |
3.3 效率(Efficiency)
计算公式:
1 | |
3.4 鲁棒性(Robustness)
扰动类型:
| 扰动类型 | 参数 | 模拟场景 |
|---|---|---|
| 高斯噪声 | σ ∈ {10, 25, 40} | 低成本红外摄像头、弱光环境 |
| 亮度变化 | 因子 {0.5, 0.7, 1.5} | 进出隧道、日夜间切换 |
| 运动模糊 | 卷积核 {5, 11, 17} | 车辆振动、快速移动 |
计算公式:
1 | |
四、实验设置
4.1 数据集:MRL Eye Dataset
| 参数 | 数值 |
|---|---|
| 图像数量 | 37,000+ |
| 受试者 | 37 人(33 男,4 女) |
| 传感器 | 3 个红外摄像头 |
| 光照条件 | 良好 + 差光照 |
| 眼镜 | 有/无眼镜 |
| 标注 | 眼睑状态(开/闭)、性别、眼镜、反射、光照 |
| 分辨率 | 224×224 |
关键设计:
- 受试者级别划分:训练集和测试集不包含同一受试者
- 避免图像级别随机划分导致的高估
4.2 模型架构
| 模型 | 参数量 | 特点 |
|---|---|---|
| MobileNetV3-Large | 4.2M | 高准确率 CNN |
| ShuffleNetV2 x1.0 | 1.3M | 最高效率 |
| EfficientNet-B0 | 4.0M | 平衡准确率与效率 |
| DeiT-Tiny | 5.5M | 轻量级 Transformer |
4.3 训练策略
1 | |
五、关键发现
5.1 准确率与可解释性
| 模型 | 准确率 α | 可解释性 ε |
|---|---|---|
| MobileNetV3 | 0.989 ✅ | 0.560 |
| EfficientNet-B0 | 0.978 | 0.754 ✅ |
| ShuffleNetV2 | 0.982 | 0.610 |
| DeiT-Tiny | 0.983 | 0.612 |
发现:
- 四个模型在干净数据集上准确率几乎相同(97.8%-98.9%)
- 准确率最高的模型可解释性最差
- EfficientNet-B0 可解释性远超其他模型(0.754 vs 0.56-0.61)
5.2 效率对比
| 模型 | 参数量 | FLOPs | CPU 延迟 | 效率 η |
|---|---|---|---|---|
| ShuffleNetV2 | 1.26M | 0.152G | 37.98ms | 1.000 ✅ |
| MobileNetV3 | 4.2M | 0.219G | 38.85ms | 0.692 |
| EfficientNet-B0 | 4.0M | 0.390G | 38.26ms | 0.629 |
| DeiT-Tiny | 5.5M | 1.075G | 40.13ms | 0.287 |
发现:
- ShuffleNetV2 参数量最小、计算量最低、延迟最短
- DeiT-Tiny 计算量是 ShuffleNetV2 的 7 倍
5.3 鲁棒性对比(关键发现)
| 模型 | 噪声鲁棒性 | 亮度鲁棒性 | 模糊鲁棒性 | 综合 ρ |
|---|---|---|---|---|
| DeiT-Tiny | 0.920 ✅ | 0.980 | 0.978 | 0.959 ✅ |
| MobileNetV3 | 0.482 | 0.980 | 0.985 | 0.816 |
| ShuffleNetV2 | 0.470 | 0.976 | 0.982 | 0.809 |
| EfficientNet-B0 | 0.268 ❌ | 0.973 | 0.981 | 0.741 |
关键发现:
CNN 在噪声下崩溃:
- EfficientNet-B0 仅保留 26.8% 性能
- 所有 CNN 在高斯噪声 σ=40 时,准确率降至 27%-48%
Transformer 抗噪性强:
- DeiT-Tiny 保持 92% 性能
- 全局自注意力机制抵抗高频噪声
所有模型对亮度和模糊鲁棒:
- 均保持 >97% 性能
5.4 失败案例分析
σ=40 高斯噪声下的表现:
| 现象 | 描述 |
|---|---|
| 信息未丢失 | 人眼仍能识别眼睑轮廓 |
| CNN 系统性错误 | 将”闭眼”分类为”开眼”(危险!) |
| 注意力图扩散 | CNN 的 Grad-CAM 失去对眼睑区域的聚焦 |
| Transformer 稳定 | DeiT-Tiny 保持正确分类 |
六、多准则分析
6.1 Pareto 前沿
每个模型在某一维度领先,无绝对最优:
1 | |
结论:所有四个模型都在 Pareto 前沿上
6.2 Human-Centered Score(HCS)
三种部署场景权重:
| 场景 | 准确率 | 可解释性 | 效率 | 鲁棒性 |
|---|---|---|---|---|
| 安全优先 | 0.3 | 0.2 | 0.1 | 0.4 |
| 部署优先 | 0.2 | 0.1 | 0.4 | 0.3 |
| 均衡 | 0.25 | 0.25 | 0.25 | 0.25 |
HCS 排名:
| 排名 | 安全优先 | 部署优先 | 均衡 |
|---|---|---|---|
| 1 | ShuffleNetV2 | ShuffleNetV2 | ShuffleNetV2 |
| 2 | MobileNetV3 | MobileNetV3 | MobileNetV3 |
| 3 | EfficientNet-B0 | DeiT-Tiny | EfficientNet-B0 |
| 4 | DeiT-Tiny | EfficientNet-B0 | DeiT-Tiny |
七、IMS 开发启示
7.1 模型选择建议
低成本红外摄像头场景:
| 优先级 | 推荐模型 | 原因 |
|---|---|---|
| P0 | DeiT-Tiny | 噪声鲁棒性 0.92 vs CNN 0.27-0.48 |
高性能摄像头 + 实时性要求:
| 优先级 | 推荐模型 | 原因 |
|---|---|---|
| P0 | ShuffleNetV2 | 最高效率,延迟 38ms |
需要模型可解释性(监管要求):
| 优先级 | 推荐模型 | 原因 |
|---|---|---|
| P0 | EfficientNet-B0 | 可解释性 0.754 vs 其他 0.56-0.61 |
7.2 部署检查清单
1 | |
7.3 鲁棒性增强策略
1 | |
八、总结
8.1 核心贡献
- 四维评估框架:准确率 + 可解释性 + 效率 + 鲁棒性
- 可量化指标:每个维度有明确的计算方法
- Pareto 分析:揭示模型选择的权衡关系
- HCS 评分:支持不同部署场景的权重调整
8.2 关键发现
| 发现 | 描述 |
|---|---|
| 准确率误导 | 四个模型准确率差异 <2%,但实际表现天壤之别 |
| CNN 噪声脆弱 | 在 σ=40 噪声下崩溃至 27% 性能 |
| Transformer 抗噪 | DeiT-Tiny 保持 92% 性能 |
| 可解释性独立 | 准确率高的模型可解释性不一定好 |
8.3 实践建议
- 不要只看准确率:必须评估鲁棒性和可解释性
- 低成本传感器优先 Transformer:DeiT-Tiny 更适合噪声环境
- 实时性优先 ShuffleNetV2:最高效率
- 监管要求优先 EfficientNet-B0:最佳可解释性
参考资料
- Human-Centered Benchmarking of Driver Monitoring Models - arXiv
- MRL Eye Dataset
- DeiT: Data-efficient Image Transformers
- MobileNetV3 Architecture
字数统计: 2100 行
代码块数量: 8 个
表格数量: 14 个
DMS 模型以人为本基准测试:准确率并非唯一标准,鲁棒性与可解释性同等重要
https://dapalm.com/2026/06/17/2026-06-17-dms-model-benchmarking-hcbf-framework/