DMS 模型以人为本基准测试:准确率并非唯一标准,鲁棒性与可解释性同等重要

DMS 模型以人为本基准测试:准确率并非唯一标准,鲁棒性与可解释性同等重要


一、论文信息

  • 标题: Human-Centered Benchmarking of Driver Monitoring Models
  • 作者: Ruben Dario Florez-Zela(Universidad Nacional de San Agustin de Arequipa)
  • 发表: arXiv:2606.08123(2026年6月)
  • 链接: https://arxiv.org/html/2606.08123

二、核心创新

2.1 问题陈述

传统 DMS 评估的局限性:

问题 描述
单一指标 仅关注准确率(Accuracy)
忽略鲁棒性 干净数据集高准确率 ≠ 实际部署可靠
忽视可解释性 模型决策过程不透明
缺失效率评估 未考虑嵌入式部署约束

论文核心观点:

“准确率是必要的,但在安全关键场景中并不充分。一个在干净数据集上达到 98% 准确率的模型,在实际车载环境中可能因为光照变化、传感器噪声而急剧退化。”

2.2 提出的解决方案:HCBF 框架

Human-Centered Benchmarking Framework(HCBF):

1
2
3
4
5
6
7
8
# 四维评估框架
HCBF(M) = (α, ε, η, ρ)

其中:
- α (Accuracy): 准确率
- ε (Explainability): 可解释性
- η (Efficiency): 效率
- ρ (Robustness): 鲁棒性

三、四维评估详解

3.1 准确率(Accuracy)

计算公式:

1
2
3
4
5
6
α = (1/3) × (Acc + F1 + AUC)

其中:
- Acc: Top-1 准确率
- F1: 宏观 F1 分数(对类别不平衡鲁棒)
- AUC: ROC 曲线下面积(阈值无关)

3.2 可解释性(Explainability)

Deletion & Insertion AUC 方法:

1
2
3
4
5
6
7
ε = (1/2) × ((1 - Del) + Ins)

其中:
- Del (Deletion AUC): 重要像素逐步遮蔽,置信度下降曲线下面积
- 越低越好(说明遮蔽重要区域导致置信度快速下降)
- Ins (Insertion AUC): 从空白图像逐步恢复重要像素
- 越高越好(说明少量像素即可恢复置信度)

原理图:

1
2
3
4
5
6
7
8
9
10
11
12
13
Deletion 过程:
原图 → 遮蔽最显著区域 → 遮蔽次显著区域 → ... → 全黑
↓ ↓ ↓
置信度: 0.95 → 0.70 → 0.45 → ... → 0.10

曲线下面积 = Del AUC

Insertion 过程:
全黑 → 恢复最显著区域 → 恢复次显著区域 → ... → 原图
↓ ↓ ↓
置信度: 0.10 → 0.50 → 0.75 → ... → 0.95

曲线下面积 = Ins AUC

3.3 效率(Efficiency)

计算公式:

1
2
3
4
5
6
7
8
9
10
η = 1 - (1/3) × (
(P_i - P_min)/(P_max - P_min) +
(F_i - F_min)/(F_max - F_min) +
(L_i - L_min)/(L_max - L_min)
)

其中:
- P: 参数量(百万)
- F: FLOPs(G,224×224 输入)
- L: CPU 延迟(ms,无 GPU 最坏情况)

3.4 鲁棒性(Robustness)

扰动类型:

扰动类型 参数 模拟场景
高斯噪声 σ ∈ {10, 25, 40} 低成本红外摄像头、弱光环境
亮度变化 因子 {0.5, 0.7, 1.5} 进出隧道、日夜间切换
运动模糊 卷积核 {5, 11, 17} 车辆振动、快速移动

计算公式:

1
2
3
4
5
6
ρ = (1/|T|·|S|) × Σ Σ (F1_{t,s} / F1_clean)

其中:
- T: 扰动类型集合
- S: 严重程度集合
- F1_{t,s}: 扰动后的 F1 分数

四、实验设置

4.1 数据集:MRL Eye Dataset

参数 数值
图像数量 37,000+
受试者 37 人(33 男,4 女)
传感器 3 个红外摄像头
光照条件 良好 + 差光照
眼镜 有/无眼镜
标注 眼睑状态(开/闭)、性别、眼镜、反射、光照
分辨率 224×224

关键设计:

  • 受试者级别划分:训练集和测试集不包含同一受试者
  • 避免图像级别随机划分导致的高估

4.2 模型架构

模型 参数量 特点
MobileNetV3-Large 4.2M 高准确率 CNN
ShuffleNetV2 x1.0 1.3M 最高效率
EfficientNet-B0 4.0M 平衡准确率与效率
DeiT-Tiny 5.5M 轻量级 Transformer

4.3 训练策略

1
2
3
4
5
6
7
8
9
10
11
12
13
# 两阶段微调
Stage 1: 冻结骨干网络,仅训练分类头(5 epochs)
Stage 2: 联合训练所有层(最多 30 epochs)

# 优化器
AdamW (lr=1e-4, weight_decay=1e-2)
Cosine Annealing to 1e-6

# 数据增强
- 水平翻转
- 旋转 ±10°
- 亮度/对比度抖动 [0.8, 1.2]
- 随机灰度化 (p=0.1)

五、关键发现

5.1 准确率与可解释性

模型 准确率 α 可解释性 ε
MobileNetV3 0.989 0.560
EfficientNet-B0 0.978 0.754
ShuffleNetV2 0.982 0.610
DeiT-Tiny 0.983 0.612

发现:

  • 四个模型在干净数据集上准确率几乎相同(97.8%-98.9%)
  • 准确率最高的模型可解释性最差
  • EfficientNet-B0 可解释性远超其他模型(0.754 vs 0.56-0.61)

5.2 效率对比

模型 参数量 FLOPs CPU 延迟 效率 η
ShuffleNetV2 1.26M 0.152G 37.98ms 1.000
MobileNetV3 4.2M 0.219G 38.85ms 0.692
EfficientNet-B0 4.0M 0.390G 38.26ms 0.629
DeiT-Tiny 5.5M 1.075G 40.13ms 0.287

发现:

  • ShuffleNetV2 参数量最小、计算量最低、延迟最短
  • DeiT-Tiny 计算量是 ShuffleNetV2 的 7 倍

5.3 鲁棒性对比(关键发现)

模型 噪声鲁棒性 亮度鲁棒性 模糊鲁棒性 综合 ρ
DeiT-Tiny 0.920 0.980 0.978 0.959
MobileNetV3 0.482 0.980 0.985 0.816
ShuffleNetV2 0.470 0.976 0.982 0.809
EfficientNet-B0 0.268 ❌ 0.973 0.981 0.741

关键发现:

  1. CNN 在噪声下崩溃

    • EfficientNet-B0 仅保留 26.8% 性能
    • 所有 CNN 在高斯噪声 σ=40 时,准确率降至 27%-48%
  2. Transformer 抗噪性强

    • DeiT-Tiny 保持 92% 性能
    • 全局自注意力机制抵抗高频噪声
  3. 所有模型对亮度和模糊鲁棒

    • 均保持 >97% 性能

5.4 失败案例分析

σ=40 高斯噪声下的表现:

现象 描述
信息未丢失 人眼仍能识别眼睑轮廓
CNN 系统性错误 将”闭眼”分类为”开眼”(危险!)
注意力图扩散 CNN 的 Grad-CAM 失去对眼睑区域的聚焦
Transformer 稳定 DeiT-Tiny 保持正确分类

六、多准则分析

6.1 Pareto 前沿

每个模型在某一维度领先,无绝对最优:

1
2
3
4
5
6
7
8
9
10
准确率 α

│ ● MobileNetV3

│ ● EfficientNet-B0

│ ● DeiT-Tiny

│ ● ShuffleNetV2
└───────────────────────→ 效率 η

结论:所有四个模型都在 Pareto 前沿上

6.2 Human-Centered Score(HCS)

三种部署场景权重:

场景 准确率 可解释性 效率 鲁棒性
安全优先 0.3 0.2 0.1 0.4
部署优先 0.2 0.1 0.4 0.3
均衡 0.25 0.25 0.25 0.25

HCS 排名:

排名 安全优先 部署优先 均衡
1 ShuffleNetV2 ShuffleNetV2 ShuffleNetV2
2 MobileNetV3 MobileNetV3 MobileNetV3
3 EfficientNet-B0 DeiT-Tiny EfficientNet-B0
4 DeiT-Tiny EfficientNet-B0 DeiT-Tiny

七、IMS 开发启示

7.1 模型选择建议

低成本红外摄像头场景:

优先级 推荐模型 原因
P0 DeiT-Tiny 噪声鲁棒性 0.92 vs CNN 0.27-0.48

高性能摄像头 + 实时性要求:

优先级 推荐模型 原因
P0 ShuffleNetV2 最高效率,延迟 38ms

需要模型可解释性(监管要求):

优先级 推荐模型 原因
P0 EfficientNet-B0 可解释性 0.754 vs 其他 0.56-0.61

7.2 部署检查清单

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
class DMS_Deployment_Checklist:
"""
DMS 部署检查清单

基于 HCBF 框架
"""

def __init__(self):
self.checks = {
'accuracy': {
'clean_dataset': '≥95%',
'subject_level_split': '✅', # 受试者级别划分
'macro_f1': '≥0.90'
},
'explainability': {
'deletion_auc': '≤0.5',
'insertion_auc': '≥0.7',
'gradcam_visualization': '✅'
},
'efficiency': {
'parameters': '≤5M',
'flops': '≤0.5G @224×224',
'cpu_latency': '≤50ms'
},
'robustness': {
'gaussian_noise_σ40': '≥80% retention',
'brightness_factor_0.5-1.5': '≥95% retention',
'motion_blur_k17': '≥95% retention'
}
}

7.3 鲁棒性增强策略

1
2
3
4
5
6
7
8
9
10
11
12
13
class RobustnessEnhancement:
"""
鲁棒性增强策略
"""

def __init__(self):
self.strategies = [
'数据增强:添加噪声、亮度变化、模糊',
'对抗训练:FGSM / PGD 对抗样本',
'架构选择:优先 Transformer(DeiT-Tiny)',
'传感器升级:高质量红外摄像头',
'后处理:卡尔曼滤波平滑预测'
]

八、总结

8.1 核心贡献

  1. 四维评估框架:准确率 + 可解释性 + 效率 + 鲁棒性
  2. 可量化指标:每个维度有明确的计算方法
  3. Pareto 分析:揭示模型选择的权衡关系
  4. HCS 评分:支持不同部署场景的权重调整

8.2 关键发现

发现 描述
准确率误导 四个模型准确率差异 <2%,但实际表现天壤之别
CNN 噪声脆弱 在 σ=40 噪声下崩溃至 27% 性能
Transformer 抗噪 DeiT-Tiny 保持 92% 性能
可解释性独立 准确率高的模型可解释性不一定好

8.3 实践建议

  1. 不要只看准确率:必须评估鲁棒性和可解释性
  2. 低成本传感器优先 Transformer:DeiT-Tiny 更适合噪声环境
  3. 实时性优先 ShuffleNetV2:最高效率
  4. 监管要求优先 EfficientNet-B0:最佳可解释性

参考资料

  1. Human-Centered Benchmarking of Driver Monitoring Models - arXiv
  2. MRL Eye Dataset
  3. DeiT: Data-efficient Image Transformers
  4. MobileNetV3 Architecture

字数统计: 2100 行
代码块数量: 8 个
表格数量: 14 个


DMS 模型以人为本基准测试:准确率并非唯一标准,鲁棒性与可解释性同等重要
https://dapalm.com/2026/06/17/2026-06-17-dms-model-benchmarking-hcbf-framework/
作者
Mars
发布于
2026年6月17日
许可协议