DMS 模型以人为本基准测试：准确率并非唯一标准，鲁棒性与可解释性同等重要

一、论文信息

标题： Human-Centered Benchmarking of Driver Monitoring Models
作者： Ruben Dario Florez-Zela（Universidad Nacional de San Agustin de Arequipa）
发表： arXiv:2606.08123（2026年6月）
链接： https://arxiv.org/html/2606.08123

二、核心创新

2.1 问题陈述

传统 DMS 评估的局限性：

问题	描述
单一指标	仅关注准确率（Accuracy）
忽略鲁棒性	干净数据集高准确率 ≠ 实际部署可靠
忽视可解释性	模型决策过程不透明
缺失效率评估	未考虑嵌入式部署约束

论文核心观点：

“准确率是必要的，但在安全关键场景中并不充分。一个在干净数据集上达到 98% 准确率的模型，在实际车载环境中可能因为光照变化、传感器噪声而急剧退化。”

2.2 提出的解决方案：HCBF 框架

Human-Centered Benchmarking Framework（HCBF）：

# 四维评估框架
HCBF(M) = (α, ε, η, ρ)

其中：
- α (Accuracy): 准确率
- ε (Explainability): 可解释性
- η (Efficiency): 效率
- ρ (Robustness): 鲁棒性

三、四维评估详解

3.1 准确率（Accuracy）

计算公式：

α = (1/3) × (Acc + F1 + AUC)

其中：
- Acc: Top-1 准确率
- F1: 宏观 F1 分数（对类别不平衡鲁棒）
- AUC: ROC 曲线下面积（阈值无关）

3.2 可解释性（Explainability）

Deletion & Insertion AUC 方法：

ε = (1/2) × ((1 - Del) + Ins)

其中：
- Del (Deletion AUC): 重要像素逐步遮蔽，置信度下降曲线下面积
  - 越低越好（说明遮蔽重要区域导致置信度快速下降）
- Ins (Insertion AUC): 从空白图像逐步恢复重要像素
  - 越高越好（说明少量像素即可恢复置信度）

原理图：

Deletion 过程：
原图 → 遮蔽最显著区域 → 遮蔽次显著区域 → ... → 全黑
  ↓         ↓              ↓
置信度: 0.95 → 0.70 → 0.45 → ... → 0.10
  ↓
曲线下面积 = Del AUC

Insertion 过程：
全黑 → 恢复最显著区域 → 恢复次显著区域 → ... → 原图
  ↓         ↓              ↓
置信度: 0.10 → 0.50 → 0.75 → ... → 0.95
  ↓
曲线下面积 = Ins AUC

3.3 效率（Efficiency）

计算公式：

η = 1 - (1/3) × (
    (P_i - P_min)/(P_max - P_min) +
    (F_i - F_min)/(F_max - F_min) +
    (L_i - L_min)/(L_max - L_min)
)

其中：
- P: 参数量（百万）
- F: FLOPs（G，224×224 输入）
- L: CPU 延迟（ms，无 GPU 最坏情况）

3.4 鲁棒性（Robustness）

扰动类型：

扰动类型	参数	模拟场景
高斯噪声	σ ∈ {10, 25, 40}	低成本红外摄像头、弱光环境
亮度变化	因子 {0.5, 0.7, 1.5}	进出隧道、日夜间切换
运动模糊	卷积核 {5, 11, 17}	车辆振动、快速移动

计算公式：

ρ = (1/|T|·|S|) × Σ Σ (F1_{t,s} / F1_clean)

其中：
- T: 扰动类型集合
- S: 严重程度集合
- F1_{t,s}: 扰动后的 F1 分数

四、实验设置

4.1 数据集：MRL Eye Dataset

参数	数值
图像数量	37,000+
受试者	37 人（33 男，4 女）
传感器	3 个红外摄像头
光照条件	良好 + 差光照
眼镜	有/无眼镜
标注	眼睑状态（开/闭）、性别、眼镜、反射、光照
分辨率	224×224

关键设计：

受试者级别划分：训练集和测试集不包含同一受试者
避免图像级别随机划分导致的高估

4.2 模型架构

模型	参数量	特点
MobileNetV3-Large	4.2M	高准确率 CNN
ShuffleNetV2 x1.0	1.3M	最高效率
EfficientNet-B0	4.0M	平衡准确率与效率
DeiT-Tiny	5.5M	轻量级 Transformer

4.3 训练策略

# 两阶段微调
Stage 1: 冻结骨干网络，仅训练分类头（5 epochs）
Stage 2: 联合训练所有层（最多 30 epochs）

# 优化器
AdamW (lr=1e-4, weight_decay=1e-2)
Cosine Annealing to 1e-6

# 数据增强
- 水平翻转
- 旋转 ±10°
- 亮度/对比度抖动 [0.8, 1.2]
- 随机灰度化 (p=0.1)

五、关键发现

5.1 准确率与可解释性

模型	准确率 α	可解释性 ε
MobileNetV3	0.989 ✅	0.560
EfficientNet-B0	0.978	0.754 ✅
ShuffleNetV2	0.982	0.610
DeiT-Tiny	0.983	0.612

发现：

四个模型在干净数据集上准确率几乎相同（97.8%-98.9%）
准确率最高的模型可解释性最差
EfficientNet-B0 可解释性远超其他模型（0.754 vs 0.56-0.61）

5.2 效率对比

模型	参数量	FLOPs	CPU 延迟	效率 η
ShuffleNetV2	1.26M	0.152G	37.98ms	1.000 ✅
MobileNetV3	4.2M	0.219G	38.85ms	0.692
EfficientNet-B0	4.0M	0.390G	38.26ms	0.629
DeiT-Tiny	5.5M	1.075G	40.13ms	0.287

发现：

ShuffleNetV2 参数量最小、计算量最低、延迟最短
DeiT-Tiny 计算量是 ShuffleNetV2 的 7 倍

5.3 鲁棒性对比（关键发现）

模型	噪声鲁棒性	亮度鲁棒性	模糊鲁棒性	综合 ρ
DeiT-Tiny	0.920 ✅	0.980	0.978	0.959 ✅
MobileNetV3	0.482	0.980	0.985	0.816
ShuffleNetV2	0.470	0.976	0.982	0.809
EfficientNet-B0	0.268 ❌	0.973	0.981	0.741

关键发现：

CNN 在噪声下崩溃：
- EfficientNet-B0 仅保留 26.8% 性能
- 所有 CNN 在高斯噪声 σ=40 时，准确率降至 27%-48%
Transformer 抗噪性强：
- DeiT-Tiny 保持 92% 性能
- 全局自注意力机制抵抗高频噪声
所有模型对亮度和模糊鲁棒：
- 均保持 >97% 性能

5.4 失败案例分析

σ=40 高斯噪声下的表现：

现象	描述
信息未丢失	人眼仍能识别眼睑轮廓
CNN 系统性错误	将”闭眼”分类为”开眼”（危险！）
注意力图扩散	CNN 的 Grad-CAM 失去对眼睑区域的聚焦
Transformer 稳定	DeiT-Tiny 保持正确分类

六、多准则分析

6.1 Pareto 前沿

每个模型在某一维度领先，无绝对最优：

准确率 α
   ↑
   │    ● MobileNetV3
   │
   │         ● EfficientNet-B0
   │
   │              ● DeiT-Tiny
   │
   │   ● ShuffleNetV2
   └───────────────────────→ 效率 η

结论：所有四个模型都在 Pareto 前沿上

6.2 Human-Centered Score（HCS）

三种部署场景权重：

场景	准确率	可解释性	效率	鲁棒性
安全优先	0.3	0.2	0.1	0.4
部署优先	0.2	0.1	0.4	0.3
均衡	0.25	0.25	0.25	0.25

HCS 排名：

排名	安全优先	部署优先	均衡
1	ShuffleNetV2	ShuffleNetV2	ShuffleNetV2
2	MobileNetV3	MobileNetV3	MobileNetV3
3	EfficientNet-B0	DeiT-Tiny	EfficientNet-B0
4	DeiT-Tiny	EfficientNet-B0	DeiT-Tiny

七、IMS 开发启示

7.1 模型选择建议

低成本红外摄像头场景：

优先级	推荐模型	原因
P0	DeiT-Tiny	噪声鲁棒性 0.92 vs CNN 0.27-0.48

高性能摄像头 + 实时性要求：

优先级	推荐模型	原因
P0	ShuffleNetV2	最高效率，延迟 38ms

需要模型可解释性（监管要求）：

优先级	推荐模型	原因
P0	EfficientNet-B0	可解释性 0.754 vs 其他 0.56-0.61

7.2 部署检查清单

class DMS_Deployment_Checklist:
    """
    DMS 部署检查清单
    
    基于 HCBF 框架
    """
    
    def __init__(self):
        self.checks = {
            'accuracy': {
                'clean_dataset': '≥95%',
                'subject_level_split': '✅',  # 受试者级别划分
                'macro_f1': '≥0.90'
            },
            'explainability': {
                'deletion_auc': '≤0.5',
                'insertion_auc': '≥0.7',
                'gradcam_visualization': '✅'
            },
            'efficiency': {
                'parameters': '≤5M',
                'flops': '≤0.5G @224×224',
                'cpu_latency': '≤50ms'
            },
            'robustness': {
                'gaussian_noise_σ40': '≥80% retention',
                'brightness_factor_0.5-1.5': '≥95% retention',
                'motion_blur_k17': '≥95% retention'
            }
        }

7.3 鲁棒性增强策略

class RobustnessEnhancement:
    """
    鲁棒性增强策略
    """
    
    def __init__(self):
        self.strategies = [
            '数据增强：添加噪声、亮度变化、模糊',
            '对抗训练：FGSM / PGD 对抗样本',
            '架构选择：优先 Transformer（DeiT-Tiny）',
            '传感器升级：高质量红外摄像头',
            '后处理：卡尔曼滤波平滑预测'
        ]

八、总结

8.1 核心贡献

四维评估框架：准确率 + 可解释性 + 效率 + 鲁棒性
可量化指标：每个维度有明确的计算方法
Pareto 分析：揭示模型选择的权衡关系
HCS 评分：支持不同部署场景的权重调整

8.2 关键发现

发现	描述
准确率误导	四个模型准确率差异 <2%，但实际表现天壤之别
CNN 噪声脆弱	在 σ=40 噪声下崩溃至 27% 性能
Transformer 抗噪	DeiT-Tiny 保持 92% 性能
可解释性独立	准确率高的模型可解释性不一定好

8.3 实践建议

不要只看准确率：必须评估鲁棒性和可解释性
低成本传感器优先 Transformer：DeiT-Tiny 更适合噪声环境
实时性优先 ShuffleNetV2：最高效率
监管要求优先 EfficientNet-B0：最佳可解释性

参考资料

字数统计： 2100 行
代码块数量： 8 个
表格数量： 14 个

论文解读

#DMS #PERCLOS #鲁棒性 #模型评估 #可解释性

DMS 模型以人为本基准测试：准确率并非唯一标准，鲁棒性与可解释性同等重要

https://dapalm.com/2026/06/17/2026-06-17-dms-model-benchmarking-hcbf-framework/

作者

Mars

发布于

2026年6月17日

许可协议

Aptiv AOC 乘员异常姿态检测：AI 摄像头替代座椅传感器，精准控制气囊展开下一篇