Transformer疲劳检测SOTA方案:ViT/Swin架构实现99.15%准确率的实时部署
论文信息
- 论文标题:Real-time driver drowsiness detection using transformer architectures: a novel deep learning approach
- 来源期刊:Scientific Reports (Nature子刊)
- 发表时间:2025年
- DOI:10.1038/s41598-025-02111-x
- 研究类型:深度学习算法研究
核心创新
本研究首次系统性地将Vision Transformer (ViT)和Swin Transformer应用于驾驶员疲劳检测任务,在MRL数据集上达到99.15%的准确率,超越传统CNN架构。核心创新点:(1)证明了Transformer的全局注意力机制能够捕获眼部特征的远距离依赖,解决了CNN局部感受野的局限性;(2)提出基于CAM (Class Activation Mapping)的可解释性方案,满足车载系统的信任需求;(3)在NVIDIA Jetson平台实现实时推理,延迟低于25ms。
方法详解
1. 整体架构
1 | |
2. Vision Transformer (ViT) 架构
2.1 Patch Embedding
将输入图像划分为固定大小的patch:
$$\mathbf{z}0 = [\mathbf{x}{class}; \mathbf{x}_p^1 E; \mathbf{x}_p^2 E; \cdots; \mathbf{x}p^N E] + \mathbf{E}{pos}$$
其中:
- $\mathbf{x}_p^i \in \mathbb{R}^{P^2 \cdot C}$:第$i$个patch($P=16$, $C=3$)
- $E \in \mathbb{R}^{(P^2 \cdot C) \times D}$:线性投影矩阵
- $\mathbf{E}_{pos} \in \mathbb{R}^{(N+1) \times D}$:位置嵌入
- $N = HW/P^2 = 196$:patch数量
2.2 Transformer Encoder
每层包含多头自注意力(MSA)和MLP:
$$\mathbf{z}’l = \text{MSA}(\text{LN}(\mathbf{z}{l-1})) + \mathbf{z}_{l-1}$$
$$\mathbf{z}_l = \text{MLP}(\text{LN}(\mathbf{z}’_l)) + \mathbf{z}’_l$$
多头注意力计算:
$$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left(\frac{\mathbf{QK}^T}{\sqrt{d_k}}\right)\mathbf{V}$$
2.3 ViT架构图
1 | |
3. Swin Transformer架构
3.1 层次化设计
Swin Transformer采用4-stage层次结构:
| Stage | 分辨率 | 维度 | 层数 | 头数 |
|---|---|---|---|---|
| 1 | 56×56 | 96 | 2 | 3 |
| 2 | 28×28 | 192 | 2 | 6 |
| 3 | 14×14 | 384 | 6 | 12 |
| 4 | 7×7 | 768 | 2 | 24 |
3.2 窗口注意力
在局部窗口内计算注意力,降低计算复杂度:
$$\text{Complexity} = O(N) \quad \text{vs.} \quad O(N^2) \text{ (global)}$$
窗口大小:$M = 7$
3.3 Shifted Window Attention
交替使用规则窗口和移位窗口:
1 | |
跨窗口信息交互通过移位实现。
4. 疲劳检测流程
1 | |
5. 数据增强策略
1 | |
代码复现
环境配置
1 | |
ViT模型实现
1 | |
实时检测系统
1 | |
实验结果
1. 数据集统计
| 数据集 | 总样本 | Open-Eyes | Close-Eyes | 分辨率 | 环境 |
|---|---|---|---|---|---|
| MRL Eye | 84,898 | 42,952 | 41,946 | 多种 | 多光照 |
| NTHU-DDD | 66,521 | 30,491 | 36,030 | 640×480 | 日/夜 |
| CEW | 27,200 | - | - | 多种 | Wild |
2. 模型性能对比
| 模型 | 架构 | 参数量 | MRL准确率 | NTHU准确率 | CEW准确率 | 平均 |
|---|---|---|---|---|---|---|
| VGG19 | CNN | 143M | 98.7% | 96.5% | 94.2% | 96.5% |
| ResNet50V2 | CNN | 25.6M | 97.3% | 95.8% | 93.7% | 95.6% |
| DenseNet169 | CNN | 14.1M | 96.8% | 94.2% | 92.1% | 94.4% |
| MobileNetV3 | CNN | 5.4M | 94.5% | 92.3% | 89.6% | 92.1% |
| ViT-Base | Transformer | 86M | 99.15% | 98.2% | 96.8% | 98.0% |
| Swin-Tiny | Transformer | 28M | 98.9% | 97.8% | 95.9% | 97.5% |
3. 关键指标详细对比
| 模型 | Accuracy | Precision | Recall | F1-Score | AUC |
|---|---|---|---|---|---|
| VGG19 | 98.7% | 98.5% | 98.9% | 98.7% | 0.997 |
| ViT-Base | 99.15% | 99.1% | 99.2% | 99.1% | 0.999 |
| Swin-Tiny | 98.9% | 98.7% | 99.1% | 98.9% | 0.998 |
4. 光照鲁棒性测试
| 光照条件 | VGG19准确率 | ViT准确率 | Swin准确率 |
|---|---|---|---|
| 正常光照 | 99.2% | 99.5% | 99.3% |
| 低光照 | 92.3% | 96.8% | 95.2% |
| 强光 | 94.1% | 97.2% | 96.5% |
| 背光 | 89.7% | 94.5% | 93.1% |
| 平均 | 93.8% | 97.0% | 96.0% |
5. 边缘设备部署性能
| 平台 | 模型 | 推理延迟 | 帧率 | 内存占用 | 功耗 |
|---|---|---|---|---|---|
| Jetson Nano | ViT-Tiny | 45ms | 22fps | 850MB | 5W |
| Jetson AGX Orin | ViT-Base | 18ms | 55fps | 2.1GB | 12W |
| Jetson AGX Orin | Swin-Tiny | 12ms | 83fps | 1.8GB | 10W |
| Qualcomm 8255 | Swin-Tiny | 15ms | 66fps | 1.5GB | 6W |
IMS应用启示
1. Transformer架构成为DMS新标准
相比CNN的优势:
| 特性 | CNN | Transformer | IMS影响 |
|---|---|---|---|
| 全局依赖 | 受限(局部感受野) | ✅ 全局注意力 | 检测精度提升 |
| 迁移学习 | 需大量微调 | ✅ 预训练有效 | 数据需求降低 |
| 可解释性 | 需额外设计 | ✅ 原生注意力图 | 满足功能安全要求 |
| 计算开销 | 较低 | 较高 | 需优化部署 |
IMS落地建议:
- 高端车型采用ViT-Base/Swin-Base,追求最高准确率
- 中端车型采用Swin-Tiny/ViT-Tiny,平衡性能和成本
- 入门车型采用MobileNet+轻量注意力模块
2. Euro NCAP 2026合规策略
| Euro NCAP要求 | 传统CNN方案 | Transformer方案 | 差距 |
|---|---|---|---|
| 分心检测准确率>95% | 92-94% | 97-99% | +5% |
| 疲劳检测准确率>90% | 88-91% | 94-98% | +6% |
| 低光照性能>85% | 78-82% | 92-96% | +13% |
| 推理延迟<50ms | 15-30ms | 12-45ms | 相当 |
3. 功能安全与可解释性
CAM注意力图应用:
1 | |
ISO 26262合规:
- 注意力图提供决策依据,满足可追溯性要求
- 集成置信度评估,低置信度触发降级模式
- 双通道冗余设计:ViT + Swin并行推理
4. 实时部署优化策略
量化与剪枝:
1 | |
部署优化建议:
| 优化技术 | 延迟降低 | 精度损失 | 适用平台 |
|---|---|---|---|
| FP16量化 | 30-40% | <0.1% | 所有GPU |
| INT8量化 | 50-60% | 0.3-0.5% | 支持INT8的NPU |
| 知识蒸馏 | - | <0.5% | 所有平台 |
| 模型剪枝 | 20-30% | 0.5-1% | 所有平台 |
5. 多任务扩展能力
Transformer架构易于扩展到多任务学习:
1 | |
优势:
- 单模型完成多个DMS功能,降低系统复杂度
- 特征共享,提高综合性能
- 满足Euro NCAP 2026的多维度检测要求
参考文献
Scientific Reports (2025). Real-time driver drowsiness detection using transformer architectures. DOI: 10.1038/s41598-025-02111-x
Dosovitskiy et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
Liu et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ICCV 2021.
Euro NCAP (2026). Assessment Protocol - Safe Driving v1.0.
MRL Eye Dataset (2018). Machine Learning Research Lab.
NTHU-DDD Dataset. National Tsing Hua University Driver Drowsiness Detection.