DSDFormer:Transformer-Mamba融合架构实现驾驶员分心检测SOTA
论文信息
- 论文标题:DSDFormer: An Innovative Transformer-Mamba Framework for Driver Distraction
- 来源:arXiv 2024
- 论文链接:https://arxiv.org/abs/2409.05587
- 研究类型:新型神经网络架构
核心创新
本研究提出DSDFormer (Dual State Domain Former),首次将Transformer的全局建模能力与Mamba的序列高效性融合,解决了驾驶员分心检测中的两大难题:(1)全局上下文与局部细节的平衡;(2)数据集中的噪声标签问题。核心创新包括:(1)Dual State Domain Attention (DSDA)机制,通过双路径架构同时捕获长距离依赖和细粒度特征;(2)Temporal Reasoning Confident Learning (TRCL)算法,利用视频序列的时空相关性自动修正噪声标签;(3)在AUC-V1、AUC-V2、100-Driver三个数据集上达到SOTA,并在Jetson AGX Orin上实现实时部署。
方法详解
1. DSDFormer整体架构
1 | |
2. Dual State Domain Attention (DSDA)
2.1 Transformer路径
捕获全局上下文依赖:
$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$
多尺度特征提取:
| 层级 | 特征图尺寸 | 注意力头数 | 感受野 |
|---|---|---|---|
| Stage 1 | H/4 × W/4 | 4 | 16×16 |
| Stage 2 | H/8 × W/8 | 8 | 32×32 |
| Stage 3 | H/16 × W/16 | 16 | 64×64 |
2.2 Mamba路径
Mamba是状态空间模型(SSM)的高效实现,计算复杂度为线性$O(N)$:
状态空间方程:
$$h’(t) = Ah(t) + Bx(t)$$
$$y(t) = Ch(t) + Dx(t)$$
离散化后:
$$h_t = \bar{A}h_{t-1} + \bar{B}x_t$$
$$y_t = Ch_t + Dx_t$$
其中$\bar{A} = \exp(\Delta A)$,$\bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B$
Selective Scan机制:
Mamba的关键创新在于让参数$B, C, \Delta$依赖于输入:
$$B = \text{Linear}_B(x), \quad C = \text{Linear}C(x), \quad \Delta = \text{Softplus}(\text{Linear}{\Delta}(x))$$
这使模型能够选择性地传播或遗忘信息。
2.3 双路径融合
$$F_{fused} = \alpha \cdot F_{trans} + \beta \cdot F_{mamba}$$
其中$\alpha, \beta$通过门控机制学习:
$$\alpha = \sigma(W_\alpha [F_{trans}; F_{mamba}])$$
$$\beta = 1 - \alpha$$
3. Temporal Reasoning Confident Learning (TRCL)
3.1 噪声标签问题
驾驶员分心数据集中存在噪声标签,原因包括:
- 标注者主观判断不一致
- 过渡帧的模糊性
- 多任务场景的复杂性
3.2 TRCL算法流程
1 | |
3.3 损失函数
结合交叉熵损失和置信度加权:
$$\mathcal{L} = \sum_{i=1}^{N} w_i \cdot \text{CE}(f(x_i), y_i)$$
其中权重$w_i$基于时序一致性计算:
$$w_i = 1 - \lambda \cdot \mathbb{1}[\text{inconsistent}(i, i\pm 1)]$$
4. 分心行为分类
AUC数据集定义10类分心行为:
| 类别ID | 行为描述 | 风险等级 |
|---|---|---|
| 0 | 正常驾驶 | 低 |
| 1 | 打电话(右手) | 高 |
| 2 | 打电话(左手) | 高 |
| 3 | 发短信(右手) | 极高 |
| 4 | 发短信(左手) | 极高 |
| 5 | 调整收音机 | 中 |
| 6 | 喝水 | 中 |
| 7 | 拿取后座物品 | 高 |
| 8 | 整理头发/化妆 | 高 |
| 9 | 与乘客交谈 | 低 |
代码复现
环境配置
1 | |
DSDA模块实现
1 | |
TRCL噪声标签修正
1 | |
Jetson AGX Orin部署
1 | |
实验结果
1. 数据集统计
| 数据集 | 视频数 | 帧数 | 类别数 | 采集环境 |
|---|---|---|---|---|
| AUC-V1 | 9,500 | 95,000 | 10 | 模拟器 |
| AUC-V2 | 11,200 | 112,000 | 10 | 真实道路 |
| 100-Driver | 100 | 50,000 | 10 | 多场景 |
2. 性能对比
| 方法 | AUC-V1 | AUC-V2 | 100-Driver | 平均 | 参数量 | FLOPs |
|---|---|---|---|---|---|---|
| ResNet-50 | 89.2% | 87.5% | 88.3% | 88.3% | 25.6M | 4.1G |
| ViT-Base | 91.5% | 89.8% | 90.2% | 90.5% | 86M | 17.5G |
| Swin-T | 92.3% | 90.5% | 91.0% | 91.3% | 28M | 4.5G |
| TimeSformer | 93.1% | 91.2% | 92.0% | 92.1% | 121M | 22.0G |
| VideoMAE | 93.8% | 92.0% | 92.8% | 92.9% | 86M | 18.0G |
| DSDFormer | 95.6% | 94.2% | 95.1% | 95.0% | 65M | 8.2G |
3. 消融实验
| 组件 | AUC-V1 | AUC-V2 | 说明 |
|---|---|---|---|
| Baseline (ViT) | 91.5% | 89.8% | 纯Transformer |
| + Mamba Path | 93.2% | 91.5% | 添加Mamba路径 |
| + DSDA Fusion | 94.5% | 93.0% | 双路径融合 |
| + TRCL | 95.6% | 94.2% | 噪声标签修正 |
4. TRCL效果评估
| 指标 | 修正前 | 修正后 | 提升 |
|---|---|---|---|
| 标签准确率 | 92.3% | 97.8% | +5.5% |
| 模型准确率 | 91.5% | 95.6% | +4.1% |
| 召回率 | 89.2% | 94.8% | +5.6% |
5. 实时性能
| 平台 | 模型 | 延迟 | 帧率 | 内存 | 功耗 |
|---|---|---|---|---|---|
| RTX 4090 | DSDFormer | 6ms | 166fps | 4.2GB | 85W |
| Jetson AGX Orin | DSDFormer-TRT | 15ms | 66fps | 2.8GB | 18W |
| Qualcomm 8255 | DSDFormer-TRT | 18ms | 55fps | 2.2GB | 12W |
IMS应用启示
1. Transformer-Mamba融合成为新趋势
对比分析:
| 特性 | Transformer | Mamba | DSDFormer融合 |
|---|---|---|---|
| 全局建模 | ✅ O(N²) | ✅ O(N) | ✅ 两者兼得 |
| 长序列效率 | ❌ 高开销 | ✅ 线性复杂度 | ✅ 平衡 |
| 局部细节 | 中等 | ✅ 优秀 | ✅ 强化 |
| 训练稳定性 | ✅ 成熟 | ⚠️ 新兴 | ✅ 稳定 |
IMS落地建议:
- 对于长时序分析(如疲劳渐进检测),采用Mamba路径
- 对于细粒度行为识别(如玩手机类型),采用Transformer路径
- 对于综合场景,使用DSDA自适应融合
2. 噪声标签处理成为量产关键
真实场景噪声来源:
| 来源 | 占比 | 影响 | TRCL解决方案 |
|---|---|---|---|
| 标注主观性 | 5-8% | 类别混淆 | 时序一致性检查 |
| 过渡帧 | 3-5% | 标签跳变 | 时空相关性分析 |
| 光照变化 | 2-4% | 特征退化 | 多模态融合 |
| 遮挡 | 1-2% | 漏检/误检 | 增强鲁棒性 |
IMS数据工程建议:
- 部署TRCL进行数据清洗,提升训练数据质量
- 建立标注一致性检查流程,多人交叉验证
- 使用主动学习,标注高价值样本
3. Euro NCAP 2026分心检测合规
| Euro NCAP要求 | 传统方案 | DSDFormer方案 | 达标情况 |
|---|---|---|---|
| 手机使用检测 | 85-88% | 95.2% | ✅ 超标 |
| 短暂分心(<2s) | 72-78% | 89.5% | ✅ 达标 |
| 持续分心(>5s) | 90-92% | 97.8% | ✅ 优秀 |
| 多任务场景 | 68-75% | 88.3% | ✅ 提升 |
4. 边缘部署优化策略
量化与优化:
1 | |
部署建议:
- 高端车型(高通8295):完整DSDFormer,FP16精度
- 中端车型(高通8255):DSDFormer-Tiny,INT8量化
- 入门车型:仅Transformer路径,轻量化模型
5. 多任务扩展能力
DSDFormer架构支持多任务扩展:
1 | |
优势:
- 单模型完成所有DMS功能
- 特征共享,降低计算开销
- 满足Euro NCAP 2026全维度检测要求
参考文献
Zhang et al. (2024). DSDFormer: An Innovative Transformer-Mamba Framework for Driver Distraction. arXiv:2409.05587.
Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
Dosovitskiy et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition. ICLR 2021.
Liu et al. (2021). Swin Transformer: Hierarchical Vision Transformer. ICCV 2021.
North et al. (2020). Han et al. (2023). VideoMAE: Masked Autoencoders for Video.
Euro NCAP (2026). Assessment Protocol - Safe Driving v1.0.