前言
驾驶员分心检测面临两大核心挑战:
- 细粒度特征识别:眼睑闭合、轻微打哈欠等微妙信号难以检测
- 重叠行为检测:驾驶员同时进行多个动作(如闭眼+打哈欠),传统模型难以区分
YOLO-Drive 通过两大创新模块有效解决这些问题。
一、核心挑战
1.1 细粒度特征
| 行为类型 |
特征 |
| 粗粒度 |
喝水、打电话、操作收音机 |
| 细粒度 |
眼睑闭合、轻微打哈欠、微表情 |
传统卷积网络难以捕捉高频纹理和方向性特征。
1.2 重叠行为
1 2 3 4 5 6 7 8 9 10 11
| 真实场景中的重叠行为示例:
┌─────────────────────────────────────┐ │ 驾驶员同时: │ │ ├── 闭眼(疲劳) │ │ ├── 打哈欠(困倦) │ │ └── 头部倾斜(分心) │ └─────────────────────────────────────┘
传统检测器: └── 仅输出单一标签 → 漏检或误检
|
二、YOLO-Drive 架构
2.1 整体架构
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
| YOLO-Drive 架构:
输入图像 │ ▼ ┌─────────────────────────────────────┐ │ Backbone:YOLOv12 + EfficientViM │ │ ├── EfficientViM Block │ │ │ ├── 局部卷积(3x3 DWConv) │ │ │ ├── 全局建模(HSM-SSD) │ │ │ └── 前馈网络 │ │ └── ELAN / R-ELAN 结构 │ └─────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────┐ │ Neck:PSSA 增强模块 │ │ ├── 空间分支:多膨胀卷积 │ │ │ └── 膨胀率 {1, 2, 3} │ │ └── 频率分支:极化频谱注意力 │ │ ├── 径向高斯基函数 │ │ └── 角向 von Mises 函数 │ └─────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────┐ │ Head:多尺度检测头 │ │ ├── 12 类行为分类 │ │ └── 边界框回归 │ └─────────────────────────────────────┘
|
2.2 EfficientViM Block
核心创新:融合局部卷积与全局状态空间建模
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| EfficientViM Block 工作流程:
输入 x ∈ R^(B×C×H×W) │ ├── [1] 局部细化 │ └── 3×3 深度可分离卷积 → x1 │ ├── [2] 全局建模(HSM-SSD) │ ├── Flatten + LayerNorm │ ├── 状态空间建模 │ └── A = softmax(Δ + α) ← 稳定核 │ ├── [3] 聚合与投影 │ └── h̃ = x̃ @ (AB)^T │ └── [4] 后处理 └── 3×3 DWConv + FFN
输出:全局-局部融合特征
|
优势对比:
| 方法 |
局部特征 |
全局依赖 |
计算复杂度 |
| 纯卷积 |
✅ 强 |
❌ 弱 |
O(n) |
| Transformer |
❌ 弱 |
✅ 强 |
O(n²) |
| EfficientViM |
✅ 强 |
✅ 强 |
O(n) |
2.3 PSSA:极化频谱-空间注意力
核心创新:在频域和空间域同时增强细粒度特征
空间分支
1 2
| s = Σ DWConv_d(x), d ∈ {1, 2, 3}
|
捕捉近距离、中距离、远距离特征。
频率分支
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
| 频域处理流程:
空间特征 x │ ▼ rFFT2 频域表示 Xf │ ▼ 极坐标转换 (r, θ) 极坐标 │ ├── 径向建模:R(r) = Σ ρ_i · exp(-(r-c_i)²/2σ_i²) │ └── 高斯基函数增强特定频率 │ └── 角向建模:A(θ) = Σ v_j · exp(κ_j · cos(θ-μ_j)) └── von Mises 函数增强特定方向 │ ▼ 极化掩码 M(r,θ) = Norm(R(r) · A(θ)) │ ▼ Xf' = Xf · (1 + γ · M) │ ▼ irFFT2 增强特征 x_ifft
|
为什么频域增强重要?
| 特征类型 |
空间域表现 |
频域表现 |
| 眼睑边缘 |
微弱边缘 |
高频信号 |
| 嘴唇轮廓 |
细微变化 |
方向性纹理 |
| 手指动作 |
小目标 |
高频+方向 |
三、实验结果
3.1 定量结果
| 模型 |
Recall |
mAP@0.5 |
mAP@0.5:0.95 |
参数量 |
| YOLOv12 |
63.2% |
65.1% |
50.8% |
9.8M |
| RT-DETR |
60.3% |
- |
- |
更大 |
| Lei et al. |
- |
67.0% |
- |
- |
| Khanam |
62.7% |
- |
- |
- |
| YOLO-Drive |
73.3% |
75.0% |
59.2% |
10.4M |
3.2 消融实验
| 配置 |
Recall |
mAP@0.5 |
mAP@0.5:0.95 |
| Baseline (YOLOv12) |
63.2% |
65.1% |
50.8% |
| + EfficientViM only |
59.3% |
- |
- |
| + A2C2f_VimBlock only |
56.2% |
63.2% |
- |
| + Both ViM modules |
68.4% |
72.6% |
- |
| + PSSA (Full) |
73.3% |
75.0% |
59.2% |
结论:EfficientViM 与 PSSA 协同作用,缺一不可。
3.3 注意力可解释性分析
| 指标 |
YOLOv12 |
YOLO-Drive |
改进 |
| 注意力分散度 (AD) |
0.1057 |
0.0889 |
↓15.9% |
| 频率能量比 (FER) |
3.70e-4 |
1.57e-4 |
↓57.6% |
注意力更集中、更稳定。
四、重叠行为检测示例
4.1 典型场景
1 2 3 4 5 6 7
| 场景1:闭眼 + 打哈欠 ├── 传统模型:输出单一标签"打哈欠",漏检"闭眼" └── YOLO-Drive:同时检测两个行为
场景2:安全驾驶 vs 与乘客交谈 ├── 传统模型:轻微头部移动误判为"与乘客交谈" └── YOLO-Drive:正确识别"安全驾驶"
|
4.2 热力图分析
1 2 3 4 5 6 7 8 9 10 11 12
| YOLO-Drive 注意力热力图:
场景:打哈欠 + 眼睛状态 ┌─────────────────────────────────────┐ │ 同时聚焦: │ │ ├── 眼部区域(闭眼检测) │ │ ├── 嘴部区域(打哈欠检测) │ │ └── 身体姿态(整体状态) │ └─────────────────────────────────────┘
对比 YOLOv12: └── 注意力分散,多个误检框
|
五、对 IMS 开发的启示
5.1 算法架构建议
| 模块 |
功能 |
建议方案 |
| Backbone |
特征提取 |
采用 EfficientViM 替代纯 CNN |
| Neck |
特征增强 |
引入 PSSA 频域注意力 |
| Head |
多任务检测 |
支持多标签输出 |
5.2 细粒度检测优化
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| 细粒度检测策略:
1. 频域增强 ├── 眼睑闭合:高频纹理增强 ├── 打哈欠:方向性特征增强 └── 微表情:时序+频域联合建模
2. 多尺度感知 ├── 近距离:面部细节 ├── 中距离:头部姿态 └── 远距离:身体动作
3. 重叠行为处理 ├── 多标签输出 ├── 独立置信度评分 └── 冲突消解策略
|
5.3 部署考量
| 因素 |
YOLO-Drive |
说明 |
| 计算量 |
2.9 GFLOPs |
轻量级,可部署边缘设备 |
| 参数量 |
10.4M |
与 YOLOv12 相当 |
| 实时性 |
可达 30+ FPS |
A100 GPU |
| 夜间场景 |
需增强 |
极暗光照下仍有失败案例 |
5.4 失败案例分析
1 2 3 4 5 6 7
| 极端低光场景: ├── 问题:高频纹理信息丢失 ├── 失败原因:PSSA 频域增强无效 └── 解决方案: ├── 引入红外摄像头 ├── 时序一致性建模 └── 多模态融合(雷达/生理信号)
|
六、总结
YOLO-Drive 核心贡献:
- EfficientViM:全局-局部特征融合,线性复杂度
- PSSA:频域+空间域注意力增强细粒度特征
- 重叠行为检测:多标签输出,解决真实场景复杂情况
对 IMS 开发启示:
- 频域注意力是细粒度检测的有效手段
- 重叠行为需要多标签输出架构
- 极端光照场景需要多模态融合
参考资料
发布日期: 2026-04-11
关键词: YOLO-Drive, 分心检测, 细粒度识别, 重叠行为