YOLO-Drive:细粒度与重叠行为分心检测新突破

前言

驾驶员分心检测面临两大核心挑战:

  1. 细粒度特征识别:眼睑闭合、轻微打哈欠等微妙信号难以检测
  2. 重叠行为检测:驾驶员同时进行多个动作(如闭眼+打哈欠),传统模型难以区分

YOLO-Drive 通过两大创新模块有效解决这些问题。


一、核心挑战

1.1 细粒度特征

行为类型 特征
粗粒度 喝水、打电话、操作收音机
细粒度 眼睑闭合、轻微打哈欠、微表情

传统卷积网络难以捕捉高频纹理和方向性特征。

1.2 重叠行为

1
2
3
4
5
6
7
8
9
10
11
真实场景中的重叠行为示例:

┌─────────────────────────────────────┐
│ 驾驶员同时: │
│ ├── 闭眼(疲劳) │
│ ├── 打哈欠(困倦) │
│ └── 头部倾斜(分心) │
└─────────────────────────────────────┘

传统检测器:
└── 仅输出单一标签 → 漏检或误检

二、YOLO-Drive 架构

2.1 整体架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
YOLO-Drive 架构:

输入图像


┌─────────────────────────────────────┐
BackboneYOLOv12 + EfficientViM
│ ├── EfficientViM Block
│ │ ├── 局部卷积(3x3 DWConv) │
│ │ ├── 全局建模(HSM-SSD) │
│ │ └── 前馈网络 │
│ └── ELAN / R-ELAN 结构 │
└─────────────────────────────────────┘


┌─────────────────────────────────────┐
NeckPSSA 增强模块 │
│ ├── 空间分支:多膨胀卷积 │
│ │ └── 膨胀率 {1, 2, 3}
│ └── 频率分支:极化频谱注意力 │
│ ├── 径向高斯基函数 │
│ └── 角向 von Mises 函数 │
└─────────────────────────────────────┘


┌─────────────────────────────────────┐
Head:多尺度检测头 │
│ ├── 12 类行为分类 │
│ └── 边界框回归 │
└─────────────────────────────────────┘

2.2 EfficientViM Block

核心创新:融合局部卷积与全局状态空间建模

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
EfficientViM Block 工作流程:

输入 x ∈ R^(B×C×H×W)

├── [1] 局部细化
│ └── 3×3 深度可分离卷积 → x1

├── [2] 全局建模(HSM-SSD)
│ ├── Flatten + LayerNorm
│ ├── 状态空间建模
│ └── A = softmax(Δ + α) ← 稳定核

├── [3] 聚合与投影
│ └── h̃ = x̃ @ (AB)^T

└── [4] 后处理
└── 3×3 DWConv + FFN

输出:全局-局部融合特征

优势对比:

方法 局部特征 全局依赖 计算复杂度
纯卷积 ✅ 强 ❌ 弱 O(n)
Transformer ❌ 弱 ✅ 强 O(n²)
EfficientViM ✅ 强 ✅ 强 O(n)

2.3 PSSA:极化频谱-空间注意力

核心创新:在频域和空间域同时增强细粒度特征

空间分支

1
2
# 多膨胀卷积聚合
s = Σ DWConv_d(x), d ∈ {1, 2, 3}

捕捉近距离、中距离、远距离特征。

频率分支

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
频域处理流程:

空间特征 x

▼ rFFT2
频域表示 Xf

▼ 极坐标转换
(r, θ) 极坐标

├── 径向建模:R(r) = Σ ρ_i · exp(-(r-c_i)²/2σ_i²)
│ └── 高斯基函数增强特定频率

└── 角向建模:A(θ) = Σ v_j · exp(κ_j · cos(θ-μ_j))
└── von Mises 函数增强特定方向


极化掩码 M(r,θ) = Norm(R(r) · A(θ))


Xf' = Xf · (1 + γ · M)

▼ irFFT2
增强特征 x_ifft

为什么频域增强重要?

特征类型 空间域表现 频域表现
眼睑边缘 微弱边缘 高频信号
嘴唇轮廓 细微变化 方向性纹理
手指动作 小目标 高频+方向

三、实验结果

3.1 定量结果

模型 Recall mAP@0.5 mAP@0.5:0.95 参数量
YOLOv12 63.2% 65.1% 50.8% 9.8M
RT-DETR 60.3% - - 更大
Lei et al. - 67.0% - -
Khanam 62.7% - - -
YOLO-Drive 73.3% 75.0% 59.2% 10.4M

3.2 消融实验

配置 Recall mAP@0.5 mAP@0.5:0.95
Baseline (YOLOv12) 63.2% 65.1% 50.8%
+ EfficientViM only 59.3% - -
+ A2C2f_VimBlock only 56.2% 63.2% -
+ Both ViM modules 68.4% 72.6% -
+ PSSA (Full) 73.3% 75.0% 59.2%

结论:EfficientViM 与 PSSA 协同作用,缺一不可。

3.3 注意力可解释性分析

指标 YOLOv12 YOLO-Drive 改进
注意力分散度 (AD) 0.1057 0.0889 ↓15.9%
频率能量比 (FER) 3.70e-4 1.57e-4 ↓57.6%

注意力更集中、更稳定。


四、重叠行为检测示例

4.1 典型场景

1
2
3
4
5
6
7
场景1:闭眼 + 打哈欠
├── 传统模型:输出单一标签"打哈欠",漏检"闭眼"
└── YOLO-Drive:同时检测两个行为

场景2:安全驾驶 vs 与乘客交谈
├── 传统模型:轻微头部移动误判为"与乘客交谈"
└── YOLO-Drive:正确识别"安全驾驶"

4.2 热力图分析

1
2
3
4
5
6
7
8
9
10
11
12
YOLO-Drive 注意力热力图:

场景:打哈欠 + 眼睛状态
┌─────────────────────────────────────┐
│ 同时聚焦: │
│ ├── 眼部区域(闭眼检测) │
│ ├── 嘴部区域(打哈欠检测) │
│ └── 身体姿态(整体状态) │
└─────────────────────────────────────┘

对比 YOLOv12:
└── 注意力分散,多个误检框

五、对 IMS 开发的启示

5.1 算法架构建议

模块 功能 建议方案
Backbone 特征提取 采用 EfficientViM 替代纯 CNN
Neck 特征增强 引入 PSSA 频域注意力
Head 多任务检测 支持多标签输出

5.2 细粒度检测优化

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
细粒度检测策略:

1. 频域增强
├── 眼睑闭合:高频纹理增强
├── 打哈欠:方向性特征增强
└── 微表情:时序+频域联合建模

2. 多尺度感知
├── 近距离:面部细节
├── 中距离:头部姿态
└── 远距离:身体动作

3. 重叠行为处理
├── 多标签输出
├── 独立置信度评分
└── 冲突消解策略

5.3 部署考量

因素 YOLO-Drive 说明
计算量 2.9 GFLOPs 轻量级,可部署边缘设备
参数量 10.4M 与 YOLOv12 相当
实时性 可达 30+ FPS A100 GPU
夜间场景 需增强 极暗光照下仍有失败案例

5.4 失败案例分析

1
2
3
4
5
6
7
极端低光场景:
├── 问题:高频纹理信息丢失
├── 失败原因:PSSA 频域增强无效
└── 解决方案:
├── 引入红外摄像头
├── 时序一致性建模
└── 多模态融合(雷达/生理信号)

六、总结

YOLO-Drive 核心贡献:

  1. EfficientViM:全局-局部特征融合,线性复杂度
  2. PSSA:频域+空间域注意力增强细粒度特征
  3. 重叠行为检测:多标签输出,解决真实场景复杂情况

对 IMS 开发启示:

  • 频域注意力是细粒度检测的有效手段
  • 重叠行为需要多标签输出架构
  • 极端光照场景需要多模态融合

参考资料


发布日期: 2026-04-11
关键词: YOLO-Drive, 分心检测, 细粒度识别, 重叠行为


YOLO-Drive:细粒度与重叠行为分心检测新突破
https://dapalm.com/2026/04/11/2026-04-11-YOLO-Drive-Fine-Grained-Overlapping-Distraction-Detection/
作者
Mars
发布于
2026年4月11日
许可协议