YOLO-Drive论文精读:细粒度与重叠行为的鲁棒驾驶员分心检测

前言

驾驶员分心检测是DMS的核心功能之一,但现有方法面临两大挑战:

  1. 细粒度线索识别难:短暂闭眼、轻微打哈欠等微妙信号容易被忽略
  2. 重叠行为检测难:驾驶员可能同时”喝咖啡+闭眼+打哈欠”,传统检测器难以区分

2026年发表于CMC期刊的论文《YOLO-Drive: Robust Driver Distraction Recognition under Fine-Grained and Overlapping Behaviors》提出创新解决方案,本文进行深度解析。


一、问题定义

1.1 细粒度线索

类型 描述 检测难点
短暂闭眼 疲劳的早期信号 持续时间短,易被忽略
轻微打哈欠 疲劳信号 嘴巴张开幅度小
眼神偏离 认知分心信号 无明显头部转动
手部微动作 操作分心 手部位置变化细微

1.2 重叠行为

典型场景:

  • “打哈欠 + 眼睛闭合” → 多个检测框重叠
  • “喝咖啡 + 眼神偏离” → 多种分心信号并存
  • “操作手机 + 打哈欠” → 复合分心行为

传统方法的困境:

  • 单标签分类:只能识别”主要”分心类型
  • 检测框重叠:NMS后可能丢失部分检测
  • 特征混淆:多种行为的视觉特征相互干扰

二、YOLO-Drive架构

2.1 整体设计

YOLO-Drive基于YOLOv12,引入两大核心模块:

1
YOLO-Drive = YOLOv12 Backbone + EfficientViMBlock + PSSA
模块 功能 解决的问题
EfficientViMBlock 全局-局部特征融合 细粒度特征提取
PSSA 极化光谱-空间注意力 方向性纹理增强

2.2 EfficientViMBlock详解

设计思想:

  • 卷积擅长局部特征,但缺乏全局上下文
  • Transformer擅长全局建模,但计算复杂度高
  • 状态空间模型(SSM) 可以线性复杂度实现全局建模

核心公式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
输入:x ∈ R^{B×C×H×W}

步骤1:局部细化(3×3深度可分离卷积)
x1 = DWConv(x)

步骤2:全局建模(HSM-SSD)
ΔBC = Conv(LayerNorm(Flatten(x1)))
A = softmax(Δ + α) // 稳定核函数
h̃ = x̃ @ (AB)^T // 全局聚合

步骤3:投影与门控
H̃ = Gate(Conv(h̃))

步骤4:后处理
output = FFN(DWConv(H̃))

优势:

  • 3×3卷积保留局部纹理(眼睑边缘、嘴唇轮廓)
  • HSM-SSD捕获全局依赖(头-手-姿态协调)
  • 线性复杂度,适合实时部署

2.3 PSSA(极化光谱-空间注意力)

设计思想:

  • 标准空间注意力缺乏频率选择性
  • 细粒度线索(眼睑边缘)具有特定频率和方向特征
  • 在极坐标频谱域进行选择性增强

核心公式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
空间分支:多膨胀率聚合
s = Σ DWConv_d(x), d ∈ {1,2,3}

频率分支:极化频谱建模
Xf = FFT(x)
(r, θ) = polar(Xf)

径向建模(高斯基函数):
R(r) = Σ ρi·exp(-(r-ci)²/2σi²)

角向建模(von Mises函数):
A(θ) = Σ vj·exp(κj·cos(θ-μj))

极化掩码:
M(r,θ) = Norm(R(r)·A(θ))

增强频谱:
Xf' = Xf·(1 + γ·M)

逆变换:
x_freq = IFFT(Xf')

融合:
output = x·(1 + α·σ(Conv(s ⊕ x_freq)))

增强效果:

  • 径向高斯:增强高频纹理(眼睑边缘)
  • 角向von Mises:增强方向性特征(手部轮廓)
  • 抑制无关背景噪声

三、实验结果

3.1 数据集

数据集 规模 类别数 划分
Distracted-Driving (Roboflow) 8864张 12类 训练6860/验证1000/测试1004

类别列表:

  • 安全驾驶、发短信、打电话、操作收音机、喝水、向后伸手
  • 化妆、与乘客交谈、闭眼、打哈欠、打瞌睡、睁眼

3.2 定量结果

方法 Recall mAP@0.5 mAP@0.5:0.95 参数量
Khanam’s method 62.7% - - -
RT-DETR 60.3% - 51.6% -
YOLOv12 (baseline) 63.2% 65.1% 50.8% -
YOLO-Drive 73.3% 75.0% 59.2% 10.4M

关键提升:

  • 召回率提升10.1%(63.2% → 73.3%)
  • mAP@0.5提升9.9%(65.1% → 75.0%)
  • mAP@0.5:0.95提升8.4%(50.8% → 59.2%)

3.3 消融实验

配置 Recall mAP@0.5 mAP@0.5:0.95
YOLOv12 baseline 63.2% 65.1% 50.8%
+ EfficientViMBlock only 59.3% - -
+ A2C2f_VimBlock only 56.2% 63.2% -
+ EfficientViMBlock + A2C2f_VimBlock 68.4% 72.6% -
+ PSSA (full) 73.3% 75.0% 59.2%

结论:

  • EfficientViMBlock和PSSA互补,缺一不可
  • 单独使用EfficientViMBlock甚至降低召回率
  • PSSA的频谱增强显著提升细粒度检测能力

3.4 可解释性分析

注意力集中度(AD):

  • YOLOv12: 0.1057
  • YOLO-Drive: 0.0889(降低15.9%)
  • 解释:注意力更集中,散乱度降低

频谱能量比(FER):

  • YOLOv12: 3.70×10⁻⁴
  • YOLO-Drive: 1.57×10⁻⁴(降低57.6%)
  • 解释:高频噪声减少,注意力图更稳定

四、对IMS开发的启示

4.1 算法架构借鉴

建议1:引入SSM模块

  • EfficientViM的HSM-SSD模块适合全局上下文建模
  • 可替换现有Transformer模块,降低计算复杂度

建议2:频域注意力增强

  • PSSA的极化频谱建模对细粒度线索检测有效
  • 可应用于疲劳检测(闭眼)、分心检测(眼神偏离)

4.2 数据集建设

建议:建立细粒度+重叠行为数据集

需求 当前状态 差距
细粒度标注 部分覆盖 需要更精细的标注
重叠行为样本 不足 需要专门采集
多传感器数据 缺失 可加入红外、深度

4.3 部署考虑

模型大小:

  • 10.4M参数,适合嵌入式部署
  • 2.9 GFLOPs,满足实时性要求

失败案例分析:

  • 极低光照条件下,PSSA的频谱特征失效
  • 需要结合红外摄像头或主动照明

五、总结

YOLO-Drive论文针对驾驶员分心检测的两大痛点提出了创新解决方案:

痛点 解决方案 效果
细粒度线索识别 PSSA频谱-空间注意力 高频纹理增强
重叠行为检测 EfficientViM全局-局部建模 多线索分离

核心贡献:

  1. 首次明确提出”重叠行为检测”问题
  2. EfficientViMBlock实现高效全局建模
  3. PSSA实现频域选择性增强
  4. SOTA性能:mAP@0.5达75.0%

对IMS的启示:

  1. 频域注意力是细粒度检测的有效方向
  2. SSM模块适合嵌入式部署
  3. 需要建立细粒度+重叠行为数据集

参考资料


发布日期: 2026-04-03
研究主题: 分心检测、YOLO改进、细粒度识别


YOLO-Drive论文精读:细粒度与重叠行为的鲁棒驾驶员分心检测
https://dapalm.com/2026/04/03/2026-04-03-YOLO-Drive-Fine-Grained-Distraction-Detection/
作者
Mars
发布于
2026年4月3日
许可协议