YOLO-Drive论文精读：细粒度与重叠行为的鲁棒驾驶员分心检测

前言

驾驶员分心检测是DMS的核心功能之一，但现有方法面临两大挑战：

细粒度线索识别难：短暂闭眼、轻微打哈欠等微妙信号容易被忽略
重叠行为检测难：驾驶员可能同时”喝咖啡+闭眼+打哈欠”，传统检测器难以区分

2026年发表于CMC期刊的论文《YOLO-Drive: Robust Driver Distraction Recognition under Fine-Grained and Overlapping Behaviors》提出创新解决方案，本文进行深度解析。

一、问题定义

1.1 细粒度线索

类型	描述	检测难点
短暂闭眼	疲劳的早期信号	持续时间短，易被忽略
轻微打哈欠	疲劳信号	嘴巴张开幅度小
眼神偏离	认知分心信号	无明显头部转动
手部微动作	操作分心	手部位置变化细微

1.2 重叠行为

典型场景：

“打哈欠 + 眼睛闭合” → 多个检测框重叠
“喝咖啡 + 眼神偏离” → 多种分心信号并存
“操作手机 + 打哈欠” → 复合分心行为

传统方法的困境：

单标签分类：只能识别”主要”分心类型
检测框重叠：NMS后可能丢失部分检测
特征混淆：多种行为的视觉特征相互干扰

二、YOLO-Drive架构

2.1 整体设计

YOLO-Drive基于YOLOv12，引入两大核心模块：

1	`YOLO-Drive = YOLOv12 Backbone + EfficientViMBlock + PSSA`

模块	功能	解决的问题
EfficientViMBlock	全局-局部特征融合	细粒度特征提取
PSSA	极化光谱-空间注意力	方向性纹理增强

2.2 EfficientViMBlock详解

设计思想：

卷积擅长局部特征，但缺乏全局上下文
Transformer擅长全局建模，但计算复杂度高
状态空间模型（SSM） 可以线性复杂度实现全局建模

核心公式：

输入：x ∈ R^{B×C×H×W}

步骤1：局部细化（3×3深度可分离卷积）
  x1 = DWConv(x)

步骤2：全局建模（HSM-SSD）
  ΔBC = Conv(LayerNorm(Flatten(x1)))
  A = softmax(Δ + α)  // 稳定核函数
  h̃ = x̃ @ (AB)^T     // 全局聚合

步骤3：投影与门控
  H̃ = Gate(Conv(h̃))

步骤4：后处理
  output = FFN(DWConv(H̃))

优势：

3×3卷积保留局部纹理（眼睑边缘、嘴唇轮廓）
HSM-SSD捕获全局依赖（头-手-姿态协调）
线性复杂度，适合实时部署

2.3 PSSA（极化光谱-空间注意力）

设计思想：

标准空间注意力缺乏频率选择性
细粒度线索（眼睑边缘）具有特定频率和方向特征
在极坐标频谱域进行选择性增强

核心公式：

空间分支：多膨胀率聚合
  s = Σ DWConv_d(x), d ∈ {1,2,3}

频率分支：极化频谱建模
  Xf = FFT(x)
  (r, θ) = polar(Xf)
  
  径向建模（高斯基函数）：
    R(r) = Σ ρi·exp(-(r-ci)²/2σi²)
  
  角向建模（von Mises函数）：
    A(θ) = Σ vj·exp(κj·cos(θ-μj))
  
  极化掩码：
    M(r,θ) = Norm(R(r)·A(θ))
  
  增强频谱：
    Xf' = Xf·(1 + γ·M)
  
  逆变换：
    x_freq = IFFT(Xf')

融合：
  output = x·(1 + α·σ(Conv(s ⊕ x_freq)))

增强效果：

径向高斯：增强高频纹理（眼睑边缘）
角向von Mises：增强方向性特征（手部轮廓）
抑制无关背景噪声

三、实验结果

3.1 数据集

数据集	规模	类别数	划分
Distracted-Driving (Roboflow)	8864张	12类	训练6860/验证1000/测试1004

类别列表：

安全驾驶、发短信、打电话、操作收音机、喝水、向后伸手
化妆、与乘客交谈、闭眼、打哈欠、打瞌睡、睁眼

3.2 定量结果

方法	Recall	mAP@0.5	mAP@0.5:0.95	参数量
Khanam’s method	62.7%	-	-	-
RT-DETR	60.3%	-	51.6%	-
YOLOv12 (baseline)	63.2%	65.1%	50.8%	-
YOLO-Drive	73.3%	75.0%	59.2%	10.4M

关键提升：

召回率提升10.1%（63.2% → 73.3%）
mAP@0.5提升9.9%（65.1% → 75.0%）
mAP@0.5:0.95提升8.4%（50.8% → 59.2%）

3.3 消融实验

配置	Recall	mAP@0.5	mAP@0.5:0.95
YOLOv12 baseline	63.2%	65.1%	50.8%
+ EfficientViMBlock only	59.3%	-	-
+ A2C2f_VimBlock only	56.2%	63.2%	-
+ EfficientViMBlock + A2C2f_VimBlock	68.4%	72.6%	-
+ PSSA (full)	73.3%	75.0%	59.2%

结论：

EfficientViMBlock和PSSA互补，缺一不可
单独使用EfficientViMBlock甚至降低召回率
PSSA的频谱增强显著提升细粒度检测能力

3.4 可解释性分析

注意力集中度（AD）：

YOLOv12: 0.1057
YOLO-Drive: 0.0889（降低15.9%）
解释：注意力更集中，散乱度降低

频谱能量比（FER）：

YOLOv12: 3.70×10⁻⁴
YOLO-Drive: 1.57×10⁻⁴（降低57.6%）
解释：高频噪声减少，注意力图更稳定

四、对IMS开发的启示

4.1 算法架构借鉴

建议1：引入SSM模块

EfficientViM的HSM-SSD模块适合全局上下文建模
可替换现有Transformer模块，降低计算复杂度

建议2：频域注意力增强

PSSA的极化频谱建模对细粒度线索检测有效
可应用于疲劳检测（闭眼）、分心检测（眼神偏离）

4.2 数据集建设

建议：建立细粒度+重叠行为数据集

需求	当前状态	差距
细粒度标注	部分覆盖	需要更精细的标注
重叠行为样本	不足	需要专门采集
多传感器数据	缺失	可加入红外、深度

4.3 部署考虑

模型大小：

10.4M参数，适合嵌入式部署
2.9 GFLOPs，满足实时性要求

失败案例分析：

极低光照条件下，PSSA的频谱特征失效
需要结合红外摄像头或主动照明

五、总结

YOLO-Drive论文针对驾驶员分心检测的两大痛点提出了创新解决方案：

痛点	解决方案	效果
细粒度线索识别	PSSA频谱-空间注意力	高频纹理增强
重叠行为检测	EfficientViM全局-局部建模	多线索分离

核心贡献：

首次明确提出”重叠行为检测”问题
EfficientViMBlock实现高效全局建模
PSSA实现频域选择性增强
SOTA性能：mAP@0.5达75.0%

对IMS的启示：

频域注意力是细粒度检测的有效方向
SSM模块适合嵌入式部署
需要建立细粒度+重叠行为数据集

参考资料

发布日期： 2026-04-03
研究主题： 分心检测、YOLO改进、细粒度识别

论文精读 > DMS技术

#注意力机制 #分心检测 #YOLO-Drive #YOLOv12 #细粒度检测

YOLO-Drive论文精读：细粒度与重叠行为的鲁棒驾驶员分心检测

https://dapalm.com/2026/04/03/2026-04-03-YOLO-Drive-Fine-Grained-Distraction-Detection/

作者

Mars

发布于

2026年4月3日

许可协议

Seeing Machines DMS技术全景：从疲劳检测到酒精损伤识别的演进上一篇

NHTSA报告揭示：车载酒驾检测技术尚未成熟，99.9%准确率仍是巨大挑战下一篇