YOLO-Drive：细粒度与重叠行为分心检测新突破

前言

驾驶员分心检测面临两大核心挑战：

细粒度特征识别：眼睑闭合、轻微打哈欠等微妙信号难以检测
重叠行为检测：驾驶员同时进行多个动作（如闭眼+打哈欠），传统模型难以区分

YOLO-Drive 通过两大创新模块有效解决这些问题。

一、核心挑战

1.1 细粒度特征

行为类型	特征
粗粒度	喝水、打电话、操作收音机
细粒度	眼睑闭合、轻微打哈欠、微表情

传统卷积网络难以捕捉高频纹理和方向性特征。

1.2 重叠行为

真实场景中的重叠行为示例：

┌─────────────────────────────────────┐
│  驾驶员同时：                        │
│  ├── 闭眼（疲劳）                   │
│  ├── 打哈欠（困倦）                 │
│  └── 头部倾斜（分心）               │
└─────────────────────────────────────┘

传统检测器：
└── 仅输出单一标签 → 漏检或误检

二、YOLO-Drive 架构

2.1 整体架构

YOLO-Drive 架构：

输入图像
    │
    ▼
┌─────────────────────────────────────┐
│  Backbone：YOLOv12 + EfficientViM  │
│  ├── EfficientViM Block            │
│  │   ├── 局部卷积（3x3 DWConv）    │
│  │   ├── 全局建模（HSM-SSD）       │
│  │   └── 前馈网络                   │
│  └── ELAN / R-ELAN 结构            │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│  Neck：PSSA 增强模块                │
│  ├── 空间分支：多膨胀卷积           │
│  │   └── 膨胀率 {1, 2, 3}         │
│  └── 频率分支：极化频谱注意力       │
│      ├── 径向高斯基函数             │
│      └── 角向 von Mises 函数       │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│  Head：多尺度检测头                 │
│  ├── 12 类行为分类                  │
│  └── 边界框回归                     │
└─────────────────────────────────────┘

2.2 EfficientViM Block

核心创新：融合局部卷积与全局状态空间建模

EfficientViM Block 工作流程：

输入 x ∈ R^(B×C×H×W)
    │
    ├── [1] 局部细化
    │       └── 3×3 深度可分离卷积 → x1
    │
    ├── [2] 全局建模（HSM-SSD）
    │       ├── Flatten + LayerNorm
    │       ├── 状态空间建模
    │       └── A = softmax(Δ + α)  ← 稳定核
    │
    ├── [3] 聚合与投影
    │       └── h̃ = x̃ @ (AB)^T
    │
    └── [4] 后处理
            └── 3×3 DWConv + FFN

输出：全局-局部融合特征

优势对比：

方法	局部特征	全局依赖	计算复杂度
纯卷积	✅ 强	❌ 弱	O(n)
Transformer	❌ 弱	✅ 强	O(n²)
EfficientViM	✅ 强	✅ 强	O(n)

2.3 PSSA：极化频谱-空间注意力

核心创新：在频域和空间域同时增强细粒度特征

空间分支

1 2	`# 多膨胀卷积聚合 s = Σ DWConv_d(x), d ∈ {1, 2, 3}`

捕捉近距离、中距离、远距离特征。

频率分支

频域处理流程：

空间特征 x
    │
    ▼ rFFT2
频域表示 Xf
    │
    ▼ 极坐标转换
(r, θ) 极坐标
    │
    ├── 径向建模：R(r) = Σ ρ_i · exp(-(r-c_i)²/2σ_i²)
    │   └── 高斯基函数增强特定频率
    │
    └── 角向建模：A(θ) = Σ v_j · exp(κ_j · cos(θ-μ_j))
        └── von Mises 函数增强特定方向
    │
    ▼
极化掩码 M(r,θ) = Norm(R(r) · A(θ))
    │
    ▼
Xf' = Xf · (1 + γ · M)
    │
    ▼ irFFT2
增强特征 x_ifft

为什么频域增强重要？

特征类型	空间域表现	频域表现
眼睑边缘	微弱边缘	高频信号
嘴唇轮廓	细微变化	方向性纹理
手指动作	小目标	高频+方向

三、实验结果

3.1 定量结果

模型	Recall	mAP@0.5	mAP@0.5:0.95	参数量
YOLOv12	63.2%	65.1%	50.8%	9.8M
RT-DETR	60.3%	-	-	更大
Lei et al.	-	67.0%	-	-
Khanam	62.7%	-	-	-
YOLO-Drive	73.3%	75.0%	59.2%	10.4M

3.2 消融实验

配置	Recall	mAP@0.5	mAP@0.5:0.95
Baseline (YOLOv12)	63.2%	65.1%	50.8%
+ EfficientViM only	59.3%	-	-
+ A2C2f_VimBlock only	56.2%	63.2%	-
+ Both ViM modules	68.4%	72.6%	-
+ PSSA (Full)	73.3%	75.0%	59.2%

结论：EfficientViM 与 PSSA 协同作用，缺一不可。

3.3 注意力可解释性分析

指标	YOLOv12	YOLO-Drive	改进
注意力分散度 (AD)	0.1057	0.0889	↓15.9%
频率能量比 (FER)	3.70e-4	1.57e-4	↓57.6%

注意力更集中、更稳定。

四、重叠行为检测示例

4.1 典型场景

场景1：闭眼 + 打哈欠
├── 传统模型：输出单一标签"打哈欠"，漏检"闭眼"
└── YOLO-Drive：同时检测两个行为

场景2：安全驾驶 vs 与乘客交谈
├── 传统模型：轻微头部移动误判为"与乘客交谈"
└── YOLO-Drive：正确识别"安全驾驶"

4.2 热力图分析

YOLO-Drive 注意力热力图：

场景：打哈欠 + 眼睛状态
┌─────────────────────────────────────┐
│  同时聚焦：                          │
│  ├── 眼部区域（闭眼检测）           │
│  ├── 嘴部区域（打哈欠检测）         │
│  └── 身体姿态（整体状态）           │
└─────────────────────────────────────┘

对比 YOLOv12：
└── 注意力分散，多个误检框

五、对 IMS 开发的启示

5.1 算法架构建议

模块	功能	建议方案
Backbone	特征提取	采用 EfficientViM 替代纯 CNN
Neck	特征增强	引入 PSSA 频域注意力
Head	多任务检测	支持多标签输出

5.2 细粒度检测优化

细粒度检测策略：

1. 频域增强
   ├── 眼睑闭合：高频纹理增强
   ├── 打哈欠：方向性特征增强
   └── 微表情：时序+频域联合建模

2. 多尺度感知
   ├── 近距离：面部细节
   ├── 中距离：头部姿态
   └── 远距离：身体动作

3. 重叠行为处理
   ├── 多标签输出
   ├── 独立置信度评分
   └── 冲突消解策略

5.3 部署考量

因素	YOLO-Drive	说明
计算量	2.9 GFLOPs	轻量级，可部署边缘设备
参数量	10.4M	与 YOLOv12 相当
实时性	可达 30+ FPS	A100 GPU
夜间场景	需增强	极暗光照下仍有失败案例

5.4 失败案例分析

极端低光场景：
├── 问题：高频纹理信息丢失
├── 失败原因：PSSA 频域增强无效
└── 解决方案：
    ├── 引入红外摄像头
    ├── 时序一致性建模
    └── 多模态融合（雷达/生理信号）

六、总结

YOLO-Drive 核心贡献：

EfficientViM：全局-局部特征融合，线性复杂度
PSSA：频域+空间域注意力增强细粒度特征
重叠行为检测：多标签输出，解决真实场景复杂情况

对 IMS 开发启示：

频域注意力是细粒度检测的有效手段
重叠行为需要多标签输出架构
极端光照场景需要多模态融合

参考资料

发布日期： 2026-04-11
关键词： YOLO-Drive, 分心检测, 细粒度识别, 重叠行为

IMS研究 > 算法前沿

#分心检测 #YOLO-Drive #细粒度识别 #重叠行为 #EfficientViM #PSSA

YOLO-Drive：细粒度与重叠行为分心检测新突破

https://dapalm.com/2026/04/11/2026-04-11-YOLO-Drive-Fine-Grained-Overlapping-Distraction-Detection/

作者

Mars

发布于

2026年4月11日

许可协议

Ford BlueCruise 致命事故：DMS 与 ADAS 协同的警示案例上一篇

Euro NCAP 2029 有意义参与检测：DMS 验证的核心挑战与合成数据解决方案下一篇