RT-DETR-DA-Distracted-Driving-97.1-mAP-RealTime

RT-DETR-DA 分心驾驶检测:97.1% mAP50 + 63.6 FPS 实时性能

发布时间: 2026-04-09
标签: #DistractedDriving #RT-DETR #RealTime #DMS
来源: Advanced Intelligent Systems (Wiley, 2026-03)


核心信号

2026 年 3 月,Wiley Advanced Intelligent Systems 发布 RT-DETR-DA 分心驾驶检测方法:

  • 精度: 97.1% mAP50(CBTDDD 数据集)
  • 速度: 63.6 FPS(实时)
  • 改进: 比基线提升 2.5% mAP50
  • 特点: 特征交互 + 动态感知

这标志着分心驾驶检测从”离线分析”进入”车载实时部署”阶段。


一、问题背景

1. 分心驾驶的危害

NHTSA 统计:

数据 说明
每年死亡人数 3000+ 人(美国)
受伤人数 400,000+ 人
事故占比 8-9% 致命事故

分心类型:

类型 占比 示例
视觉分心 40% 看手机、看导航
手动分心 35% 操作设备、吃东西
认知分心 25% 思考问题、情绪波动

2. 检测挑战

复杂场景:

挑战 说明
光照变化 白天/夜晚/隧道
遮挡 眼镜、帽子、口罩
姿态多样 不同坐姿、头部角度
行为重叠 同时打电话 + 操作中控

现有方法局限:

方法 局限
传统 CNN 精度不足(<90% mAP)
YOLO 系列 小目标检测弱
两阶段检测器 速度慢(<30 FPS)

二、RT-DETR-DA 方法

1. 基础架构

RT-DETR(Real-Time DEtection TRansformer):

组件 说明
Backbone ResNet-50 / HGNetV2
Encoder Hybrid Encoder
Decoder Transformer Decoder
检测头 分类 + 回归

优势:

  • 端到端检测(无 NMS)
  • 实时推理(>60 FPS)
  • 全局上下文建模

2. 核心改进

(1) 特征交互模块(Feature Interaction)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
问题:多尺度特征缺乏有效交互

解决方案:
┌──────────────────────────────────────────┐
Feature Interaction Module
├──────────────────────────────────────────┤
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Scale 1 │ │ Scale 2 │ │ Scale 3 │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
│ └─────────────┼─────────────┘ │
│ │ │
│ ┌──────▼──────┐ │
│ │ Cross-Scale │ │
│ │ Attention │ │
│ └──────┬──────┘ │
│ │ │
│ ┌─────────────┼─────────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Enhanced│ │ Enhanced│ │ Enhanced│ │
│ │ Scale 1 │ │ Scale 2 │ │ Scale 3 │ │
│ └─────────┘ └─────────┘ └─────────┘ │
└──────────────────────────────────────────┘

效果:

  • 多尺度特征融合
  • 小目标检测增强
  • 上下文信息传递

(2) 动态感知模块(Dynamic Perception)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
问题:固定感受野无法适应不同尺度目标

解决方案:
┌──────────────────────────────────────────┐
│ Dynamic Perception Module │
├──────────────────────────────────────────┤
│ 输入特征 │
│ │ │
│ ├───────────┬───────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Dilated │ │ Dilated │ │ Dilated │ │
│ │ Conv d=1│ │ Conv d=2│ │ Conv d=3│ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
│ └───────────┼───────────┘ │
│ │ │
│ ┌──────▼──────┐ │
│ │ Attention │ │
│ │ Weight Gen │ │
│ └──────┬──────┘ │
│ │ │
│ 自适应融合 │
└──────────────────────────────────────────┘

效果:

  • 动态调整感受野
  • 适应不同尺度目标
  • 提升鲁棒性

3. 网络架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
RT-DETR-DA 完整架构:

输入图像(640 × 640


┌─────────────────────┐
Backbone (HGNetV2)
- 多尺度特征提取 │
- P3, P4, P5
└──────────┬──────────┘


┌─────────────────────┐
Feature Interaction
- 跨尺度注意力 │
- 特征融合 │
└──────────┬──────────┘


┌─────────────────────┐
Dynamic Perception
- 自适应感受野 │
- 多尺度感知 │
└──────────┬──────────┘


┌─────────────────────┐
Hybrid Encoder
- Intra-scale
- Cross-scale
└──────────┬──────────┘


┌─────────────────────┐
Transformer Decoder
- Query Selection
- Decoder Layers
└──────────┬──────────┘


┌─────────────────────┐
Detection Head
- 分类(分心类型) │
- 回归(边界框) │
└─────────────────────┘

三、实验结果

1. CBTDDD 数据集

数据集统计:

维度
图像数量 未公开(论文中)
分心类别 多类(打电话、操作设备等)
场景 车内、多光照
标注 边界框 + 类别

2. 性能对比

主要结果:

方法 mAP50 FPS 参数量
YOLOv5 89.2% 72 7.2M
YOLOv8 91.5% 68 11.1M
RT-DETR 94.6% 62 32.1M
RT-DETR-DA 97.1% 63.6 ~35M

关键指标:

指标
mAP50 97.1%
mAP50-95 未公开
FPS 63.6
延迟 ~15.7 ms

3. 消融实验

配置 mAP50 改进
Baseline (RT-DETR) 94.6% -
+ Feature Interaction 96.2% +1.6%
+ Dynamic Perception 97.1% +2.5%

四、对 IMS/DMS 开发的启示

1. 技术选型

实时分心检测方案:

方案 精度 速度 适用场景
RT-DETR-DA 高端车型
YOLOv8 中高 主流车型
MobileNet + SSD 极高 低端车型

2. 部署考量

边缘设备性能:

平台 参数量预算 FPS 目标 可行性
高通 8295 < 50M > 30
TI TDA4 < 30M > 15 ⚠️ 需优化
地平线 J5 < 40M > 25

优化策略:

方法 压缩比 精度损失
量化(INT8) 4x < 1%
剪枝 2x < 2%
蒸馏 5x < 3%

3. 功能扩展

分心类别扩展:

类别 难度 重要性
打电话
操作中控
吃东西
抽烟
看手机
乘客干扰

4. 与其他模块协同

DMS 系统集成:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
┌──────────────────────────────────────────┐
│ DMS 完整系统 │
├──────────────────────────────────────────┤
│ ┌────────────────────────────────────┐ │
│ │ RT-DETR-DA 分心检测 │ │
│ │ - 实时检测 │ │
│ │ - 多类别识别 │ │
│ └───────────────┬────────────────────┘ │
│ │ │
│ ▼ │
│ ┌────────────────────────────────────┐ │
│ │ 眼动追踪模块 │ │
│ │ - 视线方向 │ │
│ │ - 闭合度 │ │
│ └───────────────┬────────────────────┘ │
│ │ │
│ ▼ │
│ ┌────────────────────────────────────┐ │
│ │ 决策融合 │ │
│ │ - 分心类型 + 眼动数据 │ │
│ │ - 风险等级评估 │ │
│ └───────────────┬────────────────────┘ │
│ │ │
│ ▼ │
│ ┌────────────────────────────────────┐ │
│ │ 警告输出 │ │
│ │ - 分级警告 │ │
│ │ - ADAS 联动 │ │
│ └────────────────────────────────────┘ │
└──────────────────────────────────────────┘

五、关键图表

1. 精度 vs 速度权衡

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
mAP50
100% ┤
│ ● RT-DETR-DA
97% ┤─────────────────┤

95% ┤ ● RT-DETR

92% ┤ ● YOLOv8

90% ┤ ● YOLOv5

└──────┬──────┬──────┬──────┬───
60 65 70 75 FPS

RT-DETR-DA 实现了精度和速度的最优平衡

2. 检测效果示例

1
2
3
4
5
6
7
8
正常驾驶                    分心驾驶
┌─────────────┐ ┌─────────────┐
│ │ │ ⚠️ 打电话 │
│ (驾驶员) │ │ (驾驶员) │
│ 正常看路 │ │ 左手持机 │
│ │ │ │
│ ✅ 安全 │ │ 🔴 警告 │
└─────────────┘ └─────────────┘

六、结论

RT-DETR-DA 的核心贡献:

  1. 特征交互模块:跨尺度注意力融合
  2. 动态感知模块:自适应感受野
  3. 实时性能:97.1% mAP50 @ 63.6 FPS
  4. 实际部署:满足车载实时要求

对 IMS/DMS 开发的建议:

  1. 采用 Transformer 架构:全局上下文建模
  2. 多尺度特征融合:提升小目标检测
  3. 动态感受野:适应不同尺度
  4. 量化优化:满足边缘部署
  5. 多模块融合:分心检测 + 眼动追踪

参考资料

  1. Advanced Intelligent Systems: RT-DETR-DA for Complex Scenes Distracted Driving Detection (2026-03)
  2. CBTDDD Dataset
  3. RT-DETR: Real-Time DEtection TRansformer
  4. NHTSA Distracted Driving Statistics

本文已同步发布至 dapalm.com


RT-DETR-DA-Distracted-Driving-97.1-mAP-RealTime
https://dapalm.com/2026/04/09/2026-04-09-RT-DETR-DA-Distracted-Driving-97.1-mAP-RealTime/
作者
Mars
发布于
2026年4月9日
许可协议