RT-DETR-DA-Distracted-Driving-97.1-mAP-RealTime

RT-DETR-DA 分心驾驶检测：97.1% mAP50 + 63.6 FPS 实时性能

发布时间： 2026-04-09
标签： #DistractedDriving #RT-DETR #RealTime #DMS
来源： Advanced Intelligent Systems (Wiley, 2026-03)

核心信号

2026 年 3 月，Wiley Advanced Intelligent Systems 发布 RT-DETR-DA 分心驾驶检测方法：

精度： 97.1% mAP50（CBTDDD 数据集）
速度： 63.6 FPS（实时）
改进： 比基线提升 2.5% mAP50
特点： 特征交互 + 动态感知

这标志着分心驾驶检测从”离线分析”进入”车载实时部署”阶段。

一、问题背景

1. 分心驾驶的危害

NHTSA 统计：

数据	说明
每年死亡人数	3000+ 人（美国）
受伤人数	400,000+ 人
事故占比	8-9% 致命事故

分心类型：

类型	占比	示例
视觉分心	40%	看手机、看导航
手动分心	35%	操作设备、吃东西
认知分心	25%	思考问题、情绪波动

2. 检测挑战

复杂场景：

挑战	说明
光照变化	白天/夜晚/隧道
遮挡	眼镜、帽子、口罩
姿态多样	不同坐姿、头部角度
行为重叠	同时打电话 + 操作中控

现有方法局限：

方法	局限
传统 CNN	精度不足（<90% mAP）
YOLO 系列	小目标检测弱
两阶段检测器	速度慢（<30 FPS）

二、RT-DETR-DA 方法

1. 基础架构

RT-DETR（Real-Time DEtection TRansformer）：

组件	说明
Backbone	ResNet-50 / HGNetV2
Encoder	Hybrid Encoder
Decoder	Transformer Decoder
检测头	分类 + 回归

优势：

端到端检测（无 NMS）
实时推理（>60 FPS）
全局上下文建模

2. 核心改进

(1) 特征交互模块（Feature Interaction）

问题：多尺度特征缺乏有效交互

解决方案：
┌──────────────────────────────────────────┐
│         Feature Interaction Module       │
├──────────────────────────────────────────┤
│  ┌─────────┐   ┌─────────┐   ┌─────────┐ │
│  │ Scale 1 │   │ Scale 2 │   │ Scale 3 │ │
│  └────┬────┘   └────┬────┘   └────┬────┘ │
│       │             │             │      │
│       └─────────────┼─────────────┘      │
│                     │                    │
│              ┌──────▼──────┐             │
│              │ Cross-Scale │             │
│              │ Attention   │             │
│              └──────┬──────┘             │
│                     │                    │
│       ┌─────────────┼─────────────┐      │
│       ▼             ▼             ▼      │
│  ┌─────────┐   ┌─────────┐   ┌─────────┐ │
│  │ Enhanced│   │ Enhanced│   │ Enhanced│ │
│  │ Scale 1 │   │ Scale 2 │   │ Scale 3 │ │
│  └─────────┘   └─────────┘   └─────────┘ │
└──────────────────────────────────────────┘

效果：

多尺度特征融合
小目标检测增强
上下文信息传递

(2) 动态感知模块（Dynamic Perception）

问题：固定感受野无法适应不同尺度目标

解决方案：
┌──────────────────────────────────────────┐
│       Dynamic Perception Module          │
├──────────────────────────────────────────┤
│  输入特征                                 │
│       │                                   │
│       ├───────────┬───────────┐          │
│       ▼           ▼           ▼          │
│  ┌─────────┐ ┌─────────┐ ┌─────────┐    │
│  │ Dilated │ │ Dilated │ │ Dilated │    │
│  │ Conv d=1│ │ Conv d=2│ │ Conv d=3│    │
│  └────┬────┘ └────┬────┘ └────┬────┘    │
│       │           │           │          │
│       └───────────┼───────────┘          │
│                   │                       │
│            ┌──────▼──────┐               │
│            │ Attention   │               │
│            │ Weight Gen  │               │
│            └──────┬──────┘               │
│                   │                       │
│            自适应融合                      │
└──────────────────────────────────────────┘

效果：

动态调整感受野
适应不同尺度目标
提升鲁棒性

3. 网络架构

RT-DETR-DA 完整架构：

输入图像（640 × 640）
         │
         ▼
┌─────────────────────┐
│ Backbone (HGNetV2)  │
│ - 多尺度特征提取     │
│ - P3, P4, P5        │
└──────────┬──────────┘
           │
           ▼
┌─────────────────────┐
│ Feature Interaction │
│ - 跨尺度注意力       │
│ - 特征融合          │
└──────────┬──────────┘
           │
           ▼
┌─────────────────────┐
│ Dynamic Perception  │
│ - 自适应感受野       │
│ - 多尺度感知         │
└──────────┬──────────┘
           │
           ▼
┌─────────────────────┐
│ Hybrid Encoder      │
│ - Intra-scale       │
│ - Cross-scale       │
└──────────┬──────────┘
           │
           ▼
┌─────────────────────┐
│ Transformer Decoder │
│ - Query Selection   │
│ - Decoder Layers    │
└──────────┬──────────┘
           │
           ▼
┌─────────────────────┐
│ Detection Head      │
│ - 分类（分心类型）   │
│ - 回归（边界框）     │
└─────────────────────┘

三、实验结果

1. CBTDDD 数据集

数据集统计：

维度	值
图像数量	未公开（论文中）
分心类别	多类（打电话、操作设备等）
场景	车内、多光照
标注	边界框 + 类别

2. 性能对比

主要结果：

方法	mAP50	FPS	参数量
YOLOv5	89.2%	72	7.2M
YOLOv8	91.5%	68	11.1M
RT-DETR	94.6%	62	32.1M
RT-DETR-DA	97.1%	63.6	~35M

关键指标：

指标	值
mAP50	97.1%
mAP50-95	未公开
FPS	63.6
延迟	~15.7 ms

3. 消融实验

配置	mAP50	改进
Baseline (RT-DETR)	94.6%	-
+ Feature Interaction	96.2%	+1.6%
+ Dynamic Perception	97.1%	+2.5%

四、对 IMS/DMS 开发的启示

1. 技术选型

实时分心检测方案：

方案	精度	速度	适用场景
RT-DETR-DA	高	高	高端车型
YOLOv8	中高	高	主流车型
MobileNet + SSD	中	极高	低端车型

2. 部署考量

边缘设备性能：

平台	参数量预算	FPS 目标	可行性
高通 8295	< 50M	> 30	✅
TI TDA4	< 30M	> 15	⚠️ 需优化
地平线 J5	< 40M	> 25	✅

优化策略：

方法	压缩比	精度损失
量化（INT8）	4x	< 1%
剪枝	2x	< 2%
蒸馏	5x	< 3%

3. 功能扩展

分心类别扩展：

类别	难度	重要性
打电话	低	高
操作中控	中	高
吃东西	中	中
抽烟	中	中
看手机	高	高
乘客干扰	高	中

4. 与其他模块协同

DMS 系统集成：

┌──────────────────────────────────────────┐
│           DMS 完整系统                   │
├──────────────────────────────────────────┤
│  ┌────────────────────────────────────┐  │
│  │ RT-DETR-DA 分心检测                │  │
│  │ - 实时检测                         │  │
│  │ - 多类别识别                       │  │
│  └───────────────┬────────────────────┘  │
│                  │                        │
│                  ▼                        │
│  ┌────────────────────────────────────┐  │
│  │ 眼动追踪模块                        │  │
│  │ - 视线方向                         │  │
│  │ - 闭合度                           │  │
│  └───────────────┬────────────────────┘  │
│                  │                        │
│                  ▼                        │
│  ┌────────────────────────────────────┐  │
│  │ 决策融合                            │  │
│  │ - 分心类型 + 眼动数据               │  │
│  │ - 风险等级评估                     │  │
│  └───────────────┬────────────────────┘  │
│                  │                        │
│                  ▼                        │
│  ┌────────────────────────────────────┐  │
│  │ 警告输出                            │  │
│  │ - 分级警告                         │  │
│  │ - ADAS 联动                        │  │
│  └────────────────────────────────────┘  │
└──────────────────────────────────────────┘

五、关键图表

1. 精度 vs 速度权衡

mAP50
100% ┤
     │                  ● RT-DETR-DA
 97% ┤─────────────────┤
     │
 95% ┤         ● RT-DETR
     │
 92% ┤     ● YOLOv8
     │
 90% ┤   ● YOLOv5
     │
     └──────┬──────┬──────┬──────┬───
           60    65    70    75    FPS

RT-DETR-DA 实现了精度和速度的最优平衡

2. 检测效果示例

正常驾驶                    分心驾驶
┌─────────────┐            ┌─────────────┐
│             │            │  ⚠️ 打电话  │
│   (驾驶员)  │            │   (驾驶员)  │
│   正常看路  │            │   左手持机  │
│             │            │             │
│   ✅ 安全   │            │   🔴 警告   │
└─────────────┘            └─────────────┘

六、结论

RT-DETR-DA 的核心贡献：

特征交互模块：跨尺度注意力融合
动态感知模块：自适应感受野
实时性能：97.1% mAP50 @ 63.6 FPS
实际部署：满足车载实时要求

对 IMS/DMS 开发的建议：

采用 Transformer 架构：全局上下文建模
多尺度特征融合：提升小目标检测
动态感受野：适应不同尺度
量化优化：满足边缘部署
多模块融合：分心检测 + 眼动追踪

参考资料

Advanced Intelligent Systems: RT-DETR-DA for Complex Scenes Distracted Driving Detection (2026-03)
CBTDDD Dataset
RT-DETR: Real-Time DEtection TRansformer
NHTSA Distracted Driving Statistics

本文已同步发布至 dapalm.com

Euro NCAP > DMS

#DMS #OMS #CPD #Euro NCAP 2026

RT-DETR-DA-Distracted-Driving-97.1-mAP-RealTime

https://dapalm.com/2026/04/09/2026-04-09-RT-DETR-DA-Distracted-Driving-97.1-mAP-RealTime/

作者

Mars

发布于

2026年4月9日

许可协议

Qualcomm-Wayve-End-to-End-AI-Driving-Snapdragon-Ride 上一篇

STURDeCAM57-5MP-RGB-IR-Global-Shutter-InCabin-Camera 下一篇