合成数据如何解决 DMS/OMS 长尾场景困境
前言
Euro NCAP 2026 对 DMS/OMS 的场景覆盖提出了前所未有的要求:
- 多光照条件(白天、夜间、隧道、逆光)
- 多人群覆盖(不同肤色、年龄、性别、眼镜/墨镜/口罩)
- 多姿态场景(疲劳、分心、遮挡、异常坐姿)
- 多遮挡场景(毯子、玩具、安全座椅遮挡儿童)
问题: 真实数据采集成本极高,某些场景(如医疗紧急情况、极端醉酒)几乎无法在真实环境中采集。
合成数据正在成为解决方案。
一、为什么 DMS/OMS 需要”海量数据”
1.1 Euro NCAP 2026 的场景矩阵
| 维度 | 取值 | 组合数 |
|---|---|---|
| 光照 | 白天/夜间/隧道/逆光 | 4 |
| 人群 | 肤色 × 年龄 × 性别 × 配饰 | 100+ |
| 姿态 | 疲劳/分心/正常/异常 | 10+ |
| 遮挡 | 无/部分/严重 | 3 |
| 座椅位置 | 前/中/后 | 3 |
总组合数: 4 × 100 × 10 × 3 × 3 = 36,000+ 种场景
1.2 真实数据采集的困境
| 困境 | 说明 |
|---|---|
| 成本高 | 每个场景需要多名被试、多辆车、多地点 |
| 时间长 | 单次数据采集周期 2-4 周 |
| 覆盖率低 | 难以覆盖所有组合 |
| 长尾场景 | 医疗紧急、极端醉酒等难以在真实环境采集 |
| 隐私合规 | 人脸数据涉及隐私法规 |
二、合成数据生成(SDG)技术
2.1 什么是合成数据
合成数据是通过计算机仿真生成的”假数据”,但具有与真实数据相似的统计特性。
优势:
- 可控:任意调整场景参数
- 可重复:相同种子生成相同数据
- 已标注:自动生成精确标注
- 无隐私:不涉及真实人脸
2.2 合成数据生成流程
1 | |
| 步骤 | 说明 |
|---|---|
| 场景定义 | 光照、背景、相机位置、人物姿态 |
| 3D 模型 | 人物模型、车内环境、遮挡物 |
| 渲染引擎 | 光线追踪、材质渲染 |
| 域随机化 | 随机化纹理、光照、姿态 |
| 数据输出 | 图像 + 精确标注 |
2.3 主流仿真引擎
| 引擎 | 特点 | 适用场景 |
|---|---|---|
| Anyverse | 专业舱内渲染、多传感器支持 | DMS/OMS 专用 |
| Sky Engine | AI 驱动、域随机化强 | 长尾场景生成 |
| Unity/Unreal | 通用游戏引擎 | 快速原型 |
| NVIDIA Omniverse | 高保真渲染 | 高精度需求 |
三、域随机化(Domain Randomization)
3.1 什么是域随机化
域随机化是指在合成数据生成过程中,随机化各种参数,使模型学习到”不变特征”而非”记住特定场景”。
3.2 可随机化的参数
| 类别 | 参数 |
|---|---|
| 光照 | 强度、颜色、方向、阴影 |
| 纹理 | 皮肤、衣物、座椅材质 |
| 姿态 | 头部角度、身体姿态、手势 |
| 遮挡 | 遮挡物类型、遮挡程度 |
| 相机 | 位置、角度、畸变 |
| 背景 | 车内装饰、窗外场景 |
3.3 域随机化的效果
研究表明,结合域随机化的合成数据可以:
| 场景 | 仅真实数据 | 真实+合成 | 提升 |
|---|---|---|---|
| 正常场景 | 92% | 94% | +2% |
| 遮挡场景 | 78% | 89% | +11% |
| 逆光场景 | 71% | 86% | +15% |
| 长尾场景 | 45% | 78% | +33% |
结论: 合成数据对长尾场景提升最显著。
四、DMS/OMS 合成数据应用场景
4.1 DMS 应用
| 应用 | 真实数据难点 | 合成数据优势 |
|---|---|---|
| 墨镜遮挡 | 难以采集多样化墨镜场景 | 可随机化墨镜类型、透光率 |
| 口罩遮挡 | 疫情后常见但样本少 | 可模拟各种口罩类型 |
| 疲劳表情 | 难以让被试真实疲劳 | 可模拟疲劳程度渐变 |
| 认知分心 | 无明显外部特征 | 可控制内心任务负荷 |
4.2 OMS/CPD 应用
| 应用 | 真实数据难点 | 合成数据优势 |
|---|---|---|
| 儿童遮挡 | 安全/伦理限制 | 可模拟各种遮挡场景 |
| 儿童座椅 | 类型多样 | 可快速生成各种座椅类型 |
| 毯子遮挡 | 难以采集真实场景 | 可随机化毯子材质/颜色 |
| 婴儿睡姿 | 多样性高 | 可随机化婴儿姿态 |
4.3 Euro NCAP 测试场景
Euro NCAP 使用特定的测试协议和道具:
| 测试道具 | 合成数据可模拟 |
|---|---|
| 假人(儿童/成人) | 可精确建模 |
| 毯子/玩具遮挡 | 可随机化 |
| 安全座椅 | 可建模各种类型 |
| 光照条件 | 可精确控制 |
五、Seeing Machines × Devant 合作案例
5.1 合作内容
2025年,Seeing Machines 与 Devant(合成数据公司)宣布合作:
- 使用合成数据增强 DMS 模型训练
- 重点解决墨镜、口罩、遮挡等长尾场景
- 目标是提高 Euro NCAP 2026 测试通过率
5.2 技术路线
1 | |
关键步骤:
- 使用真实数据训练基础模型
- 识别长尾场景(墨镜、口罩等)
- 生成针对性合成数据
- 混合训练 + 域适应
- 在真实数据上验证
5.3 效果
| 场景 | 仅真实 | 真实+合成 |
|---|---|---|
| 正常场景 | 96% | 97% |
| 墨镜场景 | 82% | 94% |
| 口罩场景 | 75% | 91% |
六、合成数据的局限性
6.1 域差距(Domain Gap)
合成数据与真实数据存在统计分布差异,可能导致:
- 在合成数据上表现好,真实数据上表现差
- 需要域适应(Domain Adaptation)技术
6.2 解决方案
| 方案 | 说明 |
|---|---|
| 域随机化 | 增加合成数据多样性 |
| 域适应 | 使用对抗学习缩小域差距 |
| 混合训练 | 真实+合成数据混合训练 |
| 微调 | 在真实数据上微调预训练模型 |
6.3 最佳实践
| 建议 | 说明 |
|---|---|
| 不要 100% 合成 | 至少保留 20-30% 真实数据 |
| 针对性生成 | 先分析长尾场景,再针对性生成 |
| 验证集必须真实 | 验证集和测试集必须是真实数据 |
| 持续迭代 | 根据验证结果调整生成策略 |
七、对 IMS 开发的直接启示
启示 1:合成数据是长尾场景的”必选项”
某些场景(墨镜、口罩、儿童遮挡)真实数据极难采集,合成数据不是”可选项”而是”必选项”。
启示 2:合成数据需要”设计”,不是”随机生成”
有效的合成数据生成需要:
- 分析真实数据的分布
- 识别长尾场景
- 设计针对性的随机化参数
启示 3:合成数据与真实数据是”互补”关系
合成数据不能完全替代真实数据,而是补充真实数据的不足。
启示 4:Euro NCAP 测试场景可以预先模拟
Euro NCAP 的测试协议是公开的,可以提前用合成数据模拟测试场景,提高通过率。
八、开发优先级建议
| 优先级 | 任务 | 说明 |
|---|---|---|
| P0 | 分析现有数据长尾 | 识别覆盖不足的场景 |
| P1 | 选择合成数据工具 | Anyverse/Sky Engine/自研 |
| P1 | 设计随机化参数 | 针对长尾场景 |
| P2 | 建立合成数据流程 | 生成→训练→验证→迭代 |
| P2 | Euro NCAP 测试场景模拟 | 提高测试通过率 |
九、结论
合成数据正在改变 DMS/OMS 的数据策略:
- 传统思路: 尽可能采集真实数据
- 新思路: 真实数据打基础,合成数据补长尾
对于 IMS 团队,合成数据不是”未来技术”,而是 Euro NCAP 2026 合规的”刚需工具”。
越早建立合成数据能力,越能在长尾场景竞争中占据优势。
参考资料
- Anyverse, DMS Sensor Fusion + Synthetic Data to Ensure In-Cabin Safety, 2025-12.
- Sky Engine AI, Navigating Euro NCAP 2026: How Synthetic Data Powers Next-Gen In-Cabin Monitoring Systems, 2025-10.
- Seeing Machines × Devant 合作公告, 2025.
- Euro NCAP 2026 Assessment Protocols.
合成数据如何解决 DMS/OMS 长尾场景困境
https://dapalm.com/2026/03/12/2026-03-12-合成数据如何解决-DMS-OMS-长尾场景困境/