合成数据如何解决 DMS/OMS 长尾场景困境

前言

Euro NCAP 2026 对 DMS/OMS 的场景覆盖提出了前所未有的要求:

  • 多光照条件(白天、夜间、隧道、逆光)
  • 多人群覆盖(不同肤色、年龄、性别、眼镜/墨镜/口罩)
  • 多姿态场景(疲劳、分心、遮挡、异常坐姿)
  • 多遮挡场景(毯子、玩具、安全座椅遮挡儿童)

问题: 真实数据采集成本极高,某些场景(如医疗紧急情况、极端醉酒)几乎无法在真实环境中采集。

合成数据正在成为解决方案。


一、为什么 DMS/OMS 需要”海量数据”

1.1 Euro NCAP 2026 的场景矩阵

维度 取值 组合数
光照 白天/夜间/隧道/逆光 4
人群 肤色 × 年龄 × 性别 × 配饰 100+
姿态 疲劳/分心/正常/异常 10+
遮挡 无/部分/严重 3
座椅位置 前/中/后 3

总组合数: 4 × 100 × 10 × 3 × 3 = 36,000+ 种场景

1.2 真实数据采集的困境

困境 说明
成本高 每个场景需要多名被试、多辆车、多地点
时间长 单次数据采集周期 2-4 周
覆盖率低 难以覆盖所有组合
长尾场景 医疗紧急、极端醉酒等难以在真实环境采集
隐私合规 人脸数据涉及隐私法规

二、合成数据生成(SDG)技术

2.1 什么是合成数据

合成数据是通过计算机仿真生成的”假数据”,但具有与真实数据相似的统计特性。

优势:

  • 可控:任意调整场景参数
  • 可重复:相同种子生成相同数据
  • 已标注:自动生成精确标注
  • 无隐私:不涉及真实人脸

2.2 合成数据生成流程

1
场景定义 → 3D 模型 → 渲染引擎 → 域随机化 → 数据输出
步骤 说明
场景定义 光照、背景、相机位置、人物姿态
3D 模型 人物模型、车内环境、遮挡物
渲染引擎 光线追踪、材质渲染
域随机化 随机化纹理、光照、姿态
数据输出 图像 + 精确标注

2.3 主流仿真引擎

引擎 特点 适用场景
Anyverse 专业舱内渲染、多传感器支持 DMS/OMS 专用
Sky Engine AI 驱动、域随机化强 长尾场景生成
Unity/Unreal 通用游戏引擎 快速原型
NVIDIA Omniverse 高保真渲染 高精度需求

三、域随机化(Domain Randomization)

3.1 什么是域随机化

域随机化是指在合成数据生成过程中,随机化各种参数,使模型学习到”不变特征”而非”记住特定场景”。

3.2 可随机化的参数

类别 参数
光照 强度、颜色、方向、阴影
纹理 皮肤、衣物、座椅材质
姿态 头部角度、身体姿态、手势
遮挡 遮挡物类型、遮挡程度
相机 位置、角度、畸变
背景 车内装饰、窗外场景

3.3 域随机化的效果

研究表明,结合域随机化的合成数据可以:

场景 仅真实数据 真实+合成 提升
正常场景 92% 94% +2%
遮挡场景 78% 89% +11%
逆光场景 71% 86% +15%
长尾场景 45% 78% +33%

结论: 合成数据对长尾场景提升最显著。


四、DMS/OMS 合成数据应用场景

4.1 DMS 应用

应用 真实数据难点 合成数据优势
墨镜遮挡 难以采集多样化墨镜场景 可随机化墨镜类型、透光率
口罩遮挡 疫情后常见但样本少 可模拟各种口罩类型
疲劳表情 难以让被试真实疲劳 可模拟疲劳程度渐变
认知分心 无明显外部特征 可控制内心任务负荷

4.2 OMS/CPD 应用

应用 真实数据难点 合成数据优势
儿童遮挡 安全/伦理限制 可模拟各种遮挡场景
儿童座椅 类型多样 可快速生成各种座椅类型
毯子遮挡 难以采集真实场景 可随机化毯子材质/颜色
婴儿睡姿 多样性高 可随机化婴儿姿态

4.3 Euro NCAP 测试场景

Euro NCAP 使用特定的测试协议和道具:

测试道具 合成数据可模拟
假人(儿童/成人) 可精确建模
毯子/玩具遮挡 可随机化
安全座椅 可建模各种类型
光照条件 可精确控制

五、Seeing Machines × Devant 合作案例

5.1 合作内容

2025年,Seeing Machines 与 Devant(合成数据公司)宣布合作:

  • 使用合成数据增强 DMS 模型训练
  • 重点解决墨镜、口罩、遮挡等长尾场景
  • 目标是提高 Euro NCAP 2026 测试通过率

5.2 技术路线

1
真实数据(基础训练) → 合成数据(长尾补充) → 混合训练 → 域适应 → 部署

关键步骤:

  1. 使用真实数据训练基础模型
  2. 识别长尾场景(墨镜、口罩等)
  3. 生成针对性合成数据
  4. 混合训练 + 域适应
  5. 在真实数据上验证

5.3 效果

场景 仅真实 真实+合成
正常场景 96% 97%
墨镜场景 82% 94%
口罩场景 75% 91%

六、合成数据的局限性

6.1 域差距(Domain Gap)

合成数据与真实数据存在统计分布差异,可能导致:

  • 在合成数据上表现好,真实数据上表现差
  • 需要域适应(Domain Adaptation)技术

6.2 解决方案

方案 说明
域随机化 增加合成数据多样性
域适应 使用对抗学习缩小域差距
混合训练 真实+合成数据混合训练
微调 在真实数据上微调预训练模型

6.3 最佳实践

建议 说明
不要 100% 合成 至少保留 20-30% 真实数据
针对性生成 先分析长尾场景,再针对性生成
验证集必须真实 验证集和测试集必须是真实数据
持续迭代 根据验证结果调整生成策略

七、对 IMS 开发的直接启示

启示 1:合成数据是长尾场景的”必选项”

某些场景(墨镜、口罩、儿童遮挡)真实数据极难采集,合成数据不是”可选项”而是”必选项”。

启示 2:合成数据需要”设计”,不是”随机生成”

有效的合成数据生成需要:

  • 分析真实数据的分布
  • 识别长尾场景
  • 设计针对性的随机化参数

启示 3:合成数据与真实数据是”互补”关系

合成数据不能完全替代真实数据,而是补充真实数据的不足。

启示 4:Euro NCAP 测试场景可以预先模拟

Euro NCAP 的测试协议是公开的,可以提前用合成数据模拟测试场景,提高通过率。


八、开发优先级建议

优先级 任务 说明
P0 分析现有数据长尾 识别覆盖不足的场景
P1 选择合成数据工具 Anyverse/Sky Engine/自研
P1 设计随机化参数 针对长尾场景
P2 建立合成数据流程 生成→训练→验证→迭代
P2 Euro NCAP 测试场景模拟 提高测试通过率

九、结论

合成数据正在改变 DMS/OMS 的数据策略:

  • 传统思路: 尽可能采集真实数据
  • 新思路: 真实数据打基础,合成数据补长尾

对于 IMS 团队,合成数据不是”未来技术”,而是 Euro NCAP 2026 合规的”刚需工具”。

越早建立合成数据能力,越能在长尾场景竞争中占据优势。


参考资料

  1. Anyverse, DMS Sensor Fusion + Synthetic Data to Ensure In-Cabin Safety, 2025-12.
  2. Sky Engine AI, Navigating Euro NCAP 2026: How Synthetic Data Powers Next-Gen In-Cabin Monitoring Systems, 2025-10.
  3. Seeing Machines × Devant 合作公告, 2025.
  4. Euro NCAP 2026 Assessment Protocols.

合成数据如何解决 DMS/OMS 长尾场景困境
https://dapalm.com/2026/03/12/2026-03-12-合成数据如何解决-DMS-OMS-长尾场景困境/
作者
Mars
发布于
2026年3月12日
许可协议