相机雷达融合的真正价值正在从提高感知率转向冲突仲裁能力

前言
前面几轮已经分别写了:
- 雷达+相机融合
- 微动误报抑制
- surrogate 验证资产
- UWB parked-mode 与功耗状态机
继续往下推后,我觉得最该补上的一块是:
相机+雷达融合的真正价值,正在从“提升平均准确率”转向“在证据不一致时做好冲突仲裁(conflict arbitration)”。
因为在真实车内,最常见的往往不是所有模态都意见一致,而是:
- 雷达看到持续微动,但相机没有清晰语义
- 相机看到 child seat / occupant context,但雷达证据很弱
- 低光、遮挡、毯子覆盖、姿态蜷缩让两边同时都不完整
这时真正决定系统行为的,不是 fusion feature vector,而是 冲突状态下怎么决策。
一、为什么融合不等于可用决策
1.1 相机和雷达的长处本来就不在同一个维度
公开资料对这点已经说得很清楚:
- 相机擅长语义:人、姿态、座椅、child seat、场景上下文
- 雷达擅长存在性与微动:呼吸、心跳、遮挡下 presence、黑暗环境
所以融合的本质,不是把两个“相同类型证据”叠加,而是把两种 语义完全不同 的证据放进同一套系统里。
1.2 真正困难的是“不同意”的时候怎么办
在真实 CPD 场景里,典型冲突包括:
- 雷达有微动,但视觉没有足够语义支撑
- 相机看到 child seat,但无法确认是否仍有儿童
- 视觉被遮挡,雷达存在弱周期信号但置信度不高
- 两种模态的时间连续性不同步
这时如果系统只追求“最终输出一个统一分数”,很容易把真正的风险藏掉。更合理的做法应该是把冲突显式暴露出来。
二、为什么 conflict arbitration 会变成平台主能力
2.1 CPD 之后,更多车内功能都会遇到模态冲突
这不是 CPD 独有问题。接下来以下能力也都会遇到类似挑战:
- occupant monitoring
- adaptive restraint
- vital sensing
- sudden sickness
- seat occupancy / child seat / belt misuse
也就是说,今天为 CPD 做的冲突仲裁,其实是在给未来更多 IMS 功能搭底座。
2.2 冲突处理决定系统是“谨慎”还是“鲁莽”
在安全功能里,最危险的通常不是某个模态偶尔出错,而是系统在证据冲突时仍然假装自己很确定。
真正成熟的系统应当做到:
- 证据冲突时知道自己处于 conflict
- 能进入 hold / recheck / degraded 路径
- 能给出解释,而不是硬压成单个分数
- 动作层能根据 conflict type 选择保守策略
三、我更看好的冲突仲裁思路
3.1 先定义 conflict taxonomy,而不是直接做 late fusion
建议先把冲突类型正式分层,例如:
semantic conflict:相机语义与雷达存在性不一致confidence conflict:两边都认为自己不够稳temporal conflict:证据持续时间和变化节律不一致quality conflict:某一模态受遮挡/低光/噪声影响严重
只有先分清是什么冲突,后面动作层才知道怎么处理。
3.2 输出层要显式保留冲突状态
我越来越不看好“只输出 child_present_score”的接口。更合理的输出应该至少包括:
camera_evidence_stateradar_evidence_stateconflict_statedominant_hypothesisrecommended_actionexplanation_needed
这既方便回归,也方便售后解释和法规准备。
3.3 动作层要默认保守而不是激进
在 CPD 里,冲突仲裁更适合遵循:
- 风险相关证据存在时,不轻易清零
- 弱冲突先进入 hold-safe-state
- 再通过时间连续性和额外采样做 recheck
- 高风险条件下允许保守升级
也就是说,冲突仲裁不是“谁分数高听谁的”,而是:
谁在当前安全上下文里更值得保守对待。
四、对 IMS 开发的直接启示
4.1 fusion 模块要和 arbitration 模块分层
不要把融合和仲裁揉成一团。更推荐:
- fusion evidence layer:整理 camera/radar 原始和中间证据
- arbitration layer:判断 conflict type、dominant hypothesis、risk posture
- action layer:决定 hold、recheck、warning、escalation
这样后续做 OTA 和回归都更稳。
4.2 回归测试要开始围绕冲突场景设计
比起普通正负样本,更值得优先补的场景包括:
- 毯子遮挡下 radar positive / camera weak
- child seat visible / life-signal weak
- 夜间低光 / camera degraded / radar stable
- 残余振动 / radar noisy / camera empty
- 多次间断 evidence / temporal conflict
这些才真正决定仲裁层质量。
4.3 synthetic data 在这里最有价值
冲突场景最难采,也最难重复。synthetic / simulation 的真正价值,正在于:
- 构造稀有 conflict case
- 系统性扫描遮挡、姿态、弱信号组合
- 验证 arbitration 是否稳定
- 验证动作层是否按 conflict type 做对了事
总结
相机+雷达融合的下一阶段竞争点,已经不只是“多模态让精度更高”,而是:
- 是否显式承认冲突存在
- 是否能把冲突类型结构化
- 是否能在 conflict 状态下保持保守、可解释、可回归的动作决策
对 IMS 团队来说,真正值得建设的不是一个“更大的融合模型”,而是 fusion evidence layer + conflict arbitration layer + action layer 这三层能力。
谁先把冲突仲裁做成平台能力,谁就更有机会把 CPD 和后续 OMS 功能做成真正可信的量产系统。
参考来源
- Anyverse, DMS Sensor Fusion + Synthetic Data to Ensure In-Cabin Safety, 2025
- Anyverse, In-Cabin Monitoring at CES 2026: From Driver Monitoring to Agentic Cabin Intelligence, 2026
- Edge AI and Vision Alliance, D3 Embedded, HTEC, Texas Instruments and Tobii Pioneer the Integration of Single-camera and Radar Interior Sensor Fusion for In-cabin Sensing, 2025