NVIDIA DRIVE 集中式雷达处理架构:100倍数据量提升实现L4级感知

NVIDIA DRIVE 集中式雷达处理架构:100倍数据量提升实现L4级感知

核心突破

NVIDIA GTC 2026 发布的集中式雷达处理架构,将雷达信号处理从边缘设备迁移到 DRIVE 平台,实现:

指标 传统边缘处理 集中式处理 提升
数据量 0.064 MB/帧 6 MB/帧 100倍
硬件成本 DSP/MCU 集成 仅 RF 前端 -30%
功耗 边缘 DSP 功耗 中心计算 -20%
帧率 ~20 FPS 可定制 更高

传统雷达处理的局限

1. 数据丢失严重

1
2
3
4
5
6
7
8
9
10
传统边缘处理架构:

雷达前端 → DSP/MCU(边缘处理)→ 点云输出
↓ ↓
6 MB 0.064 MB(丢失 99%)

问题:
- CFAR 检测只保留峰值点
- 丢弃 Range-FFT/Doppler-FFT 中间数据
- 学习模型无法访问原始信号统计信息

2. 硬件约束

约束 影响
边缘 DSP 内存有限 必须丢弃 FFT 中间结果
算力受限 固定信号处理链,无法定制
占空比 < 50% 帧率受限 (~20 FPS)

3. L4 需求不匹配

L4 级自动驾驶需要:

  • 大模型直接学习原始传感器数据
  • Vision-Language-Action (VLA) 架构
  • 多模态融合(雷达+摄像头+LiDAR)

传统雷达输出点云无法满足这些需求。


集中式处理架构

系统架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
NVIDIA DRIVE 集中式雷达架构:

┌─────────────────────────────────────────────────────────┐
│ DRIVE AGX Thor │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────────┐ │
│ │ PVA │ │ GPU │ │ CPU │ │
│ │ 雷达DSP加速 │ │ AI 感知 │ │ 应用逻辑 │ │
│ └──────┬──────┘ └──────┬──────┘ └────────┬────────┘ │
│ │ │ │ │
│ ┌──────┴────────────────┴──────────────────┴────────┐ │
│ │ DRAM (共享内存) │ │
│ └────────────────────────────────────────────────────┘ │
└─────────────────────────┬───────────────────────────────┘
│ 高带宽链路 (540 MB/s)
┌─────────────┼─────────────┐
↓ ↓ ↓
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 前雷达 │ │ 角雷达1 │ │ 角雷达N │
│ 8T8R │ │ 4T4R │ │ 4T4R │
│(仅RF) │ │(仅RF) │ │(仅RF) │
└─────────┘ └─────────┘ └─────────┘

关键变化:
- 雷达传感器只保留 RF 前端和天线
- 原始 ADC 数据直接传输到 DRIVE
- PVA 处理所有雷达 DSP
- GPU 用于 AI 感知模型

硬件配置

组件 配置 数据量
前雷达 ChengTech 8T8R 原始 ADC 输出
角雷达 × 4 ChengTech 4T4R 原始 ADC 输出
总带宽 5 个传感器 540 MB/s
对比点云 传统方案 4.8 MB/s

PVA 硬件架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
PVA (Programmable Vision Accelerator) 架构:

┌────────────────────────────────────────────┐
│ PVA │
│ ┌──────────────────────────────────────┐ │
│ │ VLIW SIMD DSP 引擎 │ │
│ │ ┌────────────┐ ┌────────────────┐ │ │
│ │ │ 向量处理单元│ │ 专用 DMA 引擎 │ │ │
│ │ │ (VPU) │ │ │ │ │
│ │ └────────────┘ └────────────────┘ │ │
│ └──────────────────────────────────────┘ │
│ ┌──────────────────────────────────────┐ │
│ │ 片上本地内存 (VMEM) │ │
│ └──────────────────────────────────────┘ │
└────────────────────────────────────────────┘

特点:
- 高性能低功耗
- 确定性内存访问
- 异步运行(不占用 CPU/GPU)

信号处理流水线

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# PVA 雷达信号处理流水线

class RadarSignalPipeline:
"""
PVA 上的雷达信号处理

输入:原始 ADC 数据 (6 MB/帧)
输出:点云 + FFT 中间结果
"""

def __init__(self, config: dict):
self.num_chirps = config.get('num_chirps', 128)
self.num_samples = config.get('num_samples', 256)
self.num_rx = config.get('num_rx', 8)

def process_frame(self, adc_data: np.ndarray) -> dict:
"""
处理一帧原始 ADC 数据

Args:
adc_data: shape=(num_chirps, num_samples, num_rx)

Returns:
{
'range_fft': Range-FFT 结果,
'doppler_fft': Doppler-FFT 结果,
'point_cloud': 检测点云
}
"""
# 1. Range-FFT(快时间轴)
range_fft = np.fft.fft(adc_data, axis=1)

# 2. Doppler-FFT(慢时间轴)
doppler_fft = np.fft.fft(range_fft, axis=0)

# 3. CFAR 检测(可选)
point_cloud = self.cfar_detection(doppler_fft)

return {
'range_fft': range_fft, # 可用于学习模型
'doppler_fft': doppler_fft, # 可用于学习模型
'point_cloud': point_cloud # 传统点云输出
}

IMS 应用启示

1. CPD 儿童检测

1
2
3
4
5
6
7
8
9
10
11
传统 CPD 雷达 vs 集中式处理:

传统方案:
雷达 → DSP → 点云 → 分类器

丢失微弱呼吸信号

集中式:
雷达 → 原始 ADC → DRIVE PVA → FFT 全数据 → 深度学习模型

保留婴儿胸部微动特征
应用 传统方案 集中式处理
婴儿呼吸检测 点云稀疏,易漏检 原始信号可检测微弱目标
多目标分离 困难 Doppler-FFT 清晰分离
遮挡穿透 有限 完整信号统计信息

2. OMS 乘员监测

1
2
3
4
5
6
7
8
9
10
11
12
13
集中式雷达 OMS 优势:

1. 高分辨率姿态估计
- 原始 Range-Doppler 图可识别不同姿态
- 适合 OOP(Out-of-Position)检测

2. 多人场景
- 5 个雷达传感器全覆盖
- 540 MB/s 数据量支持大模型

3. 深度学习融合
- Range-FFT/Doppler-FFT 可直接输入网络
- 与摄像头数据对齐(硬件同步信号)

3. 部署建议

场景 推荐方案
传统 DMS(疲劳/分心) 现有边缘雷达足够
CPD 儿童检测 集中式处理推荐
OOP 异常姿态 集中式处理 + 深度学习
L4 级自动驾驶 集中式处理必需

代码示例:PVA Radar Library

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
"""
NVIDIA PVA Radar Library 使用示例

用于 DRIVE AGX Thor 平台
"""

import numpy as np
from pva_radar import RadarConfig, PVARadarPipeline

# 配置 ChengTech 8T8R 前雷达
config = RadarConfig(
num_tx=8,
num_rx=8,
num_chirps=128,
num_samples=256,
sample_rate=10e6, # 10 MHz
chirp_rate=50e12, # 50 MHz/μs
frame_rate=30 # 30 FPS
)

# 创建 PVA 管道
pipeline = PVARadarPipeline(config)

# 处理单帧
def process_frame(adc_buffer: np.ndarray) -> dict:
"""
Args:
adc_buffer: 原始 ADC 数据,来自 DRIVE DRAM

Returns:
处理结果,包含 FFT 数据和点云
"""
# PVA 异步执行
result = pipeline.process_async(adc_buffer)

# 返回完整数据(供 GPU AI 模型使用)
return {
'range_doppler': result.range_doppler_map, # Range-Doppler 图
'point_cloud': result.detected_points, # CFAR 检测点
'timestamps': result.timestamps # 时间戳(与摄像头同步)
}

# 多传感器融合示例
def multi_sensor_fusion(radar_frames: list, camera_frame: np.ndarray):
"""
5 个雷达传感器 + 摄像头融合

Args:
radar_frames: 5 个雷达的 ADC 数据
camera_frame: 同步的摄像头图像
"""
# 处理所有雷达
radar_results = [process_frame(f) for f in radar_frames]

# GPU 上运行多模态融合模型
# (雷达 Range-Doppler + 摄像头 RGB)
fusion_input = prepare_fusion_input(radar_results, camera_frame)

# 大模型推理(GPU)
detection = fusion_model.infer(fusion_input)

return detection

对比:传统 vs 集中式

维度 传统边缘处理 NVIDIA 集中式
数据量 0.064 MB/帧 6 MB/帧(100倍)
硬件成本 DSP/MCU 集成 仅 RF 前端(-30%)
功耗 边缘 DSP 功耗 中心计算(-20%)
灵活性 固定处理链 完全可编程
AI 支持 仅点云输入 原始信号 + FFT 中间结果
L4 适用 不适用 完全支持
CPD/OMS 基础功能 高精度检测

开发资源

资源 链接
NVIDIA DRIVE 文档 developer.nvidia.com/drive
PVA Solutions NVIDIA 官方雷达算子库
ChengTech 雷达 DRIVE 平台首个原始雷达合作伙伴

总结

NVIDIA DRIVE 集中式雷达处理架构是雷达感知的重大突破:

  1. 数据量提升 100 倍 - 从点云到原始 ADC 数据
  2. 硬件成本降低 30% - 移除边缘 DSP/MCU
  3. 功耗降低 20% - 中心计算效率更高
  4. L4 级支持 - 大模型可直接学习原始信号
  5. CPD/OMS 增强 - 微弱目标检测能力显著提升

对 IMS 开发的启示:

  • CPD 儿童检测应优先考虑集中式架构
  • OOP 异常姿态检测需要 Range-Doppler 完整数据
  • 与摄像头硬件同步实现多模态融合
  • 为 Euro NCAP 2029 要求做好准备

NVIDIA DRIVE 集中式雷达处理架构:100倍数据量提升实现L4级感知
https://dapalm.com/2026/04/25/2026-04-25-nvidia-drive-centralized-radar-processing/
作者
Mars
发布于
2026年4月25日
许可协议