视线采集与视线估计SOTA技术全景:从硬件到算法,IMS分心检测的技术基石

引言:视线估计为什么是分心检测的核心

根据Euro NCAP 2026要求,驾驶员监控系统(DMS)必须在车速50km/h以上开始评估驾驶员注意力状态。视线方向是判断分心的直接指标——如果驾驶员长时间视线偏离前方道路,系统必须发出警告。

视线估计的精度直接决定了分心检测的准确性:

  • 精度要求:角误差需控制在3-5°以内
  • 实时性要求:推理时间<30ms/帧(30fps)
  • 鲁棒性要求:墨镜、口罩、夜间、逆光等极端条件

本文系统梳理视线采集硬件、SOTA算法、数据集、嵌入式部署,以及如何指导IMS分心检测算法优化。


一、视线采集硬件选型

1.1 专业眼动仪 vs 车载DMS摄像头

类型 设备 精度 采样率 适用场景 价格
科研级 SR Research EyeLink 1000/2000 0.4-0.5° 500-2000Hz 实验室研究 $20,000+
科研级 Tobii Pro Spectrum 0.5° 300-1200Hz 心理学研究 $10,000+
商用级 Tobii Pro X3-120 1.2° 120Hz 可用性测试 $3,000+
车载级 IR红外摄像头(940nm) 2-3° 30-60Hz DMS量产 $5-20

关键发现

  • EyeLink精度最高(0.436°),但对头位要求严格
  • Tobii Pro X3-120在头位不佳时精度反而优于EyeLink
  • 车载IR摄像头精度2-3°已满足Euro NCAP要求

1.2 车载DMS摄像头技术方案

1
2
3
4
主流方案:940nm红外LED + IR滤光片 + CMOS传感器
├── 优势:夜间可见、不受可见光干扰、隐私友好
├── 挑战:墨镜遮挡(偏光镜IR透光率<10%)
└── 发展:双光谱(可见光+IR融合)

硬件配置建议

参数 推荐值 说明
波长 940nm 不可见红外,不干扰驾驶员
LED功率 2-3W 满足夜间补光
FOV 50-60° 覆盖驾驶员头部活动范围
分辨率 720p@30fps 平衡精度与算力
HDR 必须 应对逆光场景

二、视线估计SOTA算法全景

2.1 算法演进:从传统方法到深度学习

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
阶段一:基于模型的方法(2000-2015
├── 瞳孔-光斑向量法(PCCR)
├── 3D眼球模型拟合
└── 精度高(<1°)但依赖专用硬件

阶段二:Appearance-based CNN(2015-2020
├── MPIIGaze(Zhang et al., 2015)
├── GazeCapture + iTracker(Krafka et al., 2016)
└── 精度2-4°,无需专用硬件

阶段三:注意力+Transformer(2020-2024
├── GazeTR(Cheng et al., 2022)
├── GazeCapsNet(Muksimova et al., 2025)
└── 精度3-5°,边缘可部署

阶段四:Foundation Model(2024-)
├── Gaze-LLE(DINOv2特征)
├── CLIP-Gaze(语言-视觉预训练)
└── 零样本泛化能力

2.2 当前SOTA算法详解

GazeCapsNet:轻量级胶囊网络(2025)

核心创新

  • Self-Attention Routing(SAR):替代传统迭代路由,单次前向完成注意力分配
  • 混合特征提取:MobileNet v2 + ResNet-18
  • 端到端预测:无需人脸关键点检测

性能表现

数据集 MAE(角误差) 推理时间 参数量
Gaze360 5.10° 20ms 11.7M
MPIIFaceGaze 4.06° 20ms 11.7M
ETH-XGaze - 20ms 11.7M

优势

  • 推理速度比GazeTR-Pure快40%
  • 参数量仅为FullFace的6%
  • 适合嵌入式部署

GazeTR:Transformer架构(2022)

架构设计

1
2
3
4
5
6
7
8
9
GazeTR-Pure: 纯Transformer Encoder
├── Patch Embedding: 16×16 patches
├── Transformer Encoder: 6层
└── Gaze Regression Head: 3D向量

GazeTR-Hybrid: CNN + Transformer
├── ResNet-18: 特征提取
├── Transformer Encoder: 建模全局关系
└── Gaze Regression Head

性能表现

模型 ETH-XGaze Gaze360 MPIIFaceGaze
GazeTR-Pure 5.33° 5.57° 4.37°
GazeTR-Hybrid 4.78° 5.17° 4.06°

Gaze-LLE:基础模型赋能(2024)

核心思想

  • 利用DINOv2预训练特征
  • 无需从头训练,零样本泛化能力强
  • 首次证明foundation model可用于视线估计

架构

1
2
Input Image → DINOv2 Encoder → Lightweight Decoder → Gaze Vector
(frozen) (trainable)

2.3 算法选型建议

场景 推荐算法 理由
量产车载 GazeCapsNet 轻量、实时、精度足够
高精度需求 GazeTR-Hybrid 精度高,可预训练
跨域泛化 Gaze-LLE foundation model泛化强
科研实验 EyeLink硬件 + 模型方法 精度最高

三、主流数据集对比

3.1 数据集特性对比

数据集 规模 人数 标注类型 头位范围 光照条件
ETH-XGaze 110万+ 110 3D Gaze 极端头位 多光照
Gaze360 17.2万 238 3D Gaze 360°全覆盖 室内外
MPIIFaceGaze 4.5万 15 3D Gaze 自然头动 笔记本摄像头
GazeCapture 240万 1450 2D PoG 自然姿态 手机/平板

3.2 数据集选择建议

1
2
3
4
训练流程:
1. ETH-XGaze预训练 → 学习极端头位鲁棒性
2. Gaze360微调 → 学习室内外泛化
3. MPIIFaceGaze验证 → 测试自然场景性能

精度基准(MAE,角误差):

方法 ETH-XGaze Gaze360 MPIIFaceGaze
FullFace 6.53° 6.02° 4.95°
RT-GENE - 6.02° 4.63°
GazeTR-Hybrid 4.78° 5.17° 4.06°
GazeCapsNet - 5.10° 4.06°

四、嵌入式部署方案

4.1 目标平台算力评估

平台 算力 功耗 适合模型
Qualcomm 8255 26 TOPS 5-8W GazeCapsNet + DMS全栈
Qualcomm 8295 30 TOPS 8-12W GazeTR-Hybrid + 多任务
NVIDIA Jetson Orin 275 TOPS 15-60W 全模型,研发平台

4.2 模型压缩与加速

量化

1
2
3
4
5
6
# TensorRT INT8量化
import tensorrt as trt
builder = trt.Builder(trt.Logger(trt.Logger.WARNING))
builder.max_batch_size = 1
builder.fp16_mode = True # 首选FP16
builder.int8_mode = True # INT8精度损失<1%

性能对比

模型 FP32延迟 FP16延迟 INT8延迟 精度损失
GazeCapsNet 20ms 12ms 8ms 0.5°
GazeTR-Hybrid 35ms 20ms 15ms 0.3°

部署建议

  1. 优先FP16:精度无损,加速明显
  2. INT8需校准:精度损失可控
  3. ONNX + TensorRT:NVIDIA平台首选
  4. QNN + SNPE:Qualcomm平台首选

五、Euro NCAP 2026对视线估计的要求

5.1 测试场景

Gaze Zone测试

1
2
3
4
5
6
7
8
要求覆盖的视线区域:
├── 前方道路(Forward
├── 左侧后视镜(Left Mirror
├── 右侧后视镜(Right Mirror
├── 中央后视镜(Center Mirror
├── 仪表盘(Dashboard
├── 中控屏(Center Console
└── 副驾/后排(Passenger

通过标准

  • 所有视线区域必须被正确识别
  • 检测延迟<2秒
  • 误报率<5%

5.2 精度与鲁棒性要求

指标 Euro NCAP要求
视线偏离检测 离开前方>2秒触发警告
头位鲁棒性 ±30° yaw/pitch范围内有效
光照鲁棒性 0.1-100,000 lux
遮挡处理 墨镜需降级提示,不可误判

六、指导IMS分心检测算法优化

6.1 视线估计精度对分心检测的影响

分心检测流程

1
2
3
视频帧 → 人脸检测 → 眼部区域提取 → 视线估计 → 视线区域分类 → 分心判断
↓ ↓ ↓ ↓ ↓
SCRFD EyeCrop GazeCapsNet ZoneMap 时间窗口

关键影响点

视线估计误差 分心检测影响
±1° 无影响,Zone分类正确
±3° 边界Zone可能混淆
±5° 严重误判,需时序滤波
±10° 不可用

6.2 算法优化建议

策略一:时序滤波

1
2
3
4
5
# 滑动窗口平滑
gaze_history = deque(maxlen=10) # 10帧历史
def smooth_gaze(current_gaze):
gaze_history.append(current_gaze)
return np.mean(gaze_history, axis=0)

策略二:置信度加权

1
2
3
4
5
# 根据眼部遮挡程度调整置信度
def get_gaze_confidence(eye_occlusion_ratio):
if eye_occlusion_ratio > 0.3: # 30%以上遮挡
return 0.0 # 不信任该帧
return 1.0 - eye_occlusion_ratio

策略三:多任务联合训练

1
2
3
4
5
6
7
8
# 同时预测视线方向和分心类别
class MultiTaskGazeNet(nn.Module):
def forward(self, x):
features = self.backbone(x)
gaze = self.gaze_head(features) # 3D向量
zone = self.zone_head(features) # 7类Zone
distraction = self.distraction_head(features) # 二分类
return gaze, zone, distraction

6.3 极端场景处理

场景 挑战 解决方案
墨镜 IR透光率<10% 多光谱融合 + 粗粒度头位估计
夜间 红外补光反射 HDR + 红外LED功率自适应
逆光 眼部阴影 多角度IR补光
口罩 眼部特征完整 不影响视线估计

七、未来研究方向

7.1 认知分心检测

挑战:视线在前方但注意力分散(”发呆”)

研究方向

  • 眨眼模式分析(Blink Pattern)
  • 瞳孔直径变化(Pupil Dilation)
  • 扫视模式(Saccade Pattern)
  • 注视点熵(Gaze Entropy)

7.2 多模态融合

1
2
3
4
5
6
7
视觉DMS + 车辆信号 + 驾驶环境
↓ ↓ ↓
视线估计 车道偏移 场景理解
↓ ↓ ↓
└───────→ 融合决策 ←───────┘

分心等级

7.3 跨域泛化

问题:欧美数据训练的模型对亚洲人精度下降

解决方案

  • 领域自适应(Domain Adaptation)
  • 合成数据增强(Synthetic Data)
  • Foundation Model迁移

八、总结:技术选型决策树

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
IMS分心检测视线估计选型:

├── 算力充足(>30 TOPS)
│ └── GazeTR-Hybrid + 时序滤波 + 多任务

├── 算力有限(10-30 TOPS)
│ └── GazeCapsNet + FP16量化 + Zone分类

├── 跨域泛化需求
│ └── Gaze-LLE + DINOv2特征 + 微调

└── 量产要求
├── 数据集:ETH-XGaze预训练 + Gaze360微调
├── 硬件:940nm IR摄像头 + HDR
├── 模型:GazeCapsNet + INT8量化
└── 后处理:时序滤波 + 置信度加权

参考文献

  1. Muksimova, S., et al. “GazeCapsNet: A Lightweight Gaze Estimation Framework.” Sensors, 2025.
  2. Cheng, Y., & Lu, F. “Gaze Estimation using Transformer.” ICPR, 2022.
  3. Zhang, X., et al. “ETH-XGaze: A Large Scale Dataset for Gaze Estimation.” ECCV, 2020.
  4. Kellnhofer, A., et al. “Gaze360: Physically Unconstrained Gaze Estimation.” ICCV, 2019.
  5. Euro NCAP. “Driver Monitoring Test Procedure.” Technical Bulletin SD 202, 2025.

本文是IMS知识库系列文章之一,更多内容见:知识库索引


视线采集与视线估计SOTA技术全景:从硬件到算法,IMS分心检测的技术基石
https://dapalm.com/2026/03/12/2026-03-12-视线采集与视线估计SOTA技术全景/
作者
Mars
发布于
2026年3月12日
许可协议