视线采集与视线估计SOTA技术全景：从硬件到算法，IMS分心检测的技术基石

引言：视线估计为什么是分心检测的核心

根据Euro NCAP 2026要求，驾驶员监控系统（DMS）必须在车速50km/h以上开始评估驾驶员注意力状态。视线方向是判断分心的直接指标——如果驾驶员长时间视线偏离前方道路，系统必须发出警告。

视线估计的精度直接决定了分心检测的准确性：

精度要求：角误差需控制在3-5°以内
实时性要求：推理时间<30ms/帧（30fps）
鲁棒性要求：墨镜、口罩、夜间、逆光等极端条件

本文系统梳理视线采集硬件、SOTA算法、数据集、嵌入式部署，以及如何指导IMS分心检测算法优化。

一、视线采集硬件选型

1.1 专业眼动仪 vs 车载DMS摄像头

类型	设备	精度	采样率	适用场景	价格
科研级	SR Research EyeLink 1000/2000	0.4-0.5°	500-2000Hz	实验室研究	$20,000+
科研级	Tobii Pro Spectrum	0.5°	300-1200Hz	心理学研究	$10,000+
商用级	Tobii Pro X3-120	1.2°	120Hz	可用性测试	$3,000+
车载级	IR红外摄像头（940nm）	2-3°	30-60Hz	DMS量产	$5-20

关键发现：

EyeLink精度最高（0.436°），但对头位要求严格
Tobii Pro X3-120在头位不佳时精度反而优于EyeLink
车载IR摄像头精度2-3°已满足Euro NCAP要求

1.2 车载DMS摄像头技术方案

主流方案：940nm红外LED + IR滤光片 + CMOS传感器
├── 优势：夜间可见、不受可见光干扰、隐私友好
├── 挑战：墨镜遮挡（偏光镜IR透光率<10%）
└── 发展：双光谱（可见光+IR融合）

硬件配置建议：

参数	推荐值	说明
波长	940nm	不可见红外，不干扰驾驶员
LED功率	2-3W	满足夜间补光
FOV	50-60°	覆盖驾驶员头部活动范围
分辨率	720p@30fps	平衡精度与算力
HDR	必须	应对逆光场景

二、视线估计SOTA算法全景

2.1 算法演进：从传统方法到深度学习

阶段一：基于模型的方法（2000-2015）
├── 瞳孔-光斑向量法（PCCR）
├── 3D眼球模型拟合
└── 精度高（<1°）但依赖专用硬件

阶段二：Appearance-based CNN（2015-2020）
├── MPIIGaze（Zhang et al., 2015）
├── GazeCapture + iTracker（Krafka et al., 2016）
└── 精度2-4°，无需专用硬件

阶段三：注意力+Transformer（2020-2024）
├── GazeTR（Cheng et al., 2022）
├── GazeCapsNet（Muksimova et al., 2025）
└── 精度3-5°，边缘可部署

阶段四：Foundation Model（2024-）
├── Gaze-LLE（DINOv2特征）
├── CLIP-Gaze（语言-视觉预训练）
└── 零样本泛化能力

2.2 当前SOTA算法详解

GazeCapsNet：轻量级胶囊网络（2025）

核心创新：

Self-Attention Routing（SAR）：替代传统迭代路由，单次前向完成注意力分配
混合特征提取：MobileNet v2 + ResNet-18
端到端预测：无需人脸关键点检测

性能表现：

数据集	MAE（角误差）	推理时间	参数量
Gaze360	5.10°	20ms	11.7M
MPIIFaceGaze	4.06°	20ms	11.7M
ETH-XGaze	-	20ms	11.7M

优势：

推理速度比GazeTR-Pure快40%
参数量仅为FullFace的6%
适合嵌入式部署

GazeTR：Transformer架构（2022）

架构设计：

GazeTR-Pure: 纯Transformer Encoder
├── Patch Embedding: 16×16 patches
├── Transformer Encoder: 6层
└── Gaze Regression Head: 3D向量

GazeTR-Hybrid: CNN + Transformer
├── ResNet-18: 特征提取
├── Transformer Encoder: 建模全局关系
└── Gaze Regression Head

性能表现：

模型	ETH-XGaze	Gaze360	MPIIFaceGaze
GazeTR-Pure	5.33°	5.57°	4.37°
GazeTR-Hybrid	4.78°	5.17°	4.06°

Gaze-LLE：基础模型赋能（2024）

核心思想：

利用DINOv2预训练特征
无需从头训练，零样本泛化能力强
首次证明foundation model可用于视线估计

架构：

1 2	`Input Image → DINOv2 Encoder → Lightweight Decoder → Gaze Vector (frozen) (trainable)`

2.3 算法选型建议

场景	推荐算法	理由
量产车载	GazeCapsNet	轻量、实时、精度足够
高精度需求	GazeTR-Hybrid	精度高，可预训练
跨域泛化	Gaze-LLE	foundation model泛化强
科研实验	EyeLink硬件 + 模型方法	精度最高

三、主流数据集对比

3.1 数据集特性对比

数据集	规模	人数	标注类型	头位范围	光照条件
ETH-XGaze	110万+	110	3D Gaze	极端头位	多光照
Gaze360	17.2万	238	3D Gaze	360°全覆盖	室内外
MPIIFaceGaze	4.5万	15	3D Gaze	自然头动	笔记本摄像头
GazeCapture	240万	1450	2D PoG	自然姿态	手机/平板

3.2 数据集选择建议

训练流程：
1. ETH-XGaze预训练 → 学习极端头位鲁棒性
2. Gaze360微调 → 学习室内外泛化
3. MPIIFaceGaze验证 → 测试自然场景性能

精度基准（MAE，角误差）：

方法	ETH-XGaze	Gaze360	MPIIFaceGaze
FullFace	6.53°	6.02°	4.95°
RT-GENE	-	6.02°	4.63°
GazeTR-Hybrid	4.78°	5.17°	4.06°
GazeCapsNet	-	5.10°	4.06°

四、嵌入式部署方案

4.1 目标平台算力评估

平台	算力	功耗	适合模型
Qualcomm 8255	26 TOPS	5-8W	GazeCapsNet + DMS全栈
Qualcomm 8295	30 TOPS	8-12W	GazeTR-Hybrid + 多任务
NVIDIA Jetson Orin	275 TOPS	15-60W	全模型，研发平台

4.2 模型压缩与加速

量化：

# TensorRT INT8量化
import tensorrt as trt
builder = trt.Builder(trt.Logger(trt.Logger.WARNING))
builder.max_batch_size = 1
builder.fp16_mode = True  # 首选FP16
builder.int8_mode = True  # INT8精度损失<1%

性能对比：

模型	FP32延迟	FP16延迟	INT8延迟	精度损失
GazeCapsNet	20ms	12ms	8ms	0.5°
GazeTR-Hybrid	35ms	20ms	15ms	0.3°

部署建议：

优先FP16：精度无损，加速明显
INT8需校准：精度损失可控
ONNX + TensorRT：NVIDIA平台首选
QNN + SNPE：Qualcomm平台首选

五、Euro NCAP 2026对视线估计的要求

5.1 测试场景

Gaze Zone测试：

要求覆盖的视线区域：
├── 前方道路（Forward）
├── 左侧后视镜（Left Mirror）
├── 右侧后视镜（Right Mirror）
├── 中央后视镜（Center Mirror）
├── 仪表盘（Dashboard）
├── 中控屏（Center Console）
└── 副驾/后排（Passenger）

通过标准：

所有视线区域必须被正确识别
检测延迟<2秒
误报率<5%

5.2 精度与鲁棒性要求

指标	Euro NCAP要求
视线偏离检测	离开前方>2秒触发警告
头位鲁棒性	±30° yaw/pitch范围内有效
光照鲁棒性	0.1-100,000 lux
遮挡处理	墨镜需降级提示，不可误判

六、指导IMS分心检测算法优化

6.1 视线估计精度对分心检测的影响

分心检测流程：

1
2
3

视频帧 → 人脸检测 → 眼部区域提取 → 视线估计 → 视线区域分类 → 分心判断
         ↓           ↓              ↓           ↓            ↓
       SCRFD      EyeCrop       GazeCapsNet   ZoneMap      时间窗口

关键影响点：

视线估计误差	分心检测影响
±1°	无影响，Zone分类正确
±3°	边界Zone可能混淆
±5°	严重误判，需时序滤波
±10°	不可用

6.2 算法优化建议

策略一：时序滤波

# 滑动窗口平滑
gaze_history = deque(maxlen=10)  # 10帧历史
def smooth_gaze(current_gaze):
    gaze_history.append(current_gaze)
    return np.mean(gaze_history, axis=0)

策略二：置信度加权

# 根据眼部遮挡程度调整置信度
def get_gaze_confidence(eye_occlusion_ratio):
    if eye_occlusion_ratio > 0.3:  # 30%以上遮挡
        return 0.0  # 不信任该帧
    return 1.0 - eye_occlusion_ratio

策略三：多任务联合训练

# 同时预测视线方向和分心类别
class MultiTaskGazeNet(nn.Module):
    def forward(self, x):
        features = self.backbone(x)
        gaze = self.gaze_head(features)      # 3D向量
        zone = self.zone_head(features)      # 7类Zone
        distraction = self.distraction_head(features)  # 二分类
        return gaze, zone, distraction

6.3 极端场景处理

场景	挑战	解决方案
墨镜	IR透光率<10%	多光谱融合 + 粗粒度头位估计
夜间	红外补光反射	HDR + 红外LED功率自适应
逆光	眼部阴影	多角度IR补光
口罩	眼部特征完整	不影响视线估计

七、未来研究方向

7.1 认知分心检测

挑战：视线在前方但注意力分散（”发呆”）

研究方向：

眨眼模式分析（Blink Pattern）
瞳孔直径变化（Pupil Dilation）
扫视模式（Saccade Pattern）
注视点熵（Gaze Entropy）

7.2 多模态融合

视觉DMS + 车辆信号 + 驾驶环境
    ↓           ↓         ↓
  视线估计    车道偏移   场景理解
    ↓           ↓         ↓
    └───────→ 融合决策 ←───────┘
              ↓
           分心等级

7.3 跨域泛化

问题：欧美数据训练的模型对亚洲人精度下降

解决方案：

领域自适应（Domain Adaptation）
合成数据增强（Synthetic Data）
Foundation Model迁移

八、总结：技术选型决策树

IMS分心检测视线估计选型：
│
├── 算力充足（>30 TOPS）
│   └── GazeTR-Hybrid + 时序滤波 + 多任务
│
├── 算力有限（10-30 TOPS）
│   └── GazeCapsNet + FP16量化 + Zone分类
│
├── 跨域泛化需求
│   └── Gaze-LLE + DINOv2特征 + 微调
│
└── 量产要求
    ├── 数据集：ETH-XGaze预训练 + Gaze360微调
    ├── 硬件：940nm IR摄像头 + HDR
    ├── 模型：GazeCapsNet + INT8量化
    └── 后处理：时序滤波 + 置信度加权

参考文献

Muksimova, S., et al. “GazeCapsNet: A Lightweight Gaze Estimation Framework.” Sensors, 2025.
Cheng, Y., & Lu, F. “Gaze Estimation using Transformer.” ICPR, 2022.
Zhang, X., et al. “ETH-XGaze: A Large Scale Dataset for Gaze Estimation.” ECCV, 2020.
Kellnhofer, A., et al. “Gaze360: Physically Unconstrained Gaze Estimation.” ICCV, 2019.
Euro NCAP. “Driver Monitoring Test Procedure.” Technical Bulletin SD 202, 2025.

本文是IMS知识库系列文章之一，更多内容见：知识库索引

IMS > 视线估计 > 分心检测

#Euro NCAP #DMS #深度学习 #Gaze Estimation #Eye Tracking

视线采集与视线估计SOTA技术全景：从硬件到算法，IMS分心检测的技术基石

https://dapalm.com/2026/03/12/2026-03-12-视线采集与视线估计SOTA技术全景/

作者

Mars

发布于

2026年3月12日

许可协议

视线采集硬件详解：从科研眼动仪到车载DMS摄像头上一篇

MediaPipe 系列 12：图像处理 Calculator——输入输出 ImageFrame 完整指南下一篇