GazeTR Transformer架构详解:Pure与Hybrid的较量
引言:Transformer进军视线估计
2021年,Vision Transformer(ViT)在ImageNet上超越ResNet,开启了Transformer在计算机视觉的新时代。但Transformer在视线估计领域的应用仍是空白。
GazeTR(ICPR 2022)是首个系统探索Transformer在视线估计中应用的工作,提出了两种架构:
- GazeTR-Pure:纯Transformer架构
- GazeTR-Hybrid:CNN + Transformer混合架构
实验结果颠覆直觉:Hybrid以更少参数实现更高精度。
一、GazeTR-Pure:纯Transformer架构
1.1 架构设计
GazeTR-Pure完全遵循ViT设计:
1 | |
1.2 Patch Embedding
1 | |
1.3 参数量分析
| 组件 | 参数量 |
|---|---|
| Patch Embedding | 0.6M |
| Positional Encoding | 0.15M |
| Transformer (12层) | 85.8M |
| Gaze Head | 0.002M |
| 总计 | 86.6M |
二、GazeTR-Hybrid:混合架构
2.1 设计动机
问题:纯Transformer缺乏CNN的局部特征提取能力
解决方案:保留CNN作为特征提取器,Transformer增强全局建模
2.2 架构设计
1 | |
2.3 代码实现
1 | |
2.4 参数量分析
| 组件 | 参数量 |
|---|---|
| ResNet-18 Backbone | 11.2M |
| Positional Encoding | 0.025M |
| Transformer (2层) | 2.1M |
| Gaze Head | 0.13M |
| 总计 | 13.5M |
对比:GazeTR-Hybrid参数量仅为GazeTR-Pure的15.6%。
三、实验对比
3.1 数据集性能
ETH-XGaze数据集:
| 方法 | MAE(角误差) | 参数量 |
|---|---|---|
| FullFace | 6.53° | 196.6M |
| RT-GENE | 6.02° | 45.2M |
| GazeTR-Pure | 5.89° | 86.6M |
| GazeTR-Hybrid | 5.33° | 13.5M |
MPIIFaceGaze数据集:
| 方法 | MAE |
|---|---|
| FullFace | 4.95° |
| Dilated-Net | 4.78° |
| GazeTR-Pure | 4.52° |
| GazeTR-Hybrid | 4.06° |
Gaze360数据集:
| 方法 | MAE |
|---|---|
| L2CS-Net | 9.46° |
| GazeCapsNet | 5.10° |
| GazeTR-Hybrid | 4.50° |
3.2 跨数据集泛化
训练→测试:
| 训练数据 | 测试数据 | GazeTR-Pure | GazeTR-Hybrid |
|---|---|---|---|
| ETH-XGaze | MPIIFaceGaze | 6.23° | 5.94° |
| Gaze360 | ETH-XGaze | 6.82° | 5.87° |
| ETH-XGaze | Gaze360 | 7.45° | 6.82° |
结论:GazeTR-Hybrid泛化能力更强。
四、消融实验
4.1 Transformer层数影响
| 层数 | ETH-XGaze MAE | 参数量 |
|---|---|---|
| 1 | 5.67° | 12.4M |
| 2 | 5.33° | 13.5M |
| 4 | 5.41° | 15.7M |
| 6 | 5.58° | 17.9M |
结论:2层Transformer最佳,更多层反而过拟合。
4.2 Self-Attention可视化
1 | |
4.3 CNN骨干网络对比
| Backbone | ETH-XGaze MAE | 参数量 | 推理时间 |
|---|---|---|---|
| ResNet-18 | 5.33° | 13.5M | 25ms |
| ResNet-50 | 5.21° | 23.8M | 35ms |
| MobileNet v2 | 5.68° | 9.2M | 18ms |
| EfficientNet-B0 | 5.45° | 5.3M | 15ms |
结论:ResNet-18在精度与速度间取得最佳平衡。
五、与GazeCapsNet对比
| 维度 | GazeCapsNet | GazeTR-Hybrid |
|---|---|---|
| 核心机制 | Capsule Network | Transformer |
| 参数量 | 11.7M | 13.5M |
| ETH-XGaze MAE | 5.10° | 5.33° |
| MPIIFaceGaze MAE | 4.06° | 4.06° |
| 推理时间 | 20ms | 25ms |
| 优势 | 空间关系建模 | 全局上下文建模 |
| 劣势 | 训练复杂 | 需要大数据量预训练 |
选型建议:
- 车载DMS:GazeCapsNet(更快、更轻量)
- 科研实验:GazeTR-Hybrid(更强全局建模)
六、嵌入式部署
6.1 模型量化
1 | |
6.2 TensorRT加速
1 | |
七、总结
7.1 核心结论
| 结论 | 说明 |
|---|---|
| Hybrid > Pure | CNN + Transformer混合架构优于纯Transformer |
| 少即是多 | 2层Transformer足够,更多层反而过拟合 |
| 参数效率 | 13.5M参数实现SOTA精度 |
| 泛化性强 | 跨数据集性能优于Pure |
7.2 GazeTR vs GazeCapsNet
| 场景 | 推荐 |
|---|---|
| 量产车载DMS | GazeCapsNet |
| 科研实验 | GazeTR-Hybrid |
| 边缘设备 | GazeCapsNet量化版 |
| 高精度需求 | GazeTR-Hybrid + ResNet-50 |
参考文献
- Cheng, Y., & Lu, F. “Gaze Estimation using Transformer.” ICPR, 2022.
- Dosovitskiy, A., et al. “An Image is Worth 16x16 Words.” ICLR, 2021.
- Zhang, X., et al. “ETH-XGaze: A Large Scale Dataset.” ECCV, 2020.
本文是IMS视线估计算法系列文章之一,上一篇:GazeCapsNet详解
GazeTR Transformer架构详解:Pure与Hybrid的较量
https://dapalm.com/2026/03/13/2026-03-13-GazeTR-Transformer视线估计架构详解/