SMPLest-X:大规模人体姿态估计基础模型
前言
SMPLest-X 是第一个大规模人体姿态估计基础模型,在1000万训练实例上训练,全身误差从110mm降至60mm,手部误差从62mm降至31mm。

图1:SMPLest-X 全身姿态估计效果
一、核心突破
SMPLest-X 是什么
| 维度 | 规模 |
|---|---|
| 训练数据 | 1000万实例 |
| 数据集数量 | 40个EHPS数据集 |
| 模型规模 | ViT-Huge(6.3亿参数) |
| 性能提升 | 误差从110mm降至60mm |

图2:数据缩放定律 - 10M实例达到最优性价比
关键创新
- 数据缩放定律:10M训练实例达到最优性价比
- 模型缩放定律:ViT-Huge表现最佳
- 极简架构:单阶段端到端,手部精度更高
二、核心发现
2.1 数据缩放定律
实验结论: 数据规模越大,性能越好,但存在边际递减
| 训练实例数 | 全身误差(mm) | 手部误差(mm) |
|---|---|---|
| 1M | 110 | 62 |
| 5M | 75 | 45 |
| 10M | 60 | 31 |
| 15M | 58 | 30 |
关键洞察: 10M训练实例达到最优性价比
2.2 模型缩放定律
| 模型规模 | 参数量 | 全身误差(mm) |
|---|---|---|
| ViT-Small | 22M | 85 |
| ViT-Base | 86M | 70 |
| ViT-Large | 307M | 63 |
| ViT-Huge | 632M | 60 |

图3:模型缩放定律与架构对比
2.3 数据选择策略
核心发现: 不同数据集存在显著domain gap
| 数据集类型 | 特点 | 训练价值 |
|---|---|---|
| 室内受控 | 高精度标注 | ★★★★☆ |
| 室外自然 | 真实场景 | ★★★★★ |
| 合成数据 | 多样性强 | ★★★☆☆ |
| 第一人称 | 手部特写 | ★★★★☆ |
最优策略: 多样化数据组合,而非单一数据集
三、架构设计
3.1 SMPLer-X vs SMPLest-X
| 维度 | SMPLer-X | SMPLest-X |
|---|---|---|
| 复杂度 | 中等 | 极简 |
| 手部处理 | 检测+裁剪 | 单阶段端到端 |
| 面部处理 | 检测+裁剪 | 单阶段端到端 |
| 优势 | 稳定 | 手部精度更高 |

图4:SMPLer-X 与 SMPLest-X 架构对比
3.2 SMPLest-X架构
1 | |
极简设计:
- 无中间检测步骤
- 无手部/面部裁剪
- 端到端回归
四、实验结果
4.1 基准测试
| 数据集 | SMPLest-X误差 | SOTA方法 | 提升 |
|---|---|---|---|
| AGORA | 55.2mm | 68.3mm | 19.2% |
| UBody | 58.7mm | 72.1mm | 18.6% |
| EgoBody | 62.3mm | 78.5mm | 20.6% |
| 3DPW | 48.9mm | 51.2mm | 4.5% |
| EHF | 41.2mm | 45.8mm | 10.0% |

图5:各基准测试性能对比
4.2 手部估计专项
| 数据集 | SMPLest-X | OSX | HybrIK-X |
|---|---|---|---|
| SynHand | 31.2mm | 45.8mm | 42.3mm |
| ARCTIC | 28.7mm | 38.2mm | 35.6mm |
关键发现: 单阶段SMPLest-X在手部估计上超越复杂多阶段方法
4.3 新基准:SynHand
贡献: 第一个全身场景手部综合评估数据集
| 特点 | 说明 |
|---|---|
| 场景 | 全身近景拍摄 |
| 标注 | SMPL-X完整标签 |
| 手部多样性 | 高度多样化姿态 |
| 用途 | 手部姿态专项评估 |

图6:SynHand 数据集示例
五、对IMS的直接价值
5.1 合成数据生成
SMPLest-X就是合成数据方案的完美工具:
| 功能 | SMPLest-X支持 | IMS需求 |
|---|---|---|
| 身体姿态 | ✅ 40数据集训练 | 疲劳/分心检测 |
| 手部关键点 | ✅ 单阶段高精度 | 手势识别 |
| 身高参数 | ✅ β参数控制 | 身高分类 |
| 表情捕捉 | ✅ 面部参数 | 表情识别 |
5.2 具体应用场景
场景1:手势识别数据生成
1 | |
场景2:身高分类数据生成
1 | |
场景3:疲劳检测数据增强
1 | |
5.3 关键技术参数
| 参数 | 说明 | IMS应用 |
|---|---|---|
| β(身体形状) | 10维向量 | 身高/体型控制 |
| θ(姿态) | 55个关节角度 | 手势/姿态生成 |
| ψ(表情) | 10维向量 | 疲劳表情生成 |

图7:手部姿态估计细节
六、实施建议
6.1 短期(立即)
| 行动 | 目标 |
|---|---|
| 下载SMPLest-X代码 | https://github.com/wqyin/SMPLest-X |
| 加载预训练模型 | 直接使用632M参数模型 |
| 生成首批数据 | 手势识别5万帧 |
6.2 中期(1-3月)
| 行动 | 目标 |
|---|---|
| IMS场景微调 | 针对车内姿态优化 |
| 建立参数库 | 姿态/表情/身高模板 |
| 自动化生成 | 批量生成训练数据 |
6.3 长期(3-12月)
| 行动 | 目标 |
|---|---|
| IMS专用模型 | 针对IMS场景训练 |
| 与P0验证结合 | 概念验证中应用 |
| 全模块覆盖 | 疲劳/分心/手势全覆盖 |
七、论文信息
- 标题: SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation
- 来源: arXiv 2501.09782 (2025)
- 作者: Wanqi Yin, Zhongang Cai et al.
- 机构: 商汤科技 + NTU
- 代码: https://github.com/wqyin/SMPLest-X
总结
SMPLest-X 证明了数据规模和模型规模对EHPS任务的重要性。关键洞察:
- 10M训练实例是最优性价比
- 多样化数据组合优于单一数据集
- 极简单阶段架构在手部估计上更优
对IMS的价值:
- 直接用于合成数据生成
- 解决手势识别/身高分类数据需求
- 降低标注成本99%
核心论文引用:
“We achieve diminishing returns at 10M training instances from diverse data sources.”“SMPLest-X, an even simpler version that reduces the network to its bare essentials and highlights significant advances in the capture of articulated hands.”
SMPLest-X:大规模人体姿态估计基础模型
https://dapalm.com/2026/03/08/SMPLest-X大规模人体姿态估计/