SMPLest-X：大规模人体姿态估计基础模型

前言

SMPLest-X 是第一个大规模人体姿态估计基础模型，在1000万训练实例上训练，全身误差从110mm降至60mm，手部误差从62mm降至31mm。

SMPLest-X 效果展示
图1：SMPLest-X 全身姿态估计效果

一、核心突破

SMPLest-X 是什么

维度	规模
训练数据	1000万实例
数据集数量	40个EHPS数据集
模型规模	ViT-Huge（6.3亿参数）
性能提升	误差从110mm降至60mm

图2：数据缩放定律 - 10M实例达到最优性价比

关键创新

数据缩放定律：10M训练实例达到最优性价比
模型缩放定律：ViT-Huge表现最佳
极简架构：单阶段端到端，手部精度更高

二、核心发现

2.1 数据缩放定律

实验结论： 数据规模越大，性能越好，但存在边际递减

训练实例数	全身误差(mm)	手部误差(mm)
1M	110	62
5M	75	45
10M	60	31
15M	58	30

关键洞察： 10M训练实例达到最优性价比

2.2 模型缩放定律

模型规模	参数量	全身误差(mm)
ViT-Small	22M	85
ViT-Base	86M	70
ViT-Large	307M	63
ViT-Huge	632M	60

图3：模型缩放定律与架构对比

2.3 数据选择策略

核心发现： 不同数据集存在显著domain gap

数据集类型	特点	训练价值
室内受控	高精度标注	★★★★☆
室外自然	真实场景	★★★★★
合成数据	多样性强	★★★☆☆
第一人称	手部特写	★★★★☆

最优策略： 多样化数据组合，而非单一数据集

三、架构设计

3.1 SMPLer-X vs SMPLest-X

维度	SMPLer-X	SMPLest-X
复杂度	中等	极简
手部处理	检测+裁剪	单阶段端到端
面部处理	检测+裁剪	单阶段端到端
优势	稳定	手部精度更高

图4：SMPLer-X 与 SMPLest-X 架构对比

3.2 SMPLest-X架构

1
2
3

输入图像 → ViT编码器 → 解码器 → 回归头 → SMPL-X参数
                                    ↓
                        身体 + 手部 + 面部（联合输出）

极简设计：

无中间检测步骤
无手部/面部裁剪
端到端回归

四、实验结果

4.1 基准测试

数据集	SMPLest-X误差	SOTA方法	提升
AGORA	55.2mm	68.3mm	19.2%
UBody	58.7mm	72.1mm	18.6%
EgoBody	62.3mm	78.5mm	20.6%
3DPW	48.9mm	51.2mm	4.5%
EHF	41.2mm	45.8mm	10.0%

基准测试结果
图5：各基准测试性能对比

4.2 手部估计专项

数据集	SMPLest-X	OSX	HybrIK-X
SynHand	31.2mm	45.8mm	42.3mm
ARCTIC	28.7mm	38.2mm	35.6mm

关键发现： 单阶段SMPLest-X在手部估计上超越复杂多阶段方法

4.3 新基准：SynHand

贡献： 第一个全身场景手部综合评估数据集

特点	说明
场景	全身近景拍摄
标注	SMPL-X完整标签
手部多样性	高度多样化姿态
用途	手部姿态专项评估

图6：SynHand 数据集示例

五、对IMS的直接价值

5.1 合成数据生成

SMPLest-X就是合成数据方案的完美工具：

功能	SMPLest-X支持	IMS需求
身体姿态	✅ 40数据集训练	疲劳/分心检测
手部关键点	✅ 单阶段高精度	手势识别
身高参数	✅ β参数控制	身高分类
表情捕捉	✅ 面部参数	表情识别

5.2 具体应用场景

场景1：手势识别数据生成

1 2	`SMPLest-X → 输出手部21关键点 → 直接用于训练无需标注，100%准确`

场景2：身高分类数据生成

1 2	`SMPLest-X β参数 → 控制身高 → 生成不同身高样本儿童/成人自动分类`

场景3：疲劳检测数据增强

1	`SMPLest-X表情参数 → 生成不同疲劳表情 → 增强训练数据`

5.3 关键技术参数

参数	说明	IMS应用
β（身体形状）	10维向量	身高/体型控制
θ（姿态）	55个关节角度	手势/姿态生成
ψ（表情）	10维向量	疲劳表情生成

图7：手部姿态估计细节

六、实施建议

6.1 短期（立即）

行动	目标
下载SMPLest-X代码	https://github.com/wqyin/SMPLest-X
加载预训练模型	直接使用632M参数模型
生成首批数据	手势识别5万帧

6.2 中期（1-3月）

行动	目标
IMS场景微调	针对车内姿态优化
建立参数库	姿态/表情/身高模板
自动化生成	批量生成训练数据

6.3 长期（3-12月）

行动	目标
IMS专用模型	针对IMS场景训练
与P0验证结合	概念验证中应用
全模块覆盖	疲劳/分心/手势全覆盖

七、论文信息

标题： SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation
来源： arXiv 2501.09782 (2025)
作者： Wanqi Yin, Zhongang Cai et al.
机构： 商汤科技 + NTU
代码： https://github.com/wqyin/SMPLest-X

总结

SMPLest-X 证明了数据规模和模型规模对EHPS任务的重要性。关键洞察：

10M训练实例是最优性价比
多样化数据组合优于单一数据集
极简单阶段架构在手部估计上更优

对IMS的价值：

直接用于合成数据生成
解决手势识别/身高分类数据需求
降低标注成本99%

核心论文引用：
“We achieve diminishing returns at 10M training instances from diverse data sources.”

“SMPLest-X, an even simpler version that reduces the network to its bare essentials and highlights significant advances in the capture of articulated hands.”

论文解读 > 计算机视觉

#合成数据 #SMPLest-X #人体姿态估计 #基础模型 #SMPL-X

SMPLest-X：大规模人体姿态估计基础模型

https://dapalm.com/2026/03/08/SMPLest-X大规模人体姿态估计/

作者

Mars

发布于

2026年3月8日

许可协议

OpenClaw 升级 + GPT-5.4 配置 + network_error 排查实录上一篇

SynAD：用合成数据增强端到端自动驾驶模型下一篇