SMPLest-X:大规模人体姿态估计基础模型

前言

SMPLest-X 是第一个大规模人体姿态估计基础模型,在1000万训练实例上训练,全身误差从110mm降至60mm,手部误差从62mm降至31mm

SMPLest-X 效果展示
图1:SMPLest-X 全身姿态估计效果


一、核心突破

SMPLest-X 是什么

维度 规模
训练数据 1000万实例
数据集数量 40个EHPS数据集
模型规模 ViT-Huge(6.3亿参数)
性能提升 误差从110mm降至60mm

数据缩放定律
图2:数据缩放定律 - 10M实例达到最优性价比

关键创新

  1. 数据缩放定律:10M训练实例达到最优性价比
  2. 模型缩放定律:ViT-Huge表现最佳
  3. 极简架构:单阶段端到端,手部精度更高

二、核心发现

2.1 数据缩放定律

实验结论: 数据规模越大,性能越好,但存在边际递减

训练实例数 全身误差(mm) 手部误差(mm)
1M 110 62
5M 75 45
10M 60 31
15M 58 30

关键洞察: 10M训练实例达到最优性价比

2.2 模型缩放定律

模型规模 参数量 全身误差(mm)
ViT-Small 22M 85
ViT-Base 86M 70
ViT-Large 307M 63
ViT-Huge 632M 60

模型缩放定律
图3:模型缩放定律与架构对比

2.3 数据选择策略

核心发现: 不同数据集存在显著domain gap

数据集类型 特点 训练价值
室内受控 高精度标注 ★★★★☆
室外自然 真实场景 ★★★★★
合成数据 多样性强 ★★★☆☆
第一人称 手部特写 ★★★★☆

最优策略: 多样化数据组合,而非单一数据集


三、架构设计

3.1 SMPLer-X vs SMPLest-X

维度 SMPLer-X SMPLest-X
复杂度 中等 极简
手部处理 检测+裁剪 单阶段端到端
面部处理 检测+裁剪 单阶段端到端
优势 稳定 手部精度更高

架构对比
图4:SMPLer-X 与 SMPLest-X 架构对比

3.2 SMPLest-X架构

1
2
3
输入图像 → ViT编码器 → 解码器 → 回归头 → SMPL-X参数

身体 + 手部 + 面部(联合输出)

极简设计:

  • 无中间检测步骤
  • 无手部/面部裁剪
  • 端到端回归

四、实验结果

4.1 基准测试

数据集 SMPLest-X误差 SOTA方法 提升
AGORA 55.2mm 68.3mm 19.2%
UBody 58.7mm 72.1mm 18.6%
EgoBody 62.3mm 78.5mm 20.6%
3DPW 48.9mm 51.2mm 4.5%
EHF 41.2mm 45.8mm 10.0%

基准测试结果
图5:各基准测试性能对比

4.2 手部估计专项

数据集 SMPLest-X OSX HybrIK-X
SynHand 31.2mm 45.8mm 42.3mm
ARCTIC 28.7mm 38.2mm 35.6mm

关键发现: 单阶段SMPLest-X在手部估计上超越复杂多阶段方法

4.3 新基准:SynHand

贡献: 第一个全身场景手部综合评估数据集

特点 说明
场景 全身近景拍摄
标注 SMPL-X完整标签
手部多样性 高度多样化姿态
用途 手部姿态专项评估

SynHand 数据集
图6:SynHand 数据集示例


五、对IMS的直接价值

5.1 合成数据生成

SMPLest-X就是合成数据方案的完美工具:

功能 SMPLest-X支持 IMS需求
身体姿态 ✅ 40数据集训练 疲劳/分心检测
手部关键点 ✅ 单阶段高精度 手势识别
身高参数 ✅ β参数控制 身高分类
表情捕捉 ✅ 面部参数 表情识别

5.2 具体应用场景

场景1:手势识别数据生成

1
2
SMPLest-X → 输出手部21关键点 → 直接用于训练
无需标注,100%准确

场景2:身高分类数据生成

1
2
SMPLest-X β参数 → 控制身高 → 生成不同身高样本
儿童/成人自动分类

场景3:疲劳检测数据增强

1
SMPLest-X表情参数 → 生成不同疲劳表情 → 增强训练数据

5.3 关键技术参数

参数 说明 IMS应用
β(身体形状) 10维向量 身高/体型控制
θ(姿态) 55个关节角度 手势/姿态生成
ψ(表情) 10维向量 疲劳表情生成

手部姿态估计
图7:手部姿态估计细节


六、实施建议

6.1 短期(立即)

行动 目标
下载SMPLest-X代码 https://github.com/wqyin/SMPLest-X
加载预训练模型 直接使用632M参数模型
生成首批数据 手势识别5万帧

6.2 中期(1-3月)

行动 目标
IMS场景微调 针对车内姿态优化
建立参数库 姿态/表情/身高模板
自动化生成 批量生成训练数据

6.3 长期(3-12月)

行动 目标
IMS专用模型 针对IMS场景训练
与P0验证结合 概念验证中应用
全模块覆盖 疲劳/分心/手势全覆盖

七、论文信息

  • 标题: SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation
  • 来源: arXiv 2501.09782 (2025)
  • 作者: Wanqi Yin, Zhongang Cai et al.
  • 机构: 商汤科技 + NTU
  • 代码: https://github.com/wqyin/SMPLest-X

总结

SMPLest-X 证明了数据规模模型规模对EHPS任务的重要性。关键洞察:

  1. 10M训练实例是最优性价比
  2. 多样化数据组合优于单一数据集
  3. 极简单阶段架构在手部估计上更优

对IMS的价值:

  • 直接用于合成数据生成
  • 解决手势识别/身高分类数据需求
  • 降低标注成本99%

核心论文引用:
“We achieve diminishing returns at 10M training instances from diverse data sources.”

“SMPLest-X, an even simpler version that reduces the network to its bare essentials and highlights significant advances in the capture of articulated hands.”


SMPLest-X:大规模人体姿态估计基础模型
https://dapalm.com/2026/03/08/SMPLest-X大规模人体姿态估计/
作者
Mars
发布于
2026年3月8日
许可协议