【CVPR2023】《A2J-Transformer：用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

最新推荐文章于 2026-06-26 18:40:13 发布

原创最新推荐文章于 2026-06-26 18:40:13 发布 · 1.2k 阅读

7 GEO检测

标签

#transformer #3d #深度学习

收录于

手部重建前沿论文解析专栏收录该内容

6 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

这篇论文的标题是《A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image》，作者是Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, 和 Joey Tianyi Zhou。他们来自华中科技大学、阿里巴巴集团、新加坡科学、技术和研究局（A*STAR）的前沿人工智能研究中心（CFAR）以及高性能计算研究所（IHPC）。

摘要

3D交互手部姿态估计（IHPE）是一个挑战性的任务，因为手部存在严重的自遮挡和相互遮挡，两只手的外观模式相似，以及从2D到3D的病态关节位置映射等问题。为了解决这些问题，作者提出了A2J-Transformer，这是一种基于Transformer的非局部编码-解码框架，用于改进A2J（一种最先进的基于深度的单手3D姿态估计方法），以适应交互手部情况的RGB域。A2J-Transformer的主要优势包括：局部锚点通过自注意力机制建立全局空间上下文感知，以更好地捕获关节的全局线索；每个锚点被视为可学习的查询，具有自适应特征学习能力，以提高模式拟合能力；锚点位于3D空间而非2D，以利用3D姿态预测。
在这里插入图片描述