源码 https://github.com/QitaoZhao/PoseFormerV2摘要最近,基于变换的方法在连续的2D到3D提升人体姿态估计中取得了显着的成功。作为一项开创性的工作,PoseFormer捕获了每个视频帧中人体关节的空间关系以及级联Transformer层跨帧的人体动态,并取得了令人印象深刻的性能。然而,在真实的场景中,PoseFormer及其后续产品的性能受到两个因素的限制:(a)输入关节序列的长度;(B)二维联合检测的质量。现有方法通常对输入序列的所有帧施加自关注,当为了获得更高的估计精度而增加帧数目时会造成巨大的计算负担,并且它们对2D联合检测器有限的能力所带来的噪声