最新公告
  • 欢迎光临数据科学与编程,我们是数据学科学兴趣交流小组立即加入我们
  • 人体姿态估计调研

    基于视觉的单目人体姿势估计是计算机视觉中最基本和最具挑战性的问题之一,旨在从输入图像或视频序列中获取人体姿势。本文调查2014年以来发布的最新基于深度学习的2D和3D人体姿势估计方法,并总结了挑战,方法,基准数据集,评估指标,性能比较,并讨论了一些有前途的未来研究方向。

     

    01

    前言

    1.1 挑战
    单目人体姿势估计具有一些独特的特性和挑战。如图所示:人体姿态估计调研
    主要分为三个方面:
    • 灵活的身体姿态,复杂的关节和肢体可能导致自我遮挡或罕见、复杂的姿势。

    • 多样化的外观,包括不同的衣服和自相似肢体。

    • 复杂的环境,可能导致前景遮挡,各种视角和镜头视图中的截断。

    1.2 方法
    根据是否使用设计的人体模型,可以将这些方法分为生成方法(基于模型)和判别方法(无模型)。

    根据从哪个级别(高级抽象或低级像素)开始处理,它们可以分为自上而下(top-down)的方法和自下而上(bottom-up)的方法。

    人体姿态估计调研

    (1)生成方法 VS 判别方法

    生成方法和判别方法之间的主要区别是方法是否使用人体模型。
    根据人体模型的不同表示,可以以不同的方式处理生成方法。判别方法直接学习从输入源到人体体态空间的映射,而无需使用人体模型。
    判别方法通常比生成方法要快,但对于从未受过训练的姿势而言,判别方法的鲁棒性较差。
    (2)自上而下 VS 自下而上
    对于多人姿势估计,根据预测的起点,人体姿态估计方法通常可以分为自上而下和自下而上的方法。
    自上而下的方法从高级抽象开始,首先是检测人,然后在边界框中生成人的位置,然后对每个人进行姿势估计。相反,自下而上的方法首先在输入图像中预测每个人的所有身体部位,然后通过人体模型拟合或其他算法对它们进行分组。
    随着图像中人数的增加,自上而下方法的计算成本显著增加,而自下而上方法则保持稳定。但是,如果有些人重叠很大,则自下而上的方法面临着将相应的身体部位分组的挑战。
    (3)基于回归 VS 基于检测
    基于不同问题的表述,基于深度学习的人体姿态估计方法可以分为基于回归或基于检测的方法。
    基于回归的方法将输入图像直接映射到人体关节的坐标或人体模型的参数。
    基于检测的方法基于两种广泛使用的表示将身体部位作为检测目标:图像块(image patches)和关节位置的热图。
    从图像到关节坐标的直接映射非常困难,因为它是一个高度非线性的问题,而小区域表示则提供了具有更强鲁棒性的密集像素信息。与原始图像尺寸相比,小区域表示的检测结果限制了最终关节坐标的准确性。
    (4)单阶段 VS 多阶段
    基于深度学习的一阶段方法旨在通过使用端到端网络将输入图像映射到人体姿势,
    而多阶段方法通常在多个阶段中预测人体姿势,并伴有中间监督。
    例如,一些多人姿势估计方法首先检测人的位置,然后为每个检测到的人估计人的姿势。其他3D人姿势估计方法则首先在2D平面中预测关节位置,然后将其扩展到3D空间。
    单阶段方法的训练比多阶段方法更容易,但中间约束更少。
    1.3 人体模型
    人体建模是人体姿态估计的关键组成部分。人体是一个灵活而复杂的非刚性物体,具有运动结构,身体形状,表面纹理,身体部位或身体关节的位置等许多特定特征。
    基于不同级别的表示和应用场景,如下图所示,人体姿态估计中共有三种常用的人体模型:基于骨骼的模型,基于轮廓的模型和基于volume的模型。

    人体姿态估计调研

    (1)基于骨架

    基于骨骼的模型通常采用10到30点来表示一组关节位置,基于骨骼的模型也可以描述为一幅图,其中顶点指示骨骼结构中关节。这种人体拓扑结构非常简单灵活,在2D和3D人体姿态估计和人体姿态数据集中得到了广泛应用。虽然具有表现简单灵活的明显优点,但还存在很多不足,例如缺乏纹理信息,因而导致缺乏人体宽度和轮廓信息。

    (2)基于轮廓的模型

    基于轮廓的模型在早期的人体姿态估计方法中得到了广泛的应用,它包含了肢体和躯干的粗略宽度和轮廓信息。人体部位大约用矩形或人物轮廓的边界表示。广泛使用的基于轮廓的模型包括硬纸板模型(cardboard model)和活动形状模型(Active Shape Models (ASMs) )。

    (3)基于 volume 的模型

    3D人体形状和姿势通常由基于体积的几何形状或网格模型表示。较早的用于建模身体部位的几何形状包括圆柱体,圆锥形等。基于 volume 的现代模型以网格形式表示,通常通过3D扫描捕获。广泛使用的基于体积的模型包括人的形状完成和动画(Shape Completion and Animation of People,SCAPE),蒙皮多人线性模型(Skinned Multi-Person Linear model, SMPL)和统一的变形模型(unified deformation model)

    02

    2D人体姿态估计

    CNN类型方法可分为两类:基于回归的方法基于检测的方法
    基于回归的方法尝试通过端到端框架学习从图像到运动身体关节坐标的映射,并且通常直接产生关节坐标。
    基于检测的方法旨在预测身体部位的大概位置或关节,通常由一系列矩形窗口(每个包括特定的身体部位)或热图(每个图都通过以关节位置为中心的2D高斯分布来指示一个关节位置)进行监督。
    这两种方法中的每一种都有其优点和缺点。仅是一个点的直接回归学习是一个难题,因为它是一个高度非线性的问题,并且缺乏鲁棒性,而热映射学习则由密集的像素信息监督,从而获得了更好的鲁棒性。与原始图像尺寸相比,由于CNN中的池化操作,热图表示的分辨率要低得多,这限制了联合坐标估计的准确性。从热图获得联合坐标通常是不可微的过程,会阻塞要端到端训练的网络。

    表3总结了2D单人姿势估计的最新代表性工作,最后一列是MPII测试集上PCKh@0.5得分的比较。

    人体姿态估计调研

    2.1 2D 单人姿态估计
    2.1.1 基于回归的模型
    DeepPose首先尝试训练类似AlexNet的深度神经网络,以非常简单的方式从完整图像中学习关节坐标,而无需使用任何人体模型或部位检测器,如图3所示。此外,级联架构细化回归器用于细化上一阶段的裁剪图像从而获进一步提升结果。

    人体姿态估计调研

    2.1.2 基于检测的模型
    为了提供比关节坐标更多的监督信息并促进CNN的训练,最近的工作采用热图来作为关节的真实值。
    如图4所示,每个关节占据一个热图通道,其二维高斯分布以目标关节位置为中心。由于热图表示比坐标表示更健壮,因此最近的大部分研究都基于热图表示。

    人体姿态估计调研

    2.2 2D 多人姿态估计
    与单人姿势估计不同,多人姿势估计需要处理检测任务和定位任务,因为在输入图像中没有提示有多少人。
    通常,估计方法可以分为自上而下的方法和自下而上的方法
    自上而下的方法通常使用人检测器在输入图像中获取一组人的边界框,然后直接利用现有的单人姿势估计器来预测人的姿势。预测的姿势严重依赖于人检测的精度。整个系统的运行时间与人数成正比。
    自下而上的方法直接预测所有人的所有2D关节,然后将它们组装成独立的骨架。在复杂环境中正确组合关节点是一项艰巨的研究任务。表4总结了自上而下和自下而上类别中基于深度学习的2D多人姿势估计方法的最新工作。
    下表是主流的多人姿态估计方法,最后一列是COCO test-dev数据集的平均精度(AP)评分。

    人体姿态估计调研

    2.2.1 自上而下方法
    自上而下的人体姿态估计方法的两个最重要的组成部分是人体区域proposal检测器和一个单人姿态估计器。大多数研究专注于基于现有人体检测器的人体估计,例如Faster R-CNN,Mask R-CNN,FPN。

    2.2.2 自下而上的方法

    自下而上的人体姿态估计方法的主要组成部分包括人体关节检测和候选关节分组。大多数算法分别处理这两个组件。
    【小结】
    目前,自下而上方法的处理速度非常快,有些方法可以实时运行。但是,性能可能会受到复杂背景和人为遮挡的很大影响。自上而下的方法在几乎所有基准数据集中都实现了最先进的性能,而处理速度受到检测到的人员数量的限制。

     

    03

    3D人体姿态估计

     

    深度神经网络能从单目摄像头估计密集或稀疏点(关节)。
    3.1 3D单人姿态估计
    与2D HPE相比,3D HPE更具挑战性。首先,需要预测人体关节的深度信息,其次,不容易获得3D HPE的训练数据。
    3.1.1. Model-free methods
    Model-free 方法不采用人体模型作为预测目标或中间线索。该方法可以大致分为两种类型:1)直接映射图像到3D姿势,以及2)从2D姿势估计方法中间预测的2D姿势之后估计深度。

    人体姿态估计调研

    3.1.2. Model-based methods
    Model-based 的方法通常采用参数主体模型或模板,以根据图像估算人类的姿势和形状。

    一些工作采用了SMPL的人体模型(Loper等, 2015年),并尝试从图像中估算3D参数。有些工作指出直接学习SIMPLE的参数很难,因此,预测了中间线索作为约束。

    人体姿态估计调研

    3.2 3D 多人姿态估计

    单目3D多人姿势估计大都使用3D单人姿势估计和其他深度学习方法。

    人体姿态估计调研

    04

    Dataset and evaluation protocols

    人体姿态估计调研

    人体姿态估计调研

    最后,老话一句,觉得文章不错的话,记得分享、点赞、在看三连击哦。

    本站上原创文章未经作者许可,不得用于商业用途,仅做学习交流使用,本站免责声明。转载请注明出处,否则保留追究法律责任的权利。《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权
    数据科学与编程 » 人体姿态估计调研

    发表评论

    • 52会员总数(位)
    • 320资源总数(个)
    • 25本周发布(个)
    • 3 今日发布(个)
    • 333稳定运行(天)

    提供最优质的博文资源集合

    立即阅览 了解详情