首页
党政
- 党网 · 时政
- 人事
- 反腐
- 理论
- 党史
- 党建
要闻
- 经济 · 科技
- 社会 · 法治
- 文旅 · 体育
- 健康 · 生活
- 国际
- 军事
- 港澳
- 台湾
- 教育
- 房产
- 科普
观点
互动
可视化
- 视频
- 图片
- 图解
地方
- 京
- 津
- 冀
- 晋
- 蒙
- 辽
- 吉
- 黑
- 沪
- 苏
- 浙
- 皖
- 闽
- 赣
- 鲁
- 豫
- 鄂
- 湘
- 粤
- 桂
- 琼
- 渝
- 川
- 黔
- 滇
- 藏
- 陕
- 甘
- 青
- 宁
- 新
- 鹏
- 雄安
举报专区
多语言
- |
合作网站
登录

退出

人体关键点检测模型研究

刘昊宇，韩梓轩

2019年01月16日10:05 | 来源：人民网研究院

小字号

摘要：依赖于“大数据”技术与高性能处理器的蓬勃发展，深度学习以其强大的鲁棒性和有效性成为了计算机视觉、自然语言处理等人工智能分支领域中占据主导地位的研究方法。人体关键点检测是计算机视觉中一个极具挑战性的研究。可用于：动作识别，异常行为检测，安防等。本文旨在提出一种基于深度学习的模型，解决人体关键点检测任务中存在的诸多问题，提升检测效果。该任务目前主要存在人体关键点尺度差异性问题。本文引入目标检测领域中流行的特征金字塔网络（Feature pyramidnetwork），通过在多尺度的特征图上提取特征并将高层语义特征与底层图像特征融合的方式解决此问题。本文在改进后设置了对比实验以验证假设。最终提出了一个新模型——特征金字塔注意力沙漏模型，其在MPII和LSP人体关键点检测数据集上取得了目前最好的检测效果。

关键词：人体关键点检测；特征金字塔网络；注意力模型

1 课题背景与研究意义

1.1 课题背景

21世纪是大数据的时代，云计算的出现、移动设备的普及，使得人们在举手投足间就会产生大量的数据。这些数据的形式多种多样，可以是微信中的语音信息，可以是微博中的文字信息，也可以是淘宝上的订单信息。这些数据体量巨大但是结构复杂，如何高效的利用这些数据成为摆在研究人员面前的一个重要问题。与此同时，以CPU、GPU为代表的高性能处理器的迅猛发展也为高效利用这些数据提供了充足的动力。

人体关键点检测是计算机视觉中一个具有重要意义的任务，2014年以前，研究者解决该任务的方法主要是使用SIFT，HOG等特征算子提取特征，结合图结构模型来检测关节点位置。随着深度学习与计算机视觉诸多任务结合并取得显著成果，研究者开始尝试将其与人体关键点检测任务结合。深度学习可以通过训练得到复杂的映射关系，从而提取更复杂的高阶特征代替SIFT，HOG等人工特征。深度学习具有更强的鲁棒性和表达能力，在物体识别，目标检测领域所取得的成果已经印证了这些优点。所以深度学习恰恰可以解决上述两个缺点。本文将分析基于深度学习的人体关键点检测算法的发展，并对其进行改进。

1.2 人体关键点检测简介及意义

人体关键点检测也称人体姿态估计。如图1-1所示，人体姿态估计的任务是要在给定的图片中定位人体的身体关键部件，例如头部，颈部，肩部，手部等。在不同数据集上，需要检测的具体部位不同。例如，本文中使用的MPII数据集上定义的关键点共有16个。它是更高级别计算机视觉任务的基础。其应用场景主要有：

（1）人类行为识别：人类行为识别是指在给定的图片或者图片序列中识别出人体的动作意图。如图1-2所示，给定一张图片要求计算机识别出图中人类的动作，上面一行得到的结果为走路，下面一行得到的结果为打高尔夫。人类行为识别是计算机视觉领域一个极其重要的研究方向。其被广泛的应用于监控，娱乐，人机交互，图像和视频搜索等领域。

（2）人机交互：人机交互是指设计一种计算机和用户进行信息传递的接口程序。人机交互处于计算机科学，行为科学，设计，媒体研究的交叉点。一个常见的例子是：研究人员可以通过给计算机安装摄像头的方式使其可以获取人类用户的图像信息，再通过对图像信息的识别使得计算机理解用户的意图，从而达到交互的目的。

（3）服装解析：服装解析是指在一张图像中解析出人体上不同的服装，如图1-3所示。解析服装的视觉算法具有各种各样的潜在应用价值，更好的理解图像，人物服饰识别，或基于内容的图像检索等。但是，由于人体姿态的复杂性，解析服饰的任务并不容易。

2 基于特征金字塔网络的改进方法

针对上一章提出的关于人体关键点检测中尺度差异性的问题，本章通过将特征金字塔网络（Feature pyramid network, FPN）融合到堆叠沙漏模型解决这一问题。特征金字塔网络在不同尺寸的特征图上提取特征，然后又将不同尺寸的特征图进行融合，可以提取到多尺度的特征，从而解决之前提到的尺度差异性问题。本章首先详细描述尺度差异性问题，并分析其原因。然后，给出具体模型设计细节和实验结果。

2.1 人体关键点尺度差异性问题

人体关键点检测任务中一个突出的问题就是由于视角不同和人体姿态的复杂而引起的关键点尺度差异性问题。具体如图2-1所示。

这两张图片均出自于LSP数据集，但是由于视角和人体姿态的不同，造成了人体关键点的尺度差异，即使已经对图片进行裁剪和缩放处理，使得人体区域大致位于图像中心，并且人体的尺寸近似。但是依然可以观察到，图2-1 (a)中人体头部的尺寸远大于脚部的尺寸，图2-1 (b)中人体头部的尺寸远小于脚部的尺寸。这对于检测人体关键点的模型来说是一个挑战，如果模型不能学习到这些尺度差异性下的高纬度一般性就无法准确的定位关节点。这个问题不仅会影响CNN深层的语义信息，而且也会影响CNN浅层的图像特征。

2.2 基础模型——堆叠沙漏模型的分析

本文在1.2节中提到，受ResNet残差学习思想的启发，Newell等人与2016年提出了堆叠沙漏模型（Stacked Hourglass）。堆叠沙漏模型的目标是在推理阶段尽量在所有尺寸的特征图上捕获信息。首先通过若干个池化层和卷积层执行下采样，并通过反卷积进行上采样处理。然后将这两个过程中相同尺寸相同的特征图相加，就像ResNet中所做的相加一样。重复这种“先下后上”处理来建立“堆叠沙漏”网络，并在每个“沙漏”后进行中间监督训练。

该模型在当年取得了最好的效果，并且其结构清晰，阶段式的网络结构具有很好的可扩展性。其基础模块沙漏模块具有高度对称性，结构清晰易于修改。2016年后许多模型均是在其基础上进行修改的结果。所以本文选取堆叠沙漏网络为基础网络，在其基础上进行改进。该模型将贯穿本文的始终，下面详细介绍其网络结构和训练方法。

其网络结构如图1-11所示，图中的每个沙漏形状即代表一个沙漏模块。一个沙漏模块的网络结构如图2-2所示，其中每一个方块代表了一个残差模块，方块的大小表示输入特征图的尺寸，残差模块网络结构如图2-3 (a)所示。

沙漏模块具有对称性，首先是自底向上过程进行若干次卷积和最大值池化操作得到最小尺寸的特征图。在每次最大值池化操作后网络产生一个包含若干卷积的分支，用于下一阶段的特征图融合。该分支的输入是最大值池化操作之前的特征图。得到最小尺寸图后，网络开始进行第二阶段的自顶向下过程，即上采样和特征融合过程。上采样使用反卷积操作，将上采样后的特征图与网络分支上同尺寸的特征图进行元素级的相加，得到融合的特征图。残差模块使1ⅹ1和3ⅹ3步长为1的卷积层，不改变输入特征图的尺寸。输出特征纬度和卷积核大小如图2-3 (a)所示，图中虚线代表跳层连接。

图2-3 (b)表示的是中间监督过程，图中虚线是跳层连接，沙漏图形代表一个沙漏模块，图中蓝色的方块代表生成的HeatMap，用其与ground truth计算范数损失。使用1ⅹ1的卷积将HeatMap重新变为与特征与相同的通道数并且相加输入到下一个沙漏模块。

在作者的实现中，输入图片被裁剪和缩放成256ⅹ256的分辨率。图片首先进入一个步长为2卷积核大小为7的卷积层，随后连接一个残差模块和一个最大值池化层将特征图分辨率降到64ⅹ64。随后连接若干个沙漏模块，每个沙漏模块进行中间监督训练。所有沙漏模块内部最小特征图尺寸为4ⅹ4，所有残差模块生成的特征图通道数均为256。