2024.4.28 机器学习周报

引言

Abstract

文献阅读

1、题目

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

2、引言

我们提出了一种方法来有效地检测图像中的多个人的2D姿态。该方法使用非参数表示，我们称之为部分亲和场（PAF），学习将身体部位与图像中的个体相关联。该架构对全局上下文进行编码，允许贪婪的自下而上的解析步骤，在实现实时性能的同时保持高准确性，而不管图像中的人数。该架构旨在通过同一顺序预测过程的两个分支共同学习零件位置及其关联。并且在性能和效率方面都大大超过了MPII MultiPerson基准测试的最新结果。

3、创新点

提出了一种实时方法来检测图像中多个人的2D姿势。所提出的方法使用非参数表示（称为部分亲和场（PAF））来学习将图像中的身体部位与个体相关联
仅使用PAF进行优化，而不是同时进行PAF和身体部位定位优化，运行时其性能和准确性均会得到大幅提高。

4、总体流程

上图展示了整个流程，输入是w×h的彩色图片 (a)，输出是二维的带有每个人的人体关键点位置的图像。首先是一个前馈网络，它同时预测出关于身体部分位置的二维置信图S (b)和一组关于部分亲和度的2D向量场L (c)，其中二维向量域的集合 L 编码了部分的关联的程度。集合S具有J个置信度图，S =（S1,S2,...SJ），每个部分一个映射即。集合L=（L1,L2,...LC）有C个向量域，每个四肢对应一个向量域。(这里×2可能是因为向量表示起点和终点，起点在一个w×h中，重点在一个w×h中)，LC中的每个图像位置编码一个2D矢量。最后，通过贪婪推理 (d)对置信度图和亲和域进行解析，以输出图像中所有人的2D关键点。

5、网络结构

本文的网络结构如上图所示，整个网络是两个分支，多stage的卷积神经网络。其中第一个分支用来预测一个叫做confidence map的东西，可以看作是一个打分的map。而第二个分支用于预测本文提出的PAFs。每一个分支都有着多个stage，每个stage的输入是上一个stage两个branch的输出和最初的图像输入进行融合。

在本文中，使用 S 来表示预测人体某个部分的位置的confidence maps，用 L 来表示part affinities，他是一连串的2D向量场。

其中 J 代表有 J 个 confidence maps, one per part。C代表C vector fields, one per limb。每个在 $L_{c}$ 中的图像位置encode了一个2D向量，如下图所示

再次回看网络结构图，输入的 F 是输入的图像被VGG-19的前10层经过处理和fine-tuned之后的特征图。

对于第一个stage来说，文章定义 $S^{1}=\rho^{1}(F)$ ， $L^{1}=\phi ^{1}(F)$ 。对于之后的每一个stage，S 和 F 都可以从下面两个式子得到

其中 $\rho$ , $\phi$ 都是网络中的卷积神经网络。

5.1、损失函数

使用了两个损失函数，分别对应于每个stage的两个branch：

在上式当中 $S_{j}^{*}$ 是 groundtruth part confidence map也被称作heat map，而 $L_{c}^{*}$ 是groundtruth part affinity vector field。 W 是一个binary mask，当位置p的annotation缺失的时候 W(p) = 0 ，否则就为 1，所以未标记的人物关节点不会影响模型的学习过程。