- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
ICCV 2021 _ 当图卷积赶上多视角3D人体姿势估计
Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images
Size Wu1,3 Sheng Jin2,3 Wentao Liu3 Lei Bai4 Chen Qian3 Dong Liu1 Wanli Ouyang4 1University of Science and Technology of China 2The University of Hong Kong 3SenseTime Research and Tetras.AI 4The University of Sydney
Wsz32741010@mail.ustc.edu.cn {jinsheng, liuwentao, qianchen}@sensetime.com baisanshi@gmail.com dongeliu@ustc.edu.cn wanly.ouyang@uni.sydney.edu.au
Part 1 动机和布景

图 1 本文算法的可视化展示
多视角的多人3D姿势估计,指从多个相机(已标定)拍摄的图像中,复原出该场景的所有的人体骨架。它是视频作为分析和高级人机交互的基础,在活动分析、影视特效等领域拥有沉要的利用远景。
目前多视角3D人体姿势估计有如下两种主流规划:

图 2 匹配+三角化沉建算法的示意图
(a) 匹配+三角化沉建(Triangulation):首先,检测各个视角的 2D 人体骨架;再利用几何干系推算距离,进行多视角人体的匹配;最终,利用多视角的2D坐标和相机参数,推算出3D坐标。
代表步骤:MVPose[1]
弊端:(1)步骤的精度极度依赖 2D 检测了局。2D 检测的误差会影响匹配的成效,谬误的匹配进一步导致异常的沉建;2D 的误差也会影响 3D 沉建的精度。(2)匹配部门和三角沉建部门并不是数据驱动的,没有监督训练和损失反传。

图 3 3D空间体素化算法的示意图
(b) 3D空间体素化:将 3D 空间等距地划分为一个个幼网格,通过概率模型或者 3D 卷积神经网络(CNN)检测关键点。
代表步骤:VoxelPose[2]
弊端:(1)空间体素化的精度会受到网格大幼的造约,会产生量化误差;(2)空间体素化在一样的精度下,推算复杂度随空间大幼三次方增长,无法利用于较大场景。

图 4 本文算法的示意图
(c) 本文步骤:我们结合两者的优势,提出了一种基于图卷积神经网络的,自顶向下(Top-down)的两阶段算法。东升国际官网整体算法流程,分为两个阶段:3D人体中心点定位+3D人体姿势估计。

图 5 本文步骤的整体框架图
1. 针对3D人体中心点定位,我们选取了proposal-refine "由粗到精"的战术。首先进杏妆粗筛选”,预测一系列候选中心点地位(MMG);再在候选中心点左近“精密”搜索(CRG),得到精确的人体中心点定位了局。
利益:(1)现有步骤在融合多视角的特点时,通常直接级联或池化各个视角的特点向量,忽视了视角之间的互有关系。我们利用图卷积网络,可能有效利用跨视角的特点。(2)东升国际官网"由粗到精"战术,可能有效提升模型的预测精度。(3)搜索空间被限度在了候选中心点左近,与现实的空间大幼无关,大大降低了运算复杂度。
2. 针对3D人体姿势估计,我们同样选取"由粗到精"的战术,首吓酌模型预测初始3D人体姿势,再共同利用人体骨架结构信息和多视角特点,来优化预测的了局(PRG)。
利益:我们选取了"由粗到精"战术。图卷积神经网络PRG,可能直接对人体骨架结构进行建模,利用骨架约束,优化了模型的预测了局。
Part 2: 步骤
2.1 中心点候选区域天生:Multi-view Matching Graph(MMG)
我们设计了多视角匹配图神经网络(MMG),判断分歧视角的两两2D中心点,是否属于统一幼我。随后,对于属于统一幼我的一对关键点,两两沉建出一个3D坐标作为候选中心点。

图 6 MMG?槭疽馔
建图(Graph Construction):我们利用各个视角检测得到的人体2D中心点,来机关跨视角图模型。图模型的“节点”为 各个视角检测到的2D人体中心点;节点的特点为:2D人体中心点地位的图像特点。图模型的“边”,两两衔接分歧视角的节点,两个节点对应的2D中心点的极线距离作为边特点。
信息传递(Message Passing):利用GNN来进行有关性特点的进建。我们使用EdgeConv来搭建图卷积神经网络模型,对所机关好的Graph 进行卷积,不休更新节点的特点;通过图的表征,模型同时利用了几何信息(边特点)和图像信息(节点特点),高效的融合多视角特点,匹配精度远高于直接利用极线匹配。
判断边的属性:训练一个边判断器(Edge Discriminator),对每一对中心点(即一个边)进行判断,判断这一对中心点是否属于统一幼我。
提出候选点:每一对被判断为统一幼我的中心点,通过三角化沉建出一个3D候选点。
2. 2 中心点坐标优化:Center Refinement Graph(CRG)
有了候选中心点后,我们以候选点为球心的球形领域作为搜索空间,矫捷地在候选区域采样。对于每个采样点,将采样点投影到各个视角并在相应地位提取特点。接着利用中心点优化图模型(CRG),通过多个视角节点的衔接,实现了高效的多视角特点融合,能够正确地判断采样点是否为人体中心点。

图7 CRG?槭疽馔
搜索空间:以候选点为球心的球形领域作为搜索空间,所有搜索空间的并集作为总的搜索空间。
采样:我们能够进行适应性的采样,先在搜索空间中等距采样,用中心点图卷积网络检测中心点,在检测到的中心点周围进一步精密采样,以获得更精确的地位。
建图(Graph Construction):对每一个3D 采样点,构建一个图模型。其中,节点和节点特点别离对应 3D采样点投影到各个视角后的2D地位 以及 该地位的图像特点。图中的边,对各个节点进行全衔接。
信息传递(Message Passing):利用GCN来进行有关性特点的进建。我们使用EdgeConv来搭建图卷积神经网络模型,利用多层图卷积不休更新节点的特点。
判断图的属性:首先对图中节点进行全局池化,得到图的特点,再训练一个多层感知机MLPs,判断图的属性:判断采样点是否为人体中心,即输出每个采样点为人体中心的相信度。
非极大值抑造 (NMS):得到每个采样点的相信度后,通过NMS操作,获得优化后的人体中心点坐标。
2. 3 人体姿势优化:Pose Regression Graph(PRG)

图8 PRG?槭疽馔
我们选取"由粗到精"的战术,来估计人体3D姿势。首先,我们选取现有的姿势估计步骤[2],得到初始的3D人体姿势(Initial 3D Pose);为了提升人体关键点的预测精度,本文提出了人体姿势回归图模型(Pose Regression Graph, PRG),利用图卷积,高效地融合多视角的特点和人体的拓扑结构信息(头和脖子相连,手和胳膊相连等),回归出每个关键点坐标的建改值。
建图(Graph Construction):首先将初始3D人体姿势,投影到各个相机视角,得到各个视角的2D人体姿势。利用各个视角下的2D人体关键点,机关跨视角姿势图(Multi-view Pose Graph)。
图模型的每个“节点”代表各个视角的每个2D关键点。节点的特点蕴含:关键点的类别信息,2D关键点地位处的图像特点,以及初始3D人体姿势中对应关键点的相信度。
图模型的“边”代表节点之间的关系,共蕴含两种类型的边:跨视角且一样类型关键点间的衔接边 和 单视角且分歧类型关键点间的衔接边。
信息传递(Message Passing):利用GCN来进行有关性特点的进建。我们使用EdgeConv来搭建图卷积神经网络模型,对所机关好的Graph 进行卷积,不休更新节点的特点;实现多视角特点的更新和融合后,对一样类型的关键点特点进行最大值池化,得到一副人体骨架。
回归建改值(Regression):使用回归模型,预测出 Nx3 维的偏移向量(其中,N代表关键点个数),代表相对于初始3D人体姿势的建改值。
Part 3: 尝试了局
我们在 CMU Panoptic 和 Shelf 两个主流的数据集上做了尝试。定量尝试批注,我们提出的算法,获得了最优的精度。并且在推算量和耗时方面,东升国际官网步骤相比之前的SOTA也有显著优势。

表1 CMU Panoptic 数据集的定量了局对比

表2 Shelf 数据集的定量了局对比
Part 4: 总结与瞻望
在本文中,我们提出了一套自顶向下的多视角3D人体姿势估计解决规划。我们针对该工作,精心设计了各类“多视角”图卷积神经网络(MMG, CRG, PRG)来提取人体结构性特点。我们在各数据集上的尝试,也充分证了然我们算法的有效性。关于对将来的瞻望,我们将持续钻研把算法扩大到时序,实现更高效的多视角人体姿势跟踪。在步骤层面,若何越发合理地利用相机的几何信息,设计更高效的图卷积神经网络,是一个沉要的改进方向。
Reference:
[1] Dong, J., Jiang, W., Huang, Q., Bao, H., & Zhou, X. (2019). Fast and robust multi-person 3d pose estimation from multiple views. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7792-7801).
[2] Tu, H., Wang, C., & Zeng, W. (2020). Voxelpose: Towards multi-camera 3d human pose estimation in wild environment. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I 16 (pp. 197-212). Springer International Publishing.





返回