东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。

香港中大-东升国际官网科技结合尝试室AAAI录用论文详解:ST-GCN时空图卷积网络模型

2018-02-11

近日,香港中大-东升国际官网科技结合尝试室的最新 AAAI 会讨论文「Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition」提出了一种新的 ST-GCN,即时空图卷积网络模型,用于解决基于人体骨架关键点的人类作为鉴别问题。该步骤除了思路新鲜之表,在尺度的作为鉴别数据集上也获得了较大的机能提升。本文中我们将具体介绍该论文中提出的步骤,并介绍一些打算中的进一步工作等。


作者:颜思捷,熊元骏,林达华


ferhj.jpg

图 1. ST-GCN 的模型结构示意图


rehjh.gif

5tgtrjuk.gif

图 2. 对 ST-GCN 最末卷积层的响应

进行可视化的了局

(via GitHub)


基于骨架关键点的作为鉴别


随着如 Microsoft Kinect、OpenPose 等人体姿势检测系统的成熟,基于骨架关键点的人类作为鉴别成了推算机视觉,出格是人类作为鉴别钻研中的一个沉要工作。该工作要求输入在陆续的视频帧中检测到的人体骨架关键点序列,输出在产生的人类作为类别。作为作为鉴别系统中的沉要模态,基于骨架的作为鉴别已经展示出沉要的实用价值与钻研价值。本论文正是针对这个工作提出了一种全新的深度进建模型,我们称之为「时空图卷积网络」(ST-GCN)。


构建时空图


ST-GCN 的基础是时空图结构。从骨架关键点序列构建时空图 (spatial-temporal graph) 的设法起源于我们对现有的骨架作为鉴别步骤以及图像鉴别步骤的观察。我们发现,现有的基于骨架的作为鉴别步骤中为了提高鉴别精度无数引入了一些空间结构信息,蕴含相邻关键点的衔接关系或身段部件等(如手-手肘-肩膀的衔接关系)。


为了建模这些空间信息,现有步骤时时使用 RNN 等序列模型来遍历相连的关键点。这就要求模型设计者界说一种遍历的规定,或者手动界说一些身段部件。我们指出,在这种设计中,很可贵到一个最优的遍历规定或者部件划分。但是,我们发现,关键点之间天然的衔接关系,其实组成了一个天然的图结构(graph)。那么,我们怎么可能高效地使用这些图结构来进行作为鉴别呢?


在 ST-GCN 的工作中我们提出,能够从输入的关键点序列中成立一个时空图(spatial-temporal graph)。这个图结构依照如下的规定来构建。


1. 在每一帧内部,依照人体的天然骨架衔接关系机关空间图;

2. 在相邻两帧的一样关键点衔接起来,组成时序边;

3. 所有输入帧中关键点组成节点集(node set),步骤 1、2 中的所有边组成边集(edge set),即组成所需的时空图。


在依照上述规定得到的时空图上,我们天然地保留了骨架关键点的空间信息,并使得关键点的活动轨迹(trajectory)以时序边的大局得到阐发。这使得我们能够设计一个统一的模型来齐全地对这些信息进行建模。在图 3 中我们展示了一种时空图的结构。


rfrhnrt.jpg


图 3. NTU-RGBD 数据集上成立的时空图示例


图结构上的卷积网络


为了在时空图上对人类作为的信息进行分析,我们提出使用图卷积网络 (graph convolutional networks – GCN)。图上的神经网络模型是机械进建钻研的一个热点领域。本文中使用的图卷积网络即是图上神经网络中的一种,其在网络分析、文本分类等问题都有成功利用。


在介绍图卷积网络的概想之前,我们先来回首图像上的卷积操作。在图像上,卷积操作使用一些固定大幼的卷积核(filter/kernel)来扫描输入的图像。如图 3 所示,在每个扫描的中心地位像素左近,抽取一个与权沉矩阵大幼一样的像素矩阵,将这些像素上的特点向量按空间挨次拼接并与卷积核的参数向量做内积以得到该地位的卷积输出值。在这里,「左近像素」能够界说为像素网格(grid)上的一个邻域(neighborhood)。将图像上的卷积操作推广到肆意结构的图结构上时,我们同样能够界说任何一个节点的邻域,与一系列权沉矩阵。这就是图卷积网络的根基思想。


但是,与图像分歧的是,通常的图结构上若是使用邻接矩阵(Adjacency matrix)来界说邻域时,每个节点的邻域中节点的数量并不是固定的(思考补 0 时,图像上像素左近的像素是总是固定的)。这就使得我们我们很难确定: 1)必要使用的卷积核的参数维度;2)若是分列权沉矩阵与邻域内的节点以进行内积运算。在原始的 GCN 文章中,作者提出了将内积操作变为这样一个操作:使用统一个向量与所有邻域内的点上的特点向量推算内积并将了局求均值。这使得: 1)卷积核的参数能够确定为一个固定长度的向量;2)不必要思考邻域内节点的挨次。这个设计使得 GCN 能够在肆意衔接关系的图上使用,并在一些工作,如网络分析和半监督进建中获得了较好的机能。


必要把稳的是,图上神经网络除了上面提到基于图的空间结构的思路之表,还有一种基于谱分析 (spectral analysis) 的机关思路。关于这一类步骤,请见参考文件【2】。在 ST-GCN 中,我们也使用了基于图的空间结构的思路。


时空图卷积网络与作为鉴别


要将图卷积网络使用于基于骨架关键点的作为鉴别中,我们还必要仔细分析这个工作的特点与难点,而不是直接将已有步骤生搬硬凑。在本文中,我们指出了原始 GCN 的一个沉要性质:该文中提出的卷积操作,内容高等价于先将邻域内所有节点的特点向量求均匀,再与卷积核的参数向量推算内积。这衷旖均操作在骨架作为鉴别会遇到一个沉要问题,即:它无法建模关键点之间相对地位变动的情况,或所谓的「微分性质」(differential properties)。因而基于原始 GCN 的模型,鉴别机能并不会很梦想。


针对这个问题,我们以为,要真正加强的模型的机能,必须跳出原始 GCN 的「均匀思想」。为相识决这个问题,我们将理解了图像上的卷积操作理解为把中心像素相邻的像素集中(邻域集-neighbor set)依照空间挨次,如从左至右,从上至下,划分为一系列集中。在图像的情景中,每个集中正好蕴含一个像素。这些集中就组成了邻域集的一个划分(partition)。卷积核的参数只与这个划分中的子集个数以及特点向量长杜仔关。那么在通常的图结构中,只有界说了某种划分规定(partitioning strategy),我们就也能够参照图像卷积来界说卷积核的参数。类似的思想也利用在了如 deformable CNN 等近期工作中。


有了这个思想,我们就能够针对骨架作为鉴别,甚至任何图卷积网络所面对的问题来界说有针对性的卷积操作。而界说卷积操作就简化为了设计对应的划分规定。对一个存在 K 个子集的划分规定,卷积核的参数蕴含 K 个部门,每个部门参数数量与特点向量一样。依然以图像上的卷积为例,在一个窗口大幼为 3x3 的卷积操作中,一个像素的邻域(窗口)依照空间挨次被划分为 9 个子集(左上,上,右上,左,中,右,左下,下,右下),每个子集蕴含一个像素。卷积核的参数蕴含 9 个部门,每个部门与特点图(feature map)的特点向量长度(number of channel)一致。也就是说,图像卷积能够诠释为通常图上卷积在规定网格图(regular grid)上的一种利用。


为了在时空图上进行骨架作为鉴别,我们提出了三种空间的划分规定。


第一种称为「唯一划分」(uni-labeling)。其与原始 GCN 一样,将节点的 1 邻域划分为一个子集。


第二种称为「基于距离的划分」(distance partitioning),它将节点的 1 邻域分为两个子集,即节点自身子集与邻节点子集。引入基于距离的划分使得我们能够分析骨架关键点之间的微分性质。


进一步,我们针对作为识此外特点,提出了第三种,「空间构型划分」(spatial configuration partitioning)。这种划分规定将节点的 1 邻域划分为 3 个子集,第一个子集为节点自身,第二个为空间地位上比本节点更靠近整个骨架沉心的邻节点集中,第三个则为更远离沉心的邻节点集中。成立这种划分规定在凭据活动分析的钻研中对向心活动与离心活动的界说。三种划分规定的示意图请见图 4。


4wegrh.jpg


图 4.三种空间的划分规定示意图


除了统一帧内部的空间划分规定,在功夫上,由于时序边组成了一个网格,我们能够直接使用类似于时序卷积(temporal convolution)的划分规定。最终,时空图上使用的划分规定得到的子集集中会是空间划分与时序划分的笛卡尔积。


界说好了时空图上的卷积操作,我们就能够设计卷积网络了。为了展示 ST-GCN 的机能,我们直接从一个已有的时序卷积网络结构的基础上设计了文中用到的 ST-GCN 的网络结构。我们将所有时序卷积操作转为时空图的卷积操作,每一个卷积层的输出是一个时空图,图上每一个节点保有一个特点向量。最终,我们归并所有节点上的特点并使用线性分类层进行作为分类。训练使用尺度的 SoftMax 交叉熵损失函数进行监督。参数进建使用尺度随机梯度降落算法(SGD)。


尝试了局


我们在两个性质迥异的骨架作为鉴别数据集上进行了尝试来验证 ST-GCN 的机能。


第一个数据集是 Kinetics-Skeleton,它来自于最近由 Google DeepMind 贡献的 Kinetics 视频人类作为鉴别数据集。我们使用 OpenPose 姿势估计软件得到视频中所有的骨架关键点信息来组成 Kinetics-Skeleton。该数据集共有约 30 万个视频与 400 类作为。


第二个数据集是 NTU-RGB+D,这是三维骨架作为识此外尺度测试数据集。它蕴含了用 Microsoft Kinect 采集的三维骨架序列。该数据集共有约 6 万个视频,60 个作为类别。这个数据集蕴含了两个测试和谈,即跨表演人(X-Sub)与跨视角(X-View)和谈。在两个数据集的三个测试和谈上,ST-GCN 相比现有步骤在鉴别精度上均有很大提高,具体了局可见表图 1。


rehgtrh.jpg

表图 1. 骨架作为鉴别了局


除了得到更好的机能,我们也具体分析了三种划分规定对鉴别精度的影响。如表 2 所示,正如我们所进展的,距离划分与空间构型划分相对于原始 GCN 使用的唯一划分在精度上均有较大提高。这证了然引入新的划分规定的沉要性。出格的,针对作为鉴别工作设计的空间构型划分获得了最高的机能,并被最后利用于 ST-GCN 的有关尝试中。


我们还将 ST-GCN 的最后一层神经元响应进行了可视化(表 2)。在了局中我们能够显著看到 ST-GCN 可能追踪并深刻分析在某个功夫段与作为最有关的身段部门的活动,这诠氏缢为何 ST-GCN 相对于其他不关注空间结构的现有步骤能得到很大的机能提高。

rfergrth.jpg


表图 2.分歧划分规定的影响


思虑与最后的话


回首 ST-GCN 的提出,我们总结了两个沉要的思想逾越。


第一个是从将骨架序列理解为一帧帧的骨架演进为将整个视坡讽解为一个整体的时空图,这使得用一个统一的模型来分析作为成为可能。


第二个是从原始 GCN 的朴素思想演进为使用基于划分规定的卷积界说。这个思想使得我们能够超过原始 GCN 并得到巨大的机能提升,该思想也在 MoNet【3】的工作中被提及过。我们将其准则化为 集中的划分操作。这也使得这个思想能够利用其他的分析工作中。


在将来的工作中,我们打算使用 ST-GCN 的矫捷性来处置更多的图分析问题。同时,针对作为鉴别工作,一个天然的演进就是在骨架关键点坐标的基础上引入视觉特点,如图像特点,甚至场景图(scene-graph)等,并将它们统一在 ST-GCN 的分析框架下。东升国际官网最终指标则是一个机能更高,更拥有可诠释性的统一的视频作为鉴别模型。


有关文件:

1.「Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition」, Sijie Yan, Yuanjun Xiong and Dahua Lin, AAAI 2018.

2.「Convolutional neural networks on graphs with fast localized spectral filtering.」,Defferrard, et. al., NIPS 2016.

3.「Geometric deep learning on graphs and manifolds using mixture model CNNs.」, Monti, Federico, et al. CVPR 2017.


Github 代码:

https://github.com/yysijie/st-gcn

5热风人事部j.jpg


产品试用
填写此单一表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作同伴招募
【网站地图】