首页 - 最近大事件 - pool,干货 | 全方位解读全景切割技能, 从使命界说到网络构建与猜测,手机电视

pool,干货 | 全方位解读全景切割技能, 从使命界说到网络构建与猜测,手机电视

发布时间:2019-04-03  分类:最近大事件  作者:admin  浏览:239

AI 科技谈论按,本文作者刘环宇,系浙江大学操控科学与工程自动化系硕士,旷视科技研讨院算法研讨员,全景切开算法 OANet 榜首作者,研讨方向包含全景切开、语义切开等。一起,他也是 2018 COCO + Mapillary 全景切开竞赛旷视 Detection 组冠军团队成员。

本文原载于知乎,雷锋网获授权转载。

前语

在核算机视觉中,图画语义切开(Semantic Segmentation)的任务是猜想每个像素点的语义类别;实例切开(Instance Segmentation)的任务是猜想每个实例物体包含的像素区域。全景切开 [1] 最先由 FAIR 与德国海德堡大学联合提出,其任务是为图画中每个像素点赋予类别 Label 和实例 ID,生成大局的、一致的切开图画。

接下来咱们将全面解读全景切开任务,下面这张思想导图有助于咱们全体掌握全景切开任务特性:

全景切开解读思想导图

首要,咱们将剖析全景切开任务的点评方针及根本特色,并介绍现在最新的研讨发展;然后介绍咱们发表于 CVPR 2019 的作业 Occlusion Aware Network (OANet),以及旷视研讨院 Detection 组参加的 2018 COCO Panoptic Segmentation 竞赛作业介绍;终究对全景切开当时研讨进行总结与剖析。

任务与前沿发展解读

全景切开任务,从任务方针上可以分为 object instance segmentation 子任务与 stuff segmentation 子任务。全景切开办法一般包含三个独立的部分:object instance segmentation 部分,stuff segmentation 部分,两子分支成果交融部分;一般 object instance segmentation 网络和 stuff segmentation 网络彼此独立,网络之间不会同享参数或许图画特征,这种办法不只会导致核算开支较大,也迫使算法需求运用独立的后处理程序交融两支猜想成果,并导致全景切开无法运用在工业中。

因而,可以从以下几个视点剖析与优化全景切开算法

(1)网络结构建立;

(2)子任务交融;

(3)全景输出猜想;

这三个问题别离对应的是全景切开算法中的三个重要环节,下面咱们将别离剖析这些问题存在的难点,以及近期相关作业提出的改善办法与处理方案。

全景切开点评方针

FAIR 研讨团队 [1] 为全景切开定了新的点评规范 PQ (panoptic segmentation) 、SQ ( pool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视segmentation quality)、RQ (recognition quality),核算公式如下:

PQ 点评方针核算公式

其间,RQ 是检测中运用广泛的 F1 score,用来核算全景切开中每个实例物体辨认的准确性,SQ 标明匹配后的猜想 segment 与标示 segment 的 mIOU,如下图所示,只有当猜想 segment 与标示 segment 的 IOU 严厉大于 0.5 时,以为两个 segment 是匹配的。

全景切开猜想成果与实在标示匹配图解 [1]

从上面的公式可以看到,在猜想与标示匹配后的切开质量 SQ 核算时,点评方针 PQ 只重视每个实例的切开质量,而不考虑不同实例的巨细,即大物体与小物体的切开成果对终究的 PQ 成果影响相同。Yang et al. [6] 留意到在一些运用场景中更重视大物体的切开成果,如肖像切开中大图的人像切开、自动驾驶中近距离的物体等,提出了 PC (Parsing Covering) 点评方针,核算公性感丝袜式如下:

PC 点评方针核算公式

其间,R, R' 别离标明对应类别的猜想 segments 与实在 segments,|R| 标明对应类别的实例在实在标示中像素点数量,Ni标明类别为 i 的实在标示像素点总和。经过对大的实例物体赋予更大的权重,使点评方针可以更显着地反映大物体的切开方针。

网络结构建立

因为 object instance segmentation 子任务与 stuff segmentation 子任务别离归于两个不同的视觉猜想任务,其输入数据及数据增强办法、练习优化战略与办法、网络结构与办法具有较大的不同,怎么将两个子任务交融并一致网络结构、练习战略,是处理该问题的要害。

FAIR 研讨团队提出了一种简练有用的网络结构 Panoptic FPN [2],在网络结构层面将语义切开的全卷积网络(FCN)[3] 和实例切开网络 Mask RCNN [4] 一致起来,规划了单一网络一起猜想两个子任务,网络结构如下图所示。

Panoptic FPN 网络结构图

该网络结构可以有用猜想 object instance segmentation 子任务与 stuff segmentation 子任务。在 Mask RCNN 网络与 FPN [5] 的根底上,作者规划了简略而有用的 stuff segmentation 子分支:在 FPN 得到的不同层级的特征图根底上,运用不同的网络参数得到相同巨细的特征图,并对特征图进行加法兼并,终究运用双线性插值上采样至原图巨细,并进行 stuff 类别猜想。

MIT 与谷歌等联合提出 DeeperLab [6],运用 bottom-to-up 的办法,一起完成 object instance segmentation 子任务与 stuff segmentation 子任务,其网络结构如下图所示:

DeeperLab 网络结构图

该网络包含了 encoder、decoder 与 prediction 三个环节,其间,encoder 和 decoder 部分对两个子任务均是同享的,为了增强 encoder 阶段的特征,在 encoder 的结尾运用了 ASPP (Atrous Spatial Pyramid Pooling) 模块 [7];而在 decoder 阶段,首要运用 11 卷积对低层特征图与 encoder狗蛋大兵1国语高清 输出的特征图进行降维,并运用内存耗费较少的 space-to-depth [8, 9] 操作代替上采样操刁难低层特征图进行处理,然后将低层特征图(巨细为原图 1/4)与 encoder 输出的特征图(巨细为原图 1/16)拼接起来;终究,运用两层 77 的大卷积核添加感春之望受野,然后经过 depth-to-space 操作下降特征维度。

为了得到方针实例猜想,作者选用相似 [10, 11, 12] 的运用根据要害点标明的办法,如下图所示,在 object instance segmentation 子分支头部,别离猜想了 keypoint heatmap(图 a)、long-range offset map(图 b)、short-range offset map(图 c)、孙耀奇middle-range offset map(图 d)四种输出,得到像素点与每个实例要害点之间的联络,并依此交融构成类别不可知的不同实例,终究得到全景切开的结山东岳嘉电子有限公司果。

object instance segmentation 子分支头部猜想方针

子任务交融

尽管经过特征同享机制与网络结构规划,可以将 object instance 魔兽国际搬运待定segmentation 子任务与 stuff segmentation 子任务一致起来,可是这两个子分支之间的彼此联络与影响并没有得到充沛的探求,例如:两个子分支的任务是否可以到达彼此增益或许单向增益的作用?或许怎么规划将两个子分支的中心输出或许预兽人之肖墨测相关起来?这一部分问题咱们可以一致将它称作两个子任务的彼此进步与促进。

中科院自动化研讨所提出了 AUNet [13],文中规划了 PAM(Proposal Attention Module)与 MAM(Mask Attention Module)模块,别离根据 RPN 阶段的特征图与 object instance segmentation 输出的远景切开区域,为 stuff segmentation 供给了物体层级留意力与像素层级留意力,其网络结构图如下图所示:

AUNet 网络结构图

为了使 object instance segmentation 的猜想输出与 stuff segmentation 猜想输出坚持一致性,丰田研讨院规划了 TASCNet [14],其网络结构如下图所示:

TASCNet 网络结构图

网络首要将 object instance segmentation 子分支得到的实例远景掩膜区域,映射到原图巨细的特征图中,得到全图尺度下的实例远景掩膜区域,并与 stuff segmentation 猜想的实例远景掩膜进行比照,运用 L2 丢失函数最小化两个掩膜的残差。

全景输出猜想

Object instance segmentation 子分支与 stuff segmentation 子分支的猜想成果在交融的进程中,一般经过启发式算法(heuristic algorithm)处理相冲突的像素点,例如简略地以 object instance segmentation 子分支的猜想成果为准,并以 object instance segmentation 子分支的检测框得分作为不同实例的兼并根据。

这种办法根据简略的先验逻辑判别,并不能较好地处理全景切开杂乱的兼并状况,因而,怎么规划有用的模块处理 objectpool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视 instance segmentation 子分支与 stuff segmentation 子分支到全景切开输出的交融进程,也是全景切开任务中的重要问题。

Uber 与港中文联合提出了 UPSNet [15],其网络结构图如下图所示:

UPSNet 网络结构图

将 object instance segmentation 子分支与 stuff segmentation 子分支的输出经过映射改换,可得到全景头部输出的特征张量,该张量巨细为 (Ninst+ Nstuff)HW,其间,N_{inst} 为动态变量,标明一张图画中实例的数量,Nstuff标明 stuff 类pool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视别个数,关于每张图画其数值是相同的,下文运用 Xthing和 Xstuff别离标明这两种特征张量。此外,网络对像素进行了不知道类别的猜想(Unknown Prediction),然后使得网络可以将部分像素点判别为不知道类别并在测验的时分进行疏忽,防止做出过错的类别导致 PQ 方针下降。

在得到 object instance segmentation 子分支与 stuff segmentation 子分支的输出后,经过如下图所示的改换,映射成 Xthing和 Xstuff

panoptic segmentation head 示意图

Xstuff可以直接从不规矩类别切开的输出中提取,Xthing中的第 i 个实例的掩膜区域可由 Xmaski+ Ymaski获得,其间 Xmaski标明第 i 个实例对应的实在标示框与标示类别在 stuff segmentation 子分支输出截取的掩膜区域,Ymaski标明第 i 个实例对应的 instance segmentation 子分支得到的掩膜区域映射到原图的掩膜区域,终究运用规范的逐像素点的穿插熵丢失函数对全景头部输出的张量进行监督练习。

Occlusion Aware Network 专栏解读

论文链接:

An End-to-End Network for Panoptic Segmentation

Motivation

在全景切开相关试验中,咱们发现,根据现有的启发式算法进行 object instance segmentation 子分支与 stuff segmentation 子分支的猜想兼并,会呈现不同实例之间的遮挡现象。为了处理不同实例之间的遮挡问题,咱们提出了 Occlusion Aware Network(OANet),并规划了空间排序模块(Spatial Ranking Module),该模块可以经过网络学习得到新的排序分数,并为全景切开的实例切开供给排序根据。

网络结构规划

咱们提出的端到端的全景切开网络结构如下图所示,该网络交融 object instance segmentation 子分支与 stuff segmentation 子分支的根底网络特征,在一个网络中一起完成全景切开的练习与猜想。在练习进程中,关于 stuff segmentation 咱们一起进行了 object 类别与 stuff 类别的监督练习,试验标明这种规划有助于 stuff 的猜想。

OANet 网络结构图

选用一种相似语义切开的办法,咱们提出一个简略但十分有用的算法,称作 Spatial Ranking Module,可以较好地处理遮挡问题,其网络结构如下所示:

Spatial Ranking Module 网络结构图

咱们首要将输入的实例切开成果映射到原图巨细的张量之中,该张量的维度是实例物体类别的数量,不同类别的实例切开掩膜会映射到对应的通道上。张量中一切像素点方位的初始化数值为零,实例切开掩膜映射到的方位其值设为 1;在得到该张量后,运用大卷积核 [16] 进行特征提取,得到空间排序得分图;终究,咱们核算出每个实例目标的空间排序得分,如下所示:

这儿,Si; j; cls标明类别为 cls 的、像素点(i; j)中的得分值,需求留意的是 Si; j; cls已被归一化为概率,mi; j 是掩膜像素点指示符,标明像素点(i; j)是否归于实例,每个实例的空间排序得分由猜想的掩码区域一切像素点的排序分数均匀得到,Pobjs 标明终究得到的每个实例的排序得分,并将此得分用于全景输出。

如下图所示,若运用现在通用的启发式交融算法,即仅根据实例切开的检测框的置信度作为遮挡处理根据,如图所示,行人检测框的置信度要显着高于领带检测框的置信度,当两个实例发作堆叠时,领带的实例会被行人实例遮挡;当参加空间排序得分模块后,咱们经过该模块可以猜想得到两个实例的空间排序分数,根据空间排序分数得到的排序会更可靠我爱酸酸乳,PQ 会有更大改善。

空间排序模块流程示意图

试验剖析

咱们对 stuff segmentation 分支的监督信号进行了剥离试验,如下表所示,试验标明,一起进行 object 类别与 stuff 类别的监督练习,可以为 stuff segmentation 供给更多的上下文信息,并改善猜想成果。

为了探求 object instance segmentation 子分支与 stuff segmentation 子分支的同享特征办法,咱们规划了不同的同享结构并进行试验,如下表所示,试验标明,同享根底模型特征与 FPN 结构的衔接处特征,可以进步全景切开方针 PQ。

为了探求咱们提出的 spatial ranking module 算法的有用性,咱们在不同根底模型下进行了试验,如下表所示,其间,w/ spatial ranking module 标明运用咱们提出的空间排序模块得到的成果,从试验成果中可以看到,空间排序模块可以在不同的根底模型下大幅进步全景切开的评测成果。

为了测验不同卷积设置对学习处理遮挡的影响,进行了如下试验,成果标明,进步卷积的感触野可以协助网络学习获得更多的上下文特征,并获得更好的成果。

下表是本文提出的算法与现有揭露方针的比较,从成果中可以看到,本文提出的算法可以获得最优的成果。

总结与剖析

从上文的文献剖析来看,全景切开任务的不同重要问题均得到了广泛探求,可是全祼体景切开任务仍然是有挑战性、前沿的场景了解问题,现在仍存在一些问题需求进行探求:

榜首,因为全景切开可经过别离猜想实例切开子任务与不规矩类别切开子任务、两个子任务猜想成果交融得到,整个算法流程中包含较多的细节与后处理操作,包含 segments 的过滤、启发式交融算法、ignore 像素点的判别等。这些细节对全景切开方针有较大的影响,在必定程度上也阻止了不同算法的比照与评测;

第二,全景切开评测方针尽管可以查利墨菲较好地评测全景切开中实例物体检测准确度,以及实例物体与不规矩类别的切开准确度,可是该评测方针更偏重每个实例,并没有重视每个实例之间的差异。文献 [6] 提出了对大物体有更好的评测方针 PC (Parsing Covering),使得大物体的切开作用对终究的评测方针影响更大,在一些重视大物体的任务如肖像切开、自动驾驶中更为有用;

第pool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视三,全景切开中子任务的交融问自调式滚轮架题,现在研讨仍然较多地将全景切开看做是 object instance segmentation 与 stuff segmentation 两个子任务的合集,怎么从大局、一致的切开问题动身,针对性规划契合全景切开的一致网络,具有重要的含义。

参考文献

[1] Ki安仔栋笃笑rillov A, He K, Girshick R, et al. Panoptic segmentation[J]. arXiv preprint arXiv:1801.00868, 2018.

[2] Kirillov A, Girshick R, He K, et al. Panoptic Feature Pyramid Networks[J]. arXiv preprint arXiv:1901.02446, 2019.

[3] Long J, Shelhamer Elmba, Darrell T. Fully convolutio雅思诚nal networks for semantic segmentation[C]//Proc长春丝足eedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.

[4] He K, Gkioxari G, Dollr P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.

[5] Lin T Y, Dollr P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.

[6] Yang T J, Collins M D, Zhu Y, et al. DeeperLab: Single-Shot Image Parser[J]. arXiv preprint arXiv:1902.05093, 2019.常石磊声动亚洲

[7] Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834-848.

[8] Shi W, Caballero J, Huszr F, et al. Real-time single image and video super-resolution using an efficient supool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视b-pixel convolutional neural network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1874-1883.

[9] Sajjadi M S M, Vemulapalli R, Brown M. Frame-recurrent video super-resolution[C]//Procepool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视edings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6626-6634.

[10] Papandreou G, Zhu T, Chen L C, et al. PersonLab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 269-286.

[11] Tychsen-Smith L, Petersson L. Denet: Scalable real-time object detect败气症ion with directed sparse sampling[C] // Proceedings of the IEEE International Conference on Computer Vision. 2017: 428-436.

[12] Law H, Deng J. Cornernet: Detecting objects as paired keypoints [C] // Proceedings of 宝批龙大不同the European Conference on Computer Vision (ECCV). 2018: 734-750.

[13] Li Y, Chen X, 优生妈咪dhaZhu Z, et al. Attention-guided unified network for panoptic segmentation[J]. arXiv preprint arXiv:1812.03904, 2018.

[14] Li J, Raventos A, Bhargava A, et al. Learning to fuse things and stuff[J]. arXiv preprint arXiv:1812.01192, 2018.

[15] Xiong Y, Liao R, Zhao H, et al. UPSNet: A Unified Panoptic Segmentation Network[J]. arXiv preprint arXiv:1901.03784, 2019pool,干货 | 全方位解读全景切开技术, 从任务界提到网络构建与猜想,手机电视.

[16] Peng C, Zhang X, Yu G, et al. Large Kernel Matters--Improve Semantic Segmentation by Global Convolutional Network[C] // Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4353-4361.

点击阅览原文,参加 CVPR 评论小组吧~