0.摘要

分割标签的不足是野外语义分割的主要障碍之一。为了缓解这个问题,我们提出了一个新颖的框架,根据图像级别的类别标签生成图像的分割标签。在这种弱监督的设置下,已知训练模型更倾向于分割局部有区别的部分,而不是整个物体区域。我们的解决方案是将这样的局部响应传播到属于同一语义实体的附近区域。为此,我们提出了一个称为AffinityNet的深度神经网络(DNN),它预测相邻图像坐标对之间的语义相似度。语义传播通过使用AffinityNet预测的相似度进行随机游走来实现。更重要的是,训练AffinityNet所使用的监督是由初始的有区别的部分分割给出的,虽然不完整作为分割注释,但足以学习小图像区域内的语义相似度。因此,整个框架仅依赖于图像级别的类别标签,不需要任何额外的数据或注释。在PASCAL VOC 2012数据集上,使用我们方法生成的分割标签训练的DNN优于先前使用相同级别监督训练的模型,并且与依赖更强监督的模型竞争力相当。

1.引言

深度神经网络(DNNs)的最新发展推动了语义分割方面的显著改进[2,3,4,19,22,25,32,39]。尽管DNNs取得了巨大的成功,但在实现在一个无控制和真实环境中的语义分割方面,我们仍然有很长的路要走。其中一个主要障碍是缺乏训练数据。由于像素级别分割标签的注释成本过高,现有数据集往往缺乏注释示例和类别多样性。这使得传统的方法局限于数据集预定义的一小部分对象类别。

弱监督方法已经被研究用于解决上述问题,使语义分割模型具有更强的可扩展性。它们的共同动机是利用诸如边界框[6,12,28]和草图[18,36]这样的注释,这些注释比像素级别的标签要弱,但在大量视觉数据中很容易获得,或者由于其低注释成本而容易获得。在各种弱监督语义分割注释中,图像级别的类别标签被广泛使用[11,14,17,26,29,30,37],因为它们已经在现有的大规模图像数据集中给出(例如,ImageNet [7]),或者通过搜索关键词自动注释为图像检索结果。然而,使用图像级别标签监督学习语义分割是一个明显的不适定问题,因为这种监督只表示某个对象类别的存在,并不提供学习分割所必需的对象位置和形状信息。

在这一研究领域中,方法已经融入了额外的证据来模拟监督中缺失的位置和形状信息。用于定位线索的一种常见选择是类激活图(Class Activation Map, CAM)[40],它通过研究隐藏单元对分类DNN输出的贡献来突出显示目标对象的局部有区别的部分。CAM所突出显示的有区别区域被用作种子(seed),并将其传播以覆盖整个对象区域。为了准确恢复种子所代表的对象区域,先前的方法利用了图像分割[17,30]、视频中的运动[35],或两者兼用[11],所有这些方法都有助于估计对象的形状。为了实现相同的目的,在[26]中估计了一个与类别无关的显著区域,并与种子结合起来。然而,它们需要额外的数据(例如,视频)[11,35]、额外的监督(例如,对象边界框)[26]或现成的技术(例如,图像分割),这些技术无法利用DNN中的表示学习[11,17,30]。

在本文中,我们提出了一种简单但有效的方法,用于补偿对象形状中缺失的信息,而无需外部数据或额外的监督。我们框架的关键组成部分是AffinityNet,它是一个DNN,以图像作为输入,并预测相邻图像坐标对的语义关联。给定一张图像及其CAMs,我们首先构建一个邻域图,其中每个像素与其邻居在一定半径内连接,并通过AffinityNet估计在图中连接的成对像素的语义关联。然后,通过图上的随机游走[23]将CAMs中的稀疏激活扩散:图中边上的关联鼓励随机游走将激活传播到附近和语义相似的区域,并惩罚传播到其他类别的区域。这种语义扩散显著修正了CAMs,从而恢复了精细的对象形状。我们将这个过程应用于训练图像,通过在每个像素处选择修订后的CAMs的最大激活关联的类别标签,来合成它们的分割标签。生成的分割标签用于训练用于测试的分割模型。

剩下的问题是如何在没有额外数据或额外监督的情况下学习AffinityNet。为此,训练图像的初始CAMs被用作监督的来源。因为CAMs经常缺少一些对象部分并且存在误报,它们作为学习语义分割的监督是不完整的,因为语义分割的目标是准确预测整个对象的掩码。然而,我们发现它们通常在局部上是正确的,并且提供了在小范围内识别语义关联的证据,而这正是AffinityNet的目标。为了生成可靠的局部语义关联标签,我们忽略CAMs上得分相对较低的区域,只保留自信的对象和背景区域。然后,通过在自信的区域上对邻接图像坐标进行采样,获得一个训练样本,如果其坐标属于同一类别,则其二进制标签为1,否则为0。

所提出方法的整体流程如图1所示。首先,计算训练图像的CAMs,并利用其生成语义关联标签,将其作为监督来训练AffinityNet。然后,将训练好的AffinityNet应用于每个训练图像,计算其邻域图的语义关联矩阵,该矩阵用于随机游走来修正CAMs,并生成合成的分割标签。最后,使用生成的分割标签来训练语义分割DNN,该网络将是测试时唯一使用的网络。我们的贡献有三个方面:

• 我们提出了一种名为AffinityNet的新型DNN,它能够在像素级别预测高级语义关联,但只使用图像级别的类别标签进行训练。

• 与大多数以前的弱监督方法不同,我们的方法不过分依赖现成的技术,并通过对AffinityNet的端到端训练来利用表示学习。

• 在PASCAL VOC 2012数据集上,我们的方法在相同级别的监督下达到了最先进的性能,并且与那些依赖更强监督或外部数据的方法相竞争。

令人惊讶的是,它甚至在早期超越了FCN,这是一个众所周知的全监督模型。

本文的剩余部分组织如下。第2节回顾了与我们密切相关的先前方法,第3节详细描述了我们框架的每个步骤。然后,我们在第5节对公共基准测试中提出的框架进行了实证评估,并在第6节中进行简要总结和评述。

图1.我们方法的示意图。首先,通过CAMs [40](第3.1节)在训练图像中定位对象类别和背景的显著区域。从显著区域中,我们采样相邻坐标对,并根据它们的类别一致性为它们分配二进制标签。然后,使用带有标签的坐标对来训练AffinityNet(第3.2节)。训练好的AffinityNet进一步预测局部图像区域内的语义关联,并与随机游走相结合来修正CAMs(第3.3节)并生成它们的分割标签(第3.4节)。最后,生成的标注被用作训练语义分割模型的监督。

2.相关工作

各种类型的弱监督:针对语义分割的弱监督方法已经广泛研究,以解决数据不足的问题。成功的弱监督语义分割示例包括边界框[6,12,28]、涂鸦[18,36]、点[1]等。然而,这些类型的弱监督仍然需要在注释过程中进行一定程度的人工干预,因此为大量的视觉数据注释这些弱标签是昂贵的。

图像级别标签作为弱监督:图像级别的类别标签已经被广泛用作语义分割的弱监督,因为它们要求最少或不需要人工干预来进行注释。早期的方法尝试直接从图像级别标签训练分割模型[28,29],但它们的性能不令人满意,因为这些标签过于粗糙,无法教会分割过程。为了解决这个问题,一些先前的方法将由区分性定位技术给出的分割种子与额外的证据(如超像素[11,17,30]、分割候选区域[30]和视频中的运动[11,35])结合起来,这些证据对于估计目标形状是有用的,并且是通过现成的无监督技术获得的。

我们基于AffinityNet的框架在上述方法上具有明显的优势。AffinityNet能够从数据中学习如何将局部激活传播到整个对象区域,而以前的方法无法获得这种优势。与我们的方法类似,少数方法在没有现成的预处理的情况下改善了分割质量。魏等人[37]提出了通过顺序搜索新的和互补的对象区域来逐步扩展分割结果的方法。另一方面,Kolesnikov和Lampert [14]学习了一个分割模型,以逼近应用于CAMs给出的分割种子的密集条件随机场(dCRF)[15]的输出。

学习像素级亲和性:我们的工作还与学习预测像素级亲和性矩阵的方法密切相关[2,5,36]。具体而言,通过使用分割标签训练的DNN来估计图像的像素中心亲和性矩阵[2,5]。Bertasius等人[2]将亲和性矩阵与随机游走相结合,随机游走的作用是优化分割模型(如dCRF)的输出。Cheng等人[5]设计了一个解卷积网络,其中解池层利用亲和性矩阵在上采样过程中恢复清晰的边界。上述两种方法的目标都是在像素级别上优化完全监督的分割模型的输出。相反,我们的目标是从粗糙和嘈杂的对象部分响应中恢复对象的形状,使用高级语义亲和性矩阵进行训练,因此AffinityNet具有完全不同的架构。Vernaza和Chandraker [36]使用涂鸦作为弱监督,并提出同时学习分割网络和随机游走亲和性矩阵的方法,以使网络的输出和涂鸦的随机游走传播的输出相同。我们的方法在以下三个方面与这项工作不同。首先,我们的框架是通过图像级别标签进行训练的,这比[36]中使用的涂鸦要弱得多。其次,在我们的方法中,随机游走可以跳转到半径内的任何其他位置,而[36]中只能移动到四个最近的邻居。第三,AffinityNet明确地学习了成对的语义亲和性,而[36]中的模型则是隐式学习。

使用合成标签进行学习:我们采用了分离的流程,首先生成合成标签,然后使用这些标签对分割模型进行全监督训练。在弱监督环境中,这样的流程已经在目标检测[34]以及语义分割[6,11,12,17,26,35]中进行了研究。我们方法的一个独特特点是AffinityNet,它是一个端到端可训练的DNN,与之前采用现有优化技术(如GraphCut、GrabCut和dCRF)和/或前述的现成预处理步骤相比,能够显著提高合成标签的质量。

我们的弱监督语义分割方法大致分为两个部分:

(1)根据图像级别的类别标签合成训练图像的像素级别分割标签,

(2)使用生成的分割标签训练一个用于语义分割的DNN。

整个框架基于三个DNN:计算CAMs的网络,AffinityNet和分割模型。前两个网络用于生成训练图像的分割标签,最后一个网络用于执行实际的语义分割,并且使用合成的分割注释进行训练。本节的其余部分详细描述了这三个网络的特点和它们的训练方案。

3.我们的框架

我们的弱监督语义分割方法大致分为两个部分:(1)根据图像级别的类别标签合成训练图像的像素级别分割标签,(2)使用生成的分割标签训练一个用于语义分割的DNN。整个框架基于三个DNN:计算CAMs的网络,AffinityNet和分割模型。前两个网络用于生成训练图像的分割标签,最后一个网络用于执行实际的语义分割,并且使用合成的分割注释进行训练。本节的其余部分详细描述了这三个网络的特点和它们的训练方案。

3.1.计算CAMs

CAMs在我们的框架中起着重要的作用。与许多其他弱监督方法一样,它们被视为分割种子,通常突出显示对象的局部显著部分,然后传播到覆盖整个对象区域。此外,在我们的框架中,它们被用作训练AffinityNet的监督来源。我们遵循[40]的方法来计算训练图像的CAMs。该架构是一个典型的分类网络,使用全局平均池化(GAP)后跟一个全连接层,并通过图像级标签进行分类准则进行训练。给定训练好的网络,一个真实类别c的CAM,记为Mc,计算如下:

其中wc是与类别c相关联的分类权重,f_cam(x,y)表示在GAP之前的特征图上位于(x,y)位置的特征向量。Mc进一步进行归一化,使最大激活值等于1:Mc(x,y)→Mc(x,y)/maxx,y Mc(x,y)。对于与真实类别无关的任何类别c,我们通过将其激活分数置零来忽略Mc。我们还估计了一个背景激活图,由以下公式给出:

其中C是对象类别的集合,α≥1表示调整背景置信度分数的超参数。我们的方法得到的CAM的定性示例在图2中可视化。

图2.我们方法得到的CAM的可视化。(a)输入图像。(b)对象类别的CAM:亮度表示更有信心的对象区域。(c)背景的CAM:较暗表示更有信心的背景区域。

3.2.学习关联网络

AffinityNet旨在预测训练图像上相邻坐标对之间的类别无关的语义关联。预测的关联用于随机游走作为转移概率,以便随机游走将CAM的激活分数传播到相同语义实体的附近区域,从而显著提高CAM的质量。为了提高计算效率,AffinityNet被设计为预测一个卷积特征图f_aff,其中一对特征向量之间的语义关联是通过它们的L1距离定义的。具体而言,特征i和j之间的语义关联用W_ij表示,并定义为以下公式:

其中(xi,yi)表示特征图f_aff上第i个特征的坐标。通过网络的单次前向传递,可以高效地计算给定图像中的大量语义关联。图3说明了AffinityNet的架构以及它计算f_aff的方式。训练这个架构需要对特征图坐标对的语义关联标签,即在公式(3)中的W_ij的标签。然而,在我们的设置中,只提供图像级别的标签,这些标签无法直接获得。在本节的剩余部分,我们将介绍如何生成关联标签并使用它们训练AffinityNet。

3.2.1.生成语义关联标签

为了使用图像级别的标签训练AffinityNet,我们利用训练图像的CAM作为不完整的监督信息源。尽管如图2所示,CAM通常不准确,但我们发现通过仔细处理它们,可以获得可靠的语义关联监督。我们的基本思想是从CAM中识别出对象和背景的有信心区域,并仅从这些区域中采样训练样本。通过这样做,可以可靠地确定一对采样坐标之间的语义等价性。为了估计对象的有信心区域,我们首先通过减小公式(2)中的α来放大Mbg,使得背景分数在CAM中占主导地位,压制对象的不显著的激活分数。在对CAM进行dCRF处理以进行细化之后,我们通过收集得分比放大后的背景以及其他所有类别的得分都高的坐标来确定每个对象类别的有信心区域。同样,在相反的设置中(即增加α以削弱Mbg),可以以相同的方式识别出有信心的背景区域。图像中的剩余区域被视为中性区域。这个过程的结果如图4(a)所示。

根据由有信心区域确定的类别标签,可以为每对坐标分配二进制关联标签。对于不是中性的两个坐标(xi,yi)和(xj,yj),如果它们的类别相同,则它们的关联标签W_ij*为1,否则为0。此外,如果至少一个坐标是中性的,在训练过程中我们将简单地忽略这对坐标。如图4(b)所示,这种方案使我们能够收集到相当数量的可靠的成对关联标签。

图3. AffinityNet的整体架构。通过聚合来自骨干网络多个层级的特征图,我们可以获得输出特征图f_aff,使得f_aff可以获得不同视野范围内的语义信息。具体而言,我们首先对多层级特征图应用1×1卷积进行维度降低,将结果连接为一个单一的特征图,并使用一个额外的1×1卷积进行适应目标任务。架构的更多细节在第4节中描述。

3.2.2.关联网络训练

AffinityNet是通过以梯度下降的方式近似预测的语义关联W_ij来训练的,从而逼近二进制关联标签W_ij*。特别地,由于以下两个原因,在训练过程中只考虑足够相邻的坐标的关联。首先,由于缺乏上下文,很难预测两个相距较远的坐标之间的语义关联。其次,通过仅处理相邻坐标对,我们可以显著减少计算成本。因此,用于训练的坐标对集合P可以表示为

其中d(·,·)表示欧几里得距离,γ是限制选定对之间距离的搜索半径。然而,直接从P中学习AffinityNet并不理想,因为存在类别不平衡的问题。我们观察到在P中,由于负样本只在对象边界附近采样,所以正样本的类别分布明显偏向于正样本。此外,在正样本的子集中,背景样本的数量明显大于对象样本的数量,因为在许多照片中,背景要大于对象区域。为了解决这个问题,我们将P分成三个子集,并将从各个子集中获得的损失进行聚合。具体而言,我们首先将P分为正样本对和负样本对两个子集:

需要注意的是,公式(10)中的损失是与类别无关的。因此,经过训练的AffinityNet在决定两个相邻坐标之间的类一致性时,并不明确地知道它们的类别。这种与类别无关的方案使得AffinityNet能够学习到更通用的表示,可以在多个对象类别和背景之间共享,并显著增加每个类别的训练样本集合。

3.3.使用AffinityNet修正CAMs

经过训练的AffinityNet被用于修正训练图像的CAMs。AffinityNet预测的局部语义关联被转化为一个转移概率矩阵,使得随机游走能够意识到图像中的语义边界,并鼓励它在这些边界内扩散激活得分。我们经验证实,使用语义转移矩阵的随机游走显著提高了CAMs的质量,并因此使我们能够生成准确的分割标签。对于输入图像,AffinityNet生成一个卷积特征图,并根据公式(3)计算特征图上的特征之间的语义关联。需要注意的是,与AffinityNet的训练过程类似,在半径为γ的局部圆内计算特征之间的关联。计算得到的关联形成一个关联矩阵W,其中对角元素为1。随机游走的转移概率矩阵T由关联矩阵派生而来,具体如下:

在上述方程中,超参数β的值大于1,以便W ◦β,即原始关联矩阵的Hadamard幂,忽略W中的无关关联。因此,使用W ◦β而不是W使得我们的随机游走传播更加保守。对角矩阵D用于对W ◦β进行逐行归一化。通过使用T进行随机游走,将T与CAMs相乘,可以实现一次语义传播操作。我们进行迭代传播,直到达到预定义的迭代次数。然后,类别c的修正CAMs Mc*如下所示:

其中vec(·)表示矩阵的向量化,t是迭代次数。需要注意的是,t的值被设置为2的幂次,以便公式(12)只需要进行log2 t +1次矩阵乘法操作。

3.4.学习一个语义分割网络

然后,使用修正的CAMs生成训练图像的分割标签。由于CAMs的尺寸比输入图像小,我们通过双线性插值将它们上采样到图像的分辨率,并使用dCRF进行进一步优化。然后,通过在修正和上采样的CAMs中的每个像素选择与最大激活得分相关的类别标签,简单地获得训练图像的分割标签。需要注意的是,由于我们既为背景类别也为对象类别计算CAMs,因此可以选择背景类别。通过上述过程获得的分割标签被用作训练分割网络的监督。我们的方法可以使用任何全监督语义分割模型,因为我们提供了训练图像的分割标签。

4.网络架构

在本节中,我们介绍了我们框架中采用的DNN架构的详细信息。需要注意的是,尽管我们精心设计了以下模型以提高分割性能,但我们的方法可以使用任何现有的用于相同目的的DNN实现。

4.1.骨干网络

我们框架中的三个DNN都基于相同的骨干网络构建。骨干网络是Model A1 [38]的修改版本,也被称为ResNet38,它具有38个卷积层和宽通道。为了获得骨干网络,首先删除原始模型的最终GAP和全连接层。然后,将最后三个级别的卷积层替换为带有输入步幅为1的空洞卷积,并调整其膨胀率,以使骨干网络返回步幅为8的特征图。空洞卷积已被证明可以在不牺牲特征图分辨率的情况下扩大感受野,从而提高分割质量 [4]。我们在实验证明,它在我们的弱监督模型CAM和AffinityNet中也起作用,因为它使模型能够恢复对象的细节形状。

4.2.我们框架中深度神经网络的细节

计算CAMs的网络:我们通过在骨干网络的顶部按照以下顺序添加以下三个层来获得该模型:一个具有512个通道的3×3卷积层,以更好地适应目标任务;一个全局平均池化层,用于特征图的聚合;以及一个全连接层用于分类。

AffinityNet: 这个网络旨在聚合骨干网络的多层特征图,以利用在计算亲和性时获取的不同视野下的语义信息。为了实现这个目的,选择了从骨干网络的最后三个级别输出的特征图。在聚合之前,它们的通道维度通过个别的1×1卷积层分别减少到128、256和512。然后将特征图连接成一个具有896个通道的单一特征图。最后,我们在顶部再添加一个具有896个通道的1×1卷积层进行适应。

分割模型:我们严格按照[38]的方法构建我们的分割网络。具体来说,我们在骨干网络的顶部添加了两个空洞卷积层。它们具有相同的膨胀率为12,其中第一个卷积层的通道数为512,第二个卷积层的通道数为21。在下一节中,得到的网络被称为“Ours-ResNet38”。

表1. 在PASCAL VOC 2012训练集上评估的合成分割标签的mIoU准确度。SPN:[17]的超像素池化网络,RW:使用AffinityNet的随机游走。

图5. PASCAL VOC 2012基准测试中训练图像的合成分割标签的定性示例。(a)输入图像。(b)真实分割标签。(c)对象类别的CAMs。(d)预测的语义关联的可视化。(e)合成的分割注释。

5.实验

本节通过与当前在PASCAL VOC 2012分割基准测试[8]上的弱监督语义分割中的最新技术进行比较来展示我们方法的有效性。作为性能指标,我们采用真实分割和预测分割之间的交并比(IoU)。

5.1.实现细节

数据集:我们框架中的所有DNN都在PASCAL VOC 2012分割基准测试上进行训练和评估,以便与先前的方法进行公平比较。按照常见做法,我们通过采用[9]中提供的分割注释来扩大训练图像集。因此,总共使用10,582张图像作为训练样本,保留1,449张图像用于验证。

网络参数优化:我们DNN的骨干网络是在ImageNet [7]上进行预训练的。然后,整个网络参数通过Adam [13]在PASCAL VOC 2012上进行微调。在训练所有三个DNN时,常用以下数据增强技术:水平翻转、随机裁剪和颜色抖动 [16]。此外,对于除AffinityNet之外的网络,在训练过程中会随机缩放输入图像,这对网络施加了尺度不变性是有益的。

参数设置:在公式(2)中,α的默认值为16,分别改为4和24以放大和减弱背景激活。在公式(4)中,我们将γ设置为5,在公式(11)中,将β设置为8。此外,公式(12)中的t固定为256。对于dCRF,我们使用了原始代码中的默认参数。

表2. 在PASCAL VOC 2012验证集上的性能,与仅基于图像级别标签的弱监督方法进行对比。

表3. 在PASCAL VOC 2012测试集上的性能,与仅基于图像级别标签的弱监督方法进行对比。

表4. 在PASCAL VOC 2012验证集和测试集上的性能。监督类型(Sup.)表示:P-点,S-涂鸦,B-边界框,I-图像级别标签,F-分割标签。

5.2.合成分割标签分析

我们的标签合成方法的性能是通过表1中真值和生成的分割标签之间的mIoU来衡量的。为了进行消融研究,我们的方法被分为三个部分:CAM、RW(使用AffinityNet的随机游走)和dCRF。为了展示所提出方法的优势,我们还报告了Superpixel Pooling Net(SPN)[17]的得分,该方法将CAM与超像素结合使用作为生成分割标签的额外线索,利用图像级别标签进行监督。如表1所示,即使仅使用CAM而不使用像超像素这样的现成技术,我们的方法在生成的分割标签质量方面也优于SPN。我们认为这是因为我们使用了多种数据增强技术和更强大的带有扩张卷积层的骨干网络。此外,通过使用学习到的语义亲和性进行随机游走,分割注释的质量得到了显著提高,这证明了AffinityNet的有效性。最后,dCRF稍微提高了标签质量,我们将这个最终版本作为学习分割网络的监督。

图5展示了合成的分割标签的示例,可以看到随机游走与AffinityNet有效地处理了CAM中的误判和缺失区域。为了说明AffinityNet在这个过程中的作用,我们还通过在特征图f_aff上检测边缘来可视化图像的预测语义亲和性,并观察到AffinityNet具有检测语义边界的能力,尽管它是使用图像级别标签进行训练的。由于这些边界惩罚了语义上不同对象之间的随机游走传播,合成的分割标签能够恢复对象的准确形状。

5.3.和先前工作的对比

我们首先定量地将我们的方法与仅基于图像级别类别标签的先前方法进行比较。在PASCAL VOC 2012上的结果总结在表2和表3中。需要注意的是,我们还评估了使用我们合成标签训练的DeepLab [4],称为“Ours-DeepLab”,以便与其他使用VGG16 [33]作为骨干网络的模型进行公平比较。我们的两个模型在验证集和测试集的平均准确度方面都大幅超过了当前的最先进方法[37],而Ours ResNet38稍微优于Ours-DeepLab,这要归功于ResNet38更强大的表示能力。我们的模型还与基于额外训练数据或更强监督的方法进行了比较,具体见表4。它们在性能上明显优于基于相同监督级别但使用额外数据和注释(如MS-COCO [20]中的分割标签、MSRA Saliency [21]中的类别无关边界框和YouTube视频[31])的方法。它们还与依赖于更强监督的以涂鸦和边界框为基础的先前方法相竞争。令人惊讶的是,Ours-ResNet38甚至优于FCN [22],这是一项在完全监督语义分割方面的著名早期工作。这些结果表明我们方法生成的分割标签足够强大,可以替代额外的数据或更强的监督。最后,我们将我们的模型与其完全监督版本DeepLab [4]和ResNet38 [38]进行了比较,它们是我们可以达到的上限。具体来说,Ours-DeepLab达到了其上限的86%,而Ours-ResNet38达到了77%。

图6呈现了Ours-ResNet38的定性结果,并将其与CrawlSeg [11]的结果进行了比较,CrawlSeg是目前使用图像级别监督的最先进方法。尽管CrawlSeg利用额外的视频数据来合成分割标签,但我们仅依靠图像级别标签监督的方法往往会产生更准确的结果。

图6.PASCAL VOC 2012验证集上的定性结果。(a)输入图像。(b)真实分割结果。(c)CrawlSeg [11]的结果。(d)Ours-ResNet38的结果。与基于图像级别标签监督的当前最先进模型CrawlSeg相比,我们的方法更好地捕捉到更大的目标区域,更不容易错过目标。我们的结果的目标边界比CrawlSeg的结果更平滑,因为我们没有将dCRF应用于最终结果。更多结果可以在补充材料中找到。

6.概括

为了缓解语义分割中缺乏注释数据的问题,我们提出了一种基于AffinityNet的新框架,仅利用图像级别类别标签生成准确的训练图像分割标签。我们的方法在PASCAL VOC 2012基准测试中的有效性得到了证明,使用我们方法生成的标签进行训练的深度神经网络明显优于先前依赖于相同监督级别的最先进方法,并且与那些需要更强监督或额外数据的方法具有竞争力。