文章目录

  • 前言
  • mask数据集分类及介绍
  • 总结

前言

在 Image Inpainting(图像修复) 任务中,需要使用掩码数据集在图像上人为添加缺陷区域,以便在设计的深度学习上进行训练学习。

mask数据集分类及介绍

  1. 目前图像修复任务中最长用的数据集是来自于 Liu 等人2018年发布的论文 Image Inpainting for Irregular Holes Using Partial Convolutions, 该论文中提出用部分卷积解决inpainting的任务的同时,也公布了一个大型的mask数据集,该数据集在之后的 Inpainting 任务中被大量使用。

数据集介绍:
作者对mask的孔洞大小进行了分类。具体而言,作者定义了6个比例范围:
( 0.01 , 0.1 ] , ( 0.1 , 0.2 ] , ( 0.2 , 0.3 ] , ( 0.3 , 0.4 ] , ( 0.4 , 0.5 ] , ( 0.5 , 0.6 ] 。
每个种类有孔洞靠近边界的mask和孔洞不靠近边界的mask各1000张。所以,一共有6 ∗ 2 ∗ 1000 = 12000 个mask。各种类的mask例子如下图所示,其中1,3,5是有边界约束的,2,4,6是没有边界约束的:

下载地址 :https://nv-adlr.github.io/publication/partialconv-inpainting

官网的下载界面上给了两个链接,第一个链接里面的数据集是训练mask数据集,第二个是测试mask数据集。
但是!!!,看下面重点
当下载到两个链接里的数据集之后,数据集里的数据长这样:

  • Traning Set
    这些mask数据集是960 * 640,看着有点怪。
  • Testing Set


这一部分才是作者在论文中提到的那12000张mask数据集,大小为512 * 512。
因此我也比较迷糊第一部分的Traning Set是干嘛用的。也没见人使用第一部分的数据集进行训练,都是用第二部分的Testing Set进行的训练。
由于这部分数据集挺多的,12000张,可以训练可测试都用这个Testing Set。

  1. 快速绘制不规则掩码数据集

它的mask数据集是人工手动绘制的,长这个样子:

大小是512 * 512的。总数量很多,有很多个G。
下载地址:https://github.com/karfly/qd-imd

总结

本文介绍了Inpainting任务中常用的mask数据集,推荐使用第一种,只用那Testing Set中的数据,给它随机打乱分成训练集和测试集就可以了。一共有12000张,用来做mask完全够用了。
还有一个好出就是,它的大小是512 * 512的,如果你的图像数据集是256 * 256的,那只需要用 pytorch transforms 给它Resize()到256就可以了,也不会变形。比第一部分的好用!