【计算机视觉】COCO Caption数据集简单介绍

最近在做开放域目标检测时候，经常遇到一个数据集—COCO Caption数据集。

这里就来介绍一下数据集。

COCO Caption数据集：

Microsoft COCO Caption数据集的推出，是建立在Microsoft Common Objects in COntext (COCO)数据集的工作基础上的。

在论文《Microsoft COCO Captions: Data Collection and Evaluation Server》中，作者们详细介绍了他们基于MS COCO数据集构建MS COCO Caption数据集的工作。

简要地来说，就是对于原COCO数据集中约330,000张图像，使用亚马逊公司的Mechanical Turk服务，人工地为每张图像都生成了至少5句标注，标注语句总共超过了约150万句。至于亚马逊的“土耳其机器人”服务，其实也就是另一种形式的雇人拿钱干活而已。

实际上，COCO Caption数据集包含了两个数据集：

第一个数据集是MS COCO c5。它包含的训练集、验证集合测试集图像和原始的MS COCO数据库是一致的，只不过每个图像都带有5个人工生成的标注语句；
第二个数据集是MS COCO c40。它只包含5000张图片，而且这些图像是从MS COCO数据集的测试集中随机选出的。和c5不同的是，它的每张图像都有用40个人工生成的标注语句。

之所以要做MS COCO c40数据集，是因为如果有更多的参考标注语句，很多对于算法生成的标注的自动计算标准能够和人类判断有更高的相关性。下一步可能将MS COCO验证集中所有的图像都加上40个人工生成的标注语句。

总结：

简言之，MS COCO Caption数据集就是针对图像标注问题创建的，图像及其标注数量大，提供了现成的评价标准计算服务器和代码。就目前发表的高水平论文来看，MS COCO Caption数据集已经越来越成为研究者的首选。