ImageNet项目是一个大型视觉数据库,用于视觉目标识别软件研究。该项目已手动注释了1400多万张图像[1][2],以指出图片中的对象,并在至少100万张图像中提供了边框[3]。ImageNet包含2万多个典型类别[2],例如“气球”或“草莓”,每一类包含数百张图像[4]。尽管实际图像不归ImageNet所有,但可以直接从ImageNet免费获得标注的第三方图像URL[5]。2010年以来,ImageNet项目每年举办一次软件竞赛,即ImageNet大规模视觉识别挑战赛(ILSVRC)。挑战赛使用1000个“整理”后的非重叠类[6],软件程序比赛正确分类和检测目标及场景。

历史

AI研究员李飞飞从2006年开始研究ImageNet的想法。在大多数AI研究专注于模型和算法的时候,李飞飞则希望扩展和改进可用于训练AI算法的数据[7]。2007年,李飞飞与普林斯顿大学教授克里斯蒂安·费尔鲍姆英语Christiane Fellbaum会面讨论了该项目,他是WordNet的创建者之一。之后李继续从WordNet的单词数据库开始构建ImageNet,并使用了其许多功能[8]。作为普林斯顿大学的助理教授,李飞飞组建了一个研究团队,致力于ImageNet项目。他们使用Amazon Mechanical Turk来帮助分类图像[8]。他们在2009年美国佛罗里达州举行的计算机视觉与模式识别会议上首次以学术海报的形式展示了自己的数据库[8][9][10]

ImageNet挑战赛

Thumb
ImageNet上的错误率记录(显示每个团队的最佳结果,每年最多显示10个)

ILSVRC旨在延续2005年起举办的较小规模的PASCAL VOC挑战赛,后者仅包含约2万张图像和20个对象类别[6]。为了使ImageNet“民主化”,李飞飞向PASCAL VOC团队提出了一项合作,从2010年开始,研究团队将在给定的数据集上评估他们的算法,并在几项视觉识别任务上争夺更高的准确率[8]。由此产生的年度竞赛现在称为ImageNet大规模视觉识别挑战赛(ILSVRC)。ILSVRC使用仅1000个“整理后的”图像类别——例如完整的ImageNet类别中,狗的类别共有120种,而在“整理后的”图像类别中,包括了120个犬种中的90个[6]

2010年代,图像处理获取了巨大进步。2011年,良好的ILSVRC分类错误率为25%。2012年,AlexNet深层卷积神经网络达到了15.3%的错误率,比第二名低10.8个百分点[11]。在接下来的几年中,错误率下降到百分之几[12]。尽管2012年的突破是“结合了之前有过的组件”,但大幅量化的改进标志着全行业人工智能热潮的开始[4]。2015年,微软的研究人员报告称,他们的卷积神经网络在ILSVRC任务中超过了人类水平,并赢得了当年的ImageNet挑战赛[13][14]。但是,正如挑战赛的组织者之一奥尔加·卢萨科夫斯基英语Olga Russakovsky在2015年指出的那样,这些程序只需要识别出图像属于一千个类别中的哪一个即可,而人类可以识别更多类别,并且还可以判断图像的上下文[15]

到2014年,超过50家机构参加了ILSVRC[6]。2015年,百度科学家因使用不同的帐号提交,大大超过了每周两次的提交限制,而被禁止参加比赛一年[16][17]。百度随后表示已解雇相关团队的负责人,并将建立一个科学顾问小组[18]

2017年,38个参赛团队中有29个的错误率低于5%[19]。2017年,ImageNet表示将在2018年推出一个新的、难度更大的挑战赛,其中涉及使用自然语言对三维对象进行分类。由于创建三维数据比标注现有二维图像的成本更高,因此预计数据集会更小。这方面的进展应用范围从机器人导航到增强现实[1]

数据集

ImageNet通过众包进行注释。图像级注释表明图像中是否存在目标类别,例如“此图像中有老虎”或“此图像中没有老虎”。对象级注释为对象(的可见部分)周围提供了一个边界框。ImageNet使用宽泛的WordNet模式的变体对目标进行分类,并增加了120个犬种类别,以显示细粒度分类[6]。2012年,ImageNet是全球最大的Mechanical Turk学术用户,其雇用的普通工人每分钟可以识别50张图像[2]

ImageNet中的偏差

2019年对ImageNet和WordNet的多个层面(分类学,目标类别和标签)的历史进行的研究表明了用于各种图像的大多数分类方法如何嵌入了偏见[20][21][22]。ImageNet正在努力解决各种来源的偏见[23]

参见

参考资料

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.