AI Challenger 开赛:国内最大规模深度学习数据集上线,ImageNet 冠军、Kaggle 大赛优胜者加入角逐

撰文 | 邱陆陆

编辑 | 藤子

随着以 30 万张图片为基础的计算机视觉赛道数据集和以 1000 万对英中对照的句子为基础的自然语言赛道数据集的上传,第一届 AI Challenger(AIC)在 9 月 4 日正式拉开帷幕。这个由创新工场、搜狗和今日头条联合宣布发起的挑战赛,希望打造中国最大的科研数据集与世界级 AI 竞赛平台,推动中国人工智能领域科研创新。

图:(左起)搜狗 CEO 王小川、创新工场创始人兼 CEO 李开复、今日头条顾问兼技术战略研究院院长张宏江 

在 8 月 14 日的 AI Challenger 启动仪式上第一届 AIC 共开辟了两个赛道、五个赛题,分别是自然语言/机器翻译领域的英中机器同声传译(English-Chinese Simultaneous Interpretation)赛题、英中机器文本翻译(English-Chinese Machine Translation)赛题,以及计算机视觉赛道的场景分类(Scene Classification)赛题、 人体骨骼关键点检测(Human Skeleton System Keypoints Detection)赛题和图像中文描述(Image Caption)赛题。

在数据集上线前夕,机器之心和 AI Challenger 竞赛组委会执行委员会成员、创新工场人工智能研究院副院长王咏刚聊了聊,从「发起人」和「建设者」的角度谈了谈 AI Challenger 的选题考量、数据集建设情况以及长期的展望。

计算机视觉赛道:更专门化、更贴近商业应用场景、更有中国特色的赛题设置

创新工场本次主要负责了计算机视觉赛道数据集的建设。去年开始规划 AI Challenger 的建设之后,团队咨询了大量竞赛方面的专家。包括 ImageNet 的发起人李飞飞、来自 MS COCO 团队的负责人和在 CVPR 主办竞赛及研讨会的研究者。专家们认为:后 ImageNet 时代,需求最大的不再是通用数据集,而是和商业应用场景结合更紧密的前沿领域专门数据集。因此,AIC 的团队通过与中国较为前沿的和视觉相关的领域,如无人驾驶、医疗影像、安防等从业者进行沟通,确定了以下这三个更加专门化的、更具有中国特色的数据集方向。


其中,人体骨骼关键点检测在无人驾驶领域和安防领域都有众多应用场景。无人驾驶需要纯视觉方案来感知行人的动作。这里的感知远比「识别」、「确定位置」要复杂。因为行人的动作模式非常多样,对行人的动作意图检测要远远难于对车的检测。在现在前沿的行人动作姿态检测算法中,基于人体骨骼关键点的算法是其中一类主流算法,而这类主流算法的准确度还不那么理想。而在安防领域,取得不错成果的人脸识别课题其实只覆盖了安防领域中的「身份识别」这一个非常小的场景,而且需要在脸部相对比较清晰、完整的情况下进行。但在更多的场景中,人的脸部都不一定清晰,而且需要分析人的整体动作进行追踪。在人体追踪技术里,人体骨骼关键点也是其中的重要因素。


「图像描述任务是当下的一个热点方向,因为它的核心是跨模式、多模态的学习。」王咏刚阐述自己对图像描述的理解。人工智能现在已经能很好地完成感知(perception)任务了,在「从声音和图片中识别出内容」这项工作上甚至可以取得胜过人类的成果。然而「语义理解」工作方面却一直未见长足进展。图像描述任务需要把感知模块得到的结果用一定方法转为文本内容,是一个从感知到理解的过渡项目。当前的图像描述一般以 MS COCO 数据集为标准数据集,MS COCO 是一个包含 14 万张图片的数据集,每张图片有 4 - 5 句英文描述。在此基础上,AIC 希望建设一个中文的图像描述数据集,第一检测现有的算法应用到中文数据上效果如何,第二尝试在此基础上是否能做出有针对性的算法来增强效果。


图像分类任务是上两个问题的「副产品」,人体骨骼关键点监测和图像描述都涉及了大量的场景,AIC 把其中的典型场景和一些可能带来挑战的场景结合起来,筛选了 80 个场景下的 8 万张图片,设计了一个相对简单,可以让更多对深度学习感兴趣的人参与进来的问题。


人体骨骼关键点和图像描述的标注难度都远大于 ImageNet 传统的物体检测、定位标注。创新工场以及其他两家合作伙伴在数据集的建设上投入了大量的人力物力,与多家团队合作完成了标注工作。机器之心了解到,今年的计算机视觉数据标注工作动员了超过 100 名专业标注员,创新工场也成立了 12 人的质检团队,专门负责用基线模型对不同批次的标注数据进行交叉验证。总投入是奖金池投入的 4-5 倍,而计算机视觉方向的奖金池规模累计大于 100 万人民币。


今年的计算机视觉赛道数据集(训练集)以 21 万张图片为基础,其中人体骨骼关键点检测的训练集中包含了超过 35 万个人物,使用的图片覆盖了超过 250 种日常生活场景,压缩后数据集大小为 14.8G;图像中文描述的训练集包含了 105 万句中文描述,覆盖了超过 200 种日常生活场景,压缩后数据集大小 19.2G。


图:人体骨骼关键点训练集中,14 个关键点的分布情况。其中,蓝色代表「标注且可见关键点」,橙色代表「标注但不可见关键点」,绿色代表「未标注关键点」(关键点在图像外)



图:计算机视觉日常场景分布图,典型场景包括:球场、道路 、运动场、舞台、房间、大厅、草地等等

王咏刚:打造越来越全面和多样化的数据集是未来目标

今年的比赛时间为 9 月 4 日至 12 月 3 日,为期三个月。每双周会评出周冠军,每个赛题中效果突出的团队还将进行答辩,角逐总冠军。自启动仪式开放报名以来,平台已经汇聚了来自世界各地的超过 1000 名参赛者和超过 500 支参赛队伍。他们中很多人来自国内外 AI 实力强劲的高校和公司机构,其中不乏过去各类比赛的获奖者,比如 ImageNet 两项任务冠军、天池阿里移动推荐算法大赛冠军以及 Kaggle 大赛的众多优胜者。

王咏刚表示,AI Challenger 并非只举办一年,而是一个长期的愿景。一家投资、孵化了三十余家 AI 公司的投资机构,两家以科研、技术能力著称的互联网公司,这三家主办方承诺在 3 年内投入数千万元人民币,建设这个集科研数据集与 AI 竞赛为一体的平台。今年开放的两个赛道五个赛题,也只不过是「万里长征第一步」。

「我们的伟大理想是建造一个世界一流的数据集,这不是一个一蹴而就的过程,需要几年的时间慢慢打造。」王咏刚说。第一年,AIC 虽然都是学术研究前沿方向,然而出于谨慎的态度,只选择了几个「点」来进行尝试。团队希望在未来,数据集能越来越全面和多样化。王咏刚表示,在数据集公布后,他们会将过程和经验整理为论文,在 CVPR 等会议上与研究者交流,更多地搜集研究者对数据的需求,为明年的数据集建设提供指导意见。

王咏刚认为,数据集建设的路上还有很多高山等待着 AIC 去攀登,这其中包括视频数据、虚拟系统生成数据等更多样化的数据形式,也包括医疗影像数据等数据集的体量问题,以及数据集外的标注成本、版权问题、隐私问题亟待考虑与解决。

如同创新工场创始人兼 CEO 李开复在启动仪式上提到的,AI 在我国推进的最大落差就是数据的落差。而 AIC 希望以竞赛平台的形式给更多学生、学校、实验室和新创公司提供数据与计算能力,从而提升整个中国的人工智能水平。「希望当我们在三五年后回顾时,当我们看到中美 AI 人才没有落差时,也许会想到 AI Challenger 在这个重大过程中扮演了一个小小角色。」李开复如是说。

入门
返回顶部