300多万奖金,AI Challenger 2018全球AI挑战赛今日开赛

2018年8月29日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger 全球AI挑战赛”正式开赛。四家主办方投入千万元规模以上的资金,引入更多企业、大学、政府机构合作,新增十余个全新高质量数据集,以及相关的兼具科研、产业应用、社会意义的竞赛,持续打造开放的世界级科研数据集与竞赛平台。今年AI Challenger的选手们将 “用AI挑战真实世界的问题”。

本届AI Challenger 还设置了丰厚的奖金池,整体奖金规模达到300余万人民币。据介绍,AI Challenger是目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台,也是最强调前沿科研与产业实践相结合的数据集和竞赛平台,更是依托于数据集和竞赛的全球AI人才社区。

用AI挑战真实世界的问题

“AI Challenger 全球AI挑战赛”是面向全球人工智能人才的开放数据集和编程竞赛平台,致力于满足AI人才成长对高质量丰富数据集的需求,推动AI在科研与商业领域结合来解决真实世界的问题。AI Challenger以服务、培养AI人才为使命,打造良性可持续的AI科研与应用新生态。

数据是AI的燃料,开放数据集,才会更好地推动AI产业的进步。AI Challenger全球AI挑战赛举办的初衷,主要源于联合主办方协同一致,希望在AI时代来临之际,用开放的心态为AI产业赋能,挖掘、培养AI人才,助力AI产业的发展,并且让AI人才有机会能拿到真实的数据,解决真实世界里的问题。

AI Challenger从第一天起就致力于践行这样的初衷。AI Challenger 2018 使用的数据集均为行业首创或最大,不仅在数量、丰富程度上比首届大赛有大幅提升,而且竞赛与现实问题接轨。组委会还会积极推进参赛者的成果跟产业接轨,真正做到用AI解决真实世界的问题。

本届AI Challenger全球挑战赛由创新工场、搜狗、美团点评、美图公司联合主办,在第一届的基础上,引入了更多企业、大学、政府机构,带来十余个全新的不同领域数据集,十余个兼具科研、产业应用、社会意义的竞赛。联合主办方在提供竞赛数据集的同时,也对所提供的数据集竞赛提出待选手们破解的“擂题”。

 10余个高质量数据集与竞赛

在2017年的首届大赛中,AI Challenger发布了从百万到千万量级的4个数据集、6个兼具学术前沿性和产业应用价值的竞赛。在今年的AI Challenger大赛里,主办方进一步扩大数据集规模,新增10余个高质量数据集,发起兼具科研、产业应用、社会意义的竞赛。

其中,5个主赛道的数据集包括:业界最大规模观点型问题阅读理解数据集、业界最大规模细粒度用户评论情感分析数据集、业界最大规模英中文本机器翻译、业内首个多标签短视频分类数据集、以及世界庞大、最复杂的自动驾驶数据集。这5个主赛道的竞赛分别是:

观点型问题阅读理解竞赛:机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能客服、智能音箱、语音控制等场景,用AI实现基于文字、语音的人机智能互动。数据集包含30万问题以及相关文章与答案的语料集合,为业界最大。

细粒度用户评论情感分析竞赛:自然语言情感分析是机器理解人类表达和意图的重要领域。此技术可广泛应用于零售、电商、餐饮、服务等用户评价场景,用AI对用户反馈进行智能分析,监测用户喜好、满意度等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签,为业界最大。

英中文本机器翻译赛道竞赛:机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。数据集在2017年数据集的基础上,总量达到1300万句对,为业界最大;且其中具有上下文情景的中英双语数据达到300万句对,为机器翻译的研究提供了更多探索空间。

短视频实时分类赛道:近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱;基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产,监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素,为业内首个多标签短视频分类数据集。

无人驾驶视觉感知赛道:自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive(BDD)2018年最新发布的BDD 100K数据集,这是全世界最庞大、最复杂的自动驾驶数据集,包含原始图片1.2亿张、标注图片10万张,涵盖多样天气和昼夜光照条件。

除5个主赛道之外,AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集,包括基于北京气象局3年气象数据的天气预报竞赛,世界上首个农作物病害检测竞赛和数据集,国内首个眼底病变医学图像检测竞赛和数据集,以3D虚拟图像训练机器“认识”真实世界物品的竞赛和数据集,让机器借助辅助知识学习从未见过的新概念的首个国际性零样本学习竞赛和数据集。希望通过AI Challenger,能赛出最好的AI天气预报员、AI植物医生、AI眼科医生、AI物品识别专家和AI“自学天才”。

在2017年的首届大赛中,AI Challenger以超过200万人民币的奖金,吸引了来自全球65个国家的8892支团队参赛,成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。其中很多参赛选手来自国内外 AI 实力强劲的高校、公司和机构,不乏过去各类比赛的获奖者,比如 ImageNet 两项任务冠军、天池阿里移动推荐算法大赛冠军以及 Kaggle 大赛的众多优胜者。

按照最初设定的目标,“AI Challenger全球AI挑战赛”首先要建设紧贴前沿科研任务需要的数据集,再者是要建立超大规模的高质量数据,第三个目标是要打造开放的世界级平台。

今年的AI Challenger全球挑战赛扩大奖金池,设立超过300万人民币的奖金,数据集和竞赛8月29日正式开放,并于12月18、19日进行竞赛的总决赛答辩和颁奖。

AI Challenger 2018的竞赛主要分为三个阶段。第一阶段比赛从2018年8月29日至11月4日,参赛队基于训练集、验证集、测试集A,进行算法设计、模型训练及评估,并提交预测结果,系统会按照评测指标实时反馈分数,并更新榜单排名。个别竞赛采取参赛队提交代码、docker的形式进行比赛。期间进行双周赛排名和评奖。

第二阶段比赛从2018年11月6至8日,开放测试集B;各竞赛提交结果的时限不同。结果提交后即进入评分、排名、代码验证环节,个别比赛还将考察参赛队的算法运行效率。参赛选手在测试集B上的预测结果表现,将作为进入决赛的排名依据。

第三阶段于12月18、19日进行竞赛的总决赛答辩。

实验赛道数据集和竞赛将持续建设,并不定期开放新内容。

引入更多企业、大学、政府机构合作 

除了联合主办方创新工场、搜狗、美团点评、美图公司,AI Challenger 2018还引入更多企业、大学、政府机构合作。包括协办/支持方:中国气象局北京城市气象研究所、加州伯克利大学DeepDrive深度学习自动驾驶产业联盟(BDD)、南京理工大学/江苏省人民医院、北京大学、上海新客科技、北京前沿国际人工智能研究院;技术支持伙伴TensorFlow;教育平台支持伙伴优达学城Udacity、小象学院;AI GPU云支持伙伴UCloud;以及指导单位中关村科技园区管理委员会、北京市经济和信息化委员会。

AI Challenger 2018全球AI挑战赛的评委团也是大咖云集,汇聚了来自学界、产业界的AI技术大牛。

本次大赛理事会委员、创新工场人工智能工程院执行院长王咏刚表示,希望在2018年,AI Challenger 能吸引更多国际、国内的高水平参赛团队,并建立算法、代码、论文、数据、比赛的分享和交流平台。

未来,“AI Challenger 全球AI挑战赛”将持续投入,建设和发布更大规模的AI前沿领域高质量数据集,涵盖自动驾驶、智慧医疗、智慧金融、机器人等行业应用中的核心AI需求,主办世界级的年度AI竞赛,吸引世界范围内的高端AI研发人才,促进人工智能科研生态的持续健康发展。

AI Challenger 2018 除赛事外,还将举办线上线下社区技术交流。线上社区交流包括官网challenger.ai上的在线社区、微信和Slack群交流,线下社区交流则包括国内外40多个城市的大学举办技术论坛。

AI Challenger还为“中国高校人工智能人才国际培养计划”提供在线社区和实践平台的支持,这是目前世界上最大的AI人才培养计划,目标在5年内直接培养至少500位老师和5000位学生,并影响数以十万计的学生。其中,2018年度面向教师的培训班录取了计算机专业排名前50高校的100位教师学员;面向学生的DeeCamp训练营从来自全球600多高校的近7000人报名中录取了来自85个高校的300位学生学员。

中国AI商业化和产业化进入非常时期

AI Challenger理事会代表王咏刚表示,今年AI Challenger的主题定为“用AI挑战真实世界的问题”,是有几方面原因的。

首先,人工智能的商业化与产业化进入了一个非常关键的时期,人工智能在那些大数据积累还不完善的领域,如零售、制造、物流、农业、医疗、教育等领域,还需要经历一个长期的发展过程,也会特别严重地依赖于相关场景的数字化程度。例如,对于一个线下零售卖场来说,如果没有大数据积累,没有摄像头等信息采集设备收集的商品信息、行为信息、场景信息等,就没法针对零售卖场的供应链和销售渠道进行优化,没法提供定制化的服务,没法与拥有大数据的电子商务网站或应用竞争。因此,人工智能的商业化落地迫切需要符合各行业需求,同时也拥有科技前瞻性的大量训练数据集。AI Challenger希望扮演推动人工智能商业化落地的关键角色,逐步在每个特定领域,投资建立并开放高质量数据,让AI商业化的参与者能更容易地训练AI模型,加速人工智能商业化步伐。

此外,AI科研领域一直有一种倾向,就是与产业界的实际问题距离较远,科研成果到产业界的实际解决方案之间,转化率较低,转化路径非常漫长和坎坷。AI Challenger希望在数据集建设和竞赛设置上,有针对性地突出产业界的需要,围绕产业界中的真实问题,为科研人员和工程技术人员提供最好的支持,拉进科研与产业间的距离。例如,无人驾驶中的车道线识别问题,短视频的实时分类问题,细粒度的用户情感分析问题等,都是这一类的,从产业实际需要出发,又紧扣科研前沿内容的好问题。

2017年,AI Challenger已经成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。王咏刚称,AI Challenger在未来的发展中,会始终坚持科研的前沿性,数据集的高质量,科研与产业的紧密结合,开放的世界级平台等核心目标。以2018年的AI Challenger规划为例,今年会突出数据集建设和问题设置方面与产业结合的特点,尽量让AI Challenger发布的数据能直接满足科研和产业的一线需求。同时,AI Challenger也会尽量突出人才平台、人才社区、人才网络的建设,利用AI Challenger,把全世界范围内的优秀人才聚集在一起。

最后,期待世界各地的AI人才汇集在AI Challenger平台上,用AI挑战真实世界的问题!

产业挑战赛搜狗创新工场
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

暂无评论
暂无评论~