Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩报道

万人角逐,院士指导,首届全球人工智能技术创新大赛花落谁家?

从13923支队伍中脱颖而出,这些人是怎么做到的?

刚刚过去的几个月,对于很多同学来说可能终身难忘。
 
他们刚参加了一场15000多人的PK,对手来自528所中国高校和136所海外高校,包括清华、北大、浙大、剑桥、牛津、密歇根、普渡、南洋理工等知名高校。这些选手组成了13923支队伍,其中港澳台及海外参赛队伍比例超过 30%。
 
在这短短的几个月里,选手们经历了上百次提交和无数个等待排行榜刷新的时刻。最终,只有18支队伍杀进了决赛。
 
6月4日,首届全球人工智能技术创新大赛决赛在杭州拉开帷幕。大赛由中国人工智能学会和杭州市余杭区人民政府筹备组联合发起,得到了阿里云OPPO等头部科技企业的积极参与和支持。阿里云天池平台作为本次大赛的官方竞赛平台,为大赛提供平台和算力支撑。


图片

中国人工智能学会副理事长、北京邮电大学副校长王文博为大赛致辞。
 
为了给全球参赛选手提供质量最高的同台竞技平台,大赛请来了国务院参事、CAAI理事长、中国工程院院士戴琼海,CAAI副理事长、中国工程院院士陈杰,CAAI副理事长、南京大学人工智能学院院长周志华教授等为大赛提供最为专业的指导。
 
在6月5日开幕的2021全球人工智能技术大会上,CAAI理事长戴琼海院士、CAAI名誉理事长李德毅院士、浙江大学吴朝晖院士、阿里云智能副总裁刘湘雯女士等为获奖选手颁发了获奖证书。
 

图片

现场颁奖图。2021全球人工智能技术大会由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办,融入了「2021全球人工智能技术创新大赛」和「2021全球人工智能技术博览会」,并同期举行「第六届全国高校人工智能学院院长/系主任论坛」和「CAAI学术发展与学术期刊建设研讨会」,旨在打造一个无缝链接的人工智能全球力量。
 
从13923到18,这是一个「千军万马过独木桥」的过程。作为一个普通的吃瓜群众,我们关心的是:这个比赛难不难?为什么是这些团队走到了最后?他们在参赛过程中总结出了哪些经验?为了解答这些疑问,机器之心采访了部分决赛选手,希望可以给未来参赛的同学提供一些借鉴。

图片


这个比赛难不难?
 
在讨论比赛的难点之前,我们先来看一下赛题。
 
本次大赛设置了医学影像报告异常检测、PANDA 大场景多对象检测跟踪、小布助手对话短文本语义匹配三个赛道,聚焦前沿科技与应用创新,推进人工智能领域的学术交流、人才培养、技术发展以及跨界应用与融合。
 

图片


众所周知,医疗数据的标注是一个专业性要求极高的任务,很难通过传统的众包方式来解决。但是,影像科医生在工作时会观察医学影像(如CT、核磁共振影像),并对其作出描述,这些描述中包含了大量医学信息,对解决上述问题具有重要意义。因此,赛道一要求参赛队伍根据医生对CT的影像描述文本脱敏数据,设计算法来判断身体若干目标区域是否有异常(初赛)以及异常的类型(复赛),以此来提高医疗数据的标注效率。
 
PANDA(gigaPixel-levelhumAN centric video Dataset)是清华大学团队构建的国际上首个动态大场景多对象数据平台,场景平均覆盖平方千米级范围,可同时观测数千人,百米外人脸清晰可识别,视频分辨率近10亿像素。
 

图片


赛道二便是基于该数据平台设计的。初赛任务是行人和车辆多目标检测,即给定静态PANDA图像,参赛选手需要检测两种类型的对象:行人和车辆。复赛的任务是行人多目标跟踪,即给定PANDA视频序列,参赛选手需要提交视频中的行人轨迹。
 
小布助手是OPPO公司为欧加集团三品牌手机和loT设备自研的语音助手,为用户提供了有趣、贴心、便捷的对话式服务。意图识别对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。赛道三要求参赛队伍根据脱敏后的短文本query-pair,预测它们是否属于同一语义。

图片


根据选手的反馈,他们在这次比赛中要面对数据、赛题限制等多方面的挑战。
 
首先来说数据。出于竞赛公平性和数据安全性等方面的考虑,赛道一和赛道三的数据都经过了脱敏处理(如下图),导致选手无法直接看到数据,或者说不能自己采样并过一遍数据,从而难以发现数据的一些特点,也无法直接使用BERT等预训练权重。为了解决这一难题,赛道一冠军团队选择自己从头预训练BERT,还在预训练阶段结合了N-gram Mask和动态随机Mask策略。

图片


此外,赛道一的数据还存在标签分布不均衡、数据量少等问题。这就要求选手在拿到数据的第一时间就展开细致的分析,而不是上来就套模型。对于数据量少的问题,赛道一冠军团队通过增强数据和增加任务等形式来解决。
 

图片


赛道一冠军团队的解决方案。

 
赛道二数据的显著特点包括图片尺寸大、分辨率高、目标多、目标尺度跨度大、遮挡严重、视频帧率低等。为了解决这些问题,赛道二的冠军团队在检测任务中设计了一个金字塔多尺度预测的方案来解决检测漏检的问题,还提出了一个锚点切图的数据预处理方案来解决样本流失问题;在跟踪任务中,他们提出了基于检测框重识别和跟踪轨迹预测条件的跟踪流程,大大提高了跟踪精度。
 

图片

赛道二冠军团队解决方案。
 
看到这里有人可能会问,这个比赛很耗算力吧,参赛选手都是人民币玩家吗?当然不是。其实,选手在复赛平台赛阶段用到的算力是由阿里云天池提供的。对于算力不足的在校生来说,这一举动确实帮助很大。赛道三的冠军队伍表示,「阿里云提供的4 * V100,让我有机会训练15亿参数的大模型,做了很多有意思的实验」。此外,让大家在相同的算力条件下比拼算法,也是竞赛公平性的有力保障。
 
当然,考虑到实际业务中对算力消耗、模型效率有要求,本次大赛对选手的模型训练时间、推理时间都作了限制(如赛道三要求全流程训练时间小于80小时,单条记录预测时间小于18ms),这是选手所面临的第二大难题。
 
赛道三的冠军团队表示,为了平衡速度和精度,他们最终选择了牺牲单模型精度来换取更快的单模型速度,以此来训练、融合更多模型,进而提升整个系统的分数。
 

图片

赛道三冠军团队解决方案。
 
这一要求体现的是大赛对模型实用性的看重。天池平台技术架构师盛乐乐曾表示,「过去几年,我们有很多大赛并没有把模型效率作为大赛指标,但是在答辩环节经常会有专家老师询问选手模型的推理效率,并且很看重模型效率是否满足实际应用场景的需要。因此,我们也逐渐把模型效率考核纳入竞赛指标,让更多选手能在模型设计之初就将实用性考虑进来,从而推进优秀算法的可落地性。竞赛和实际应用不一样:在竞赛里面,分数是模型好坏的唯一标准;但是实际应用需要关注模型的实用性,包括如何落地、模型效率、泛化能力等。」
 
有了这些限制之后,不少选手都将算法的落地难度纳入了考量,也收获了评委的积极评价。

图片

 
在某大厂实习的一位选手表示,这些要求其实和之前在公司做的项目很类似,因为公司的实际项目开发也需要考虑资源消耗、运行时长等问题,所以在比赛中遇到这一要求并没有觉得差异很大。
 
正如赛道三的一位选手所言,这场比赛不仅考察了算法能力,还考察了工程、实验规划、时间规划等多方面的能力,总体来看是非常综合的。
 

为什么是这些团队走到了最后?

 
从赛题的规定和选手的反馈可以看出,这次大赛是有一定难度的。但同时我们也看到,进入决赛的选手既有大厂的算法工程师、国家重点实验室研究员,也有初出茅庐的大学本科生,有些选手甚至是跨专业参赛。也就是说,除了知识和经验,还有其他一些因素在选手的晋级之路上扮演了重要角色,比如沟通能力、创新能力等。
 
在谈到参赛经验时,不止一个团队提到了「分享」、「交流」的重要性。据机器之心了解,为了促进参赛团队之间的交流,大赛在每个赛道的初赛阶段都设置了一个名为「周周星」的奖项,并安排获奖团队分享技巧心得,这对于参赛经验不够丰富的新手来说帮助很大,可以少走弯路。
 

「每周的前两名周周星会进行方案分享,而我也会在比赛交流群里请教各位前辈。对作为新手的我来说,他们都是我的指导老师。各位前辈参赛经验丰富,分享的一些方案、技巧让我获益匪浅。如一位重庆邮电大学的学生所分享的『将Word2Vec和Glove预训练的词向量做拼接操作后,对Embedding层进行初始化』这一操作,让我当时的线上成绩从0.88提升到了0.90,这一方法不仅提高了我的成绩,也让我学到了更为新颖的技巧。」赛道一的季军团队在采访中说道。

 

图片

赛道二决赛结束后,选手在现场交(bài)流(shī)经(xué)验(yì)。
 
令人惊喜的是,本次大赛还涌现了很多创新性的解决方案。很多排名靠前的团队都使用了自己改造的方法,而不是简单地照搬已有的方法。赛道二的评委老师在决赛总结中说道,「我们鼓励一些创新性的方案出现,而不是简单的工程堆积,这是很重要的一点」。
 

如果明年参赛,要做哪些准备?


每次比赛结束,我们都可以从选手身上挖掘出一些宝贵的赛后寄语,本次比赛也不例外。
 
在采访中,几乎每一个团队都会强调「基础知识」的重要性。赛道一的季军团队解释说,「即便现在很多比赛都是深度学习『一把梭』,但是扎实的机器学习基础能够让我们知道哪些该尝试、哪些不该尝试。比如在这次比赛中,大家中后期都开始尝试模型融合,采用bagging的方式对结果加权平均。而为什么采用bagging,为什么在这个问题上使用加权平均的方式,这背后都是由经典机器学习的理论所支撑的。扎实的基础在比赛的每个阶段都很重要。」
 
但是,知识那么多,要从哪儿开始学呢?主办方给选手的建议是,「首先你需要选定一个方向,如 CV、NLP,然后找到对应的学习路径。天池平台其实也为刚入门的同学提供了一个类似知识树的页面。通过这个页面,你可以看到每个方向最简短的学习路径,对这个领域有一个大致的了解。」
 

图片


天池知识树:https://tianchi.aliyun.com/course?spm=5176.14154004.J_3941670930.11.31fe5699cizNhw
 
除此之外,赛道一冠军团队还给大家写了一份全方位的比赛攻略
 

图片

 
该团队的成员曾经拿过KDD Cup、中国数据分析马拉松、阿里云工业大数据挑战赛等多个国内外大赛的冠亚军,其中两名队员还是Kaggle Master,其经验很有借鉴意义。
 

竞赛之外,还有哪些问题值得关注?


竞赛是推动创新的良好机制,与竞赛同期举办的《AI青年说》则让我们有机会静下心来思考未来AI的发展趋势。

图片

 
在浙江大学求是特聘教授吴飞和阿里巴巴集团副总裁贾扬清看来,AI领域有以下几大趋势值得关注:

一是现有结果的工程化和规模化。贾扬清指出,AI领域从 0 到 1 的积累差不多已经完成,因此,「算法的标准化、工程化,以及怎样迅速地把标准算法和特定的业务场景结合起来,是我们今天在计算机视觉、语音、自然语言理解等领域的大趋势。」

二是各子领域之间的相互贯通。谷歌、OpenAI、DeepMind等推出的多模态、大规模模型让我们看到,以前的计算机视觉、语音、自然语言处理等垂直场景已经开始融合,变得共通。未来,「我们需要有一个通用、多模态的模型,来统一理解各种形态的数据和各种形态的输入。」在本次大赛中,我们也看到了这种趋势。我们发现,很多选手其实是「跨界」参赛的,比如选择CV赛道的同学自身的研究方向可能并非CV,这也反映了当前AI领域跨界融合的大趋势。

三是从「大数据小任务」到「大数据大知识」。按照朱松纯教授的说法,现在的机器智能是『大数据小任务』,即使用上千GB的数据训练一个模型完成有限的任务。两位学者认为,我们需要打通的是大数据大知识,即怎样从单点的目标或者单点的预测到更加完整的知识体系。如果这一问题得以解决,我们就可以进一步思考如何利用抽象出来的知识体系赋能其他领域。

在谈到「AI内卷」的趋势时,吴飞教授认为,「内卷是因为大家都跑到一条赛道上去了,比如都挤到大数据小任务的赛道,变成了所谓的调参侠。于是没人做农业、司法、环境等更具开创性的场景应用,就发生了内卷。想象一下,你读完人工智能的博士或者研究生,如果进入一个稀缺人工智能的行业,那么你就是这个行业的 AI 之王,哪里会有内卷。」

其实,吴飞教授也道出了本次大赛举办的初衷,即希望开拓大家的视野,展现AI落地的各种可能性,不要都涌向同一个赛道。

此外,我们还看到,大赛的三道赛题都来源于产业的真实需求,这符合当前产学研融合的大趋势,是加快我国人工智能人才培养的重要举措。赛道一冠军团队告诉机器之心,他们的模型已经作为德睿智药(MindRank AI)解决方案的一部分,在临床药物实验数据挖掘及药物研发与真实世界数据研究业务中得到应用。
 
大规模数字化建设时代即将到来,届时 AI 技术将融入现代社会各个方面的核心。在2021全球人工智能技术大会上,戴琼海院士表示:「当今世界,以人工智能、大数据、云计算等为代表的前沿科技正在重塑人类生活,通过跨国别、跨文化、跨领域的交流与合作,不仅有利于我国新一代人工智能的长足发展,而且对增进各方相互了解、凝聚各方原则共识,完善智能时代的全球共建共治方略具有重要意义。」
工程
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
朱松纯人物

朱松纯是全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
轨迹预测技术

轨迹预测探索不同交通代理的运动模式,准确预测未来轨迹,帮助自主车辆做出合理的导航决策。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

对话系统技术

对话系统大致可以分为两类:(1)面向任务的系统和(2)非面向任务的系统。面向任务的系统旨在帮助用户完成某些任务(例如查找产品,预订住宿和餐馆);非面向任务的系统在与人类交互过程中提供合理的反应和娱乐。通常,非面向任务的系统致力于在开放域与人交谈。

意图识别技术

意图识别指理解说话人的意图 。

多目标跟踪技术

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个目标进行定位、维持他们的ID、生成他们各自的轨迹。

OPPO机构

OPPO,成立于2004年,是一家全球性的智能终端和移动互联网公司,致力于为客户提供最先进和最精致的智能手机、高端影音设备和移动互联网产品与服务,业务覆盖中国、美国、欧洲、东南亚等市场。

www.oppo.cn
推荐文章
暂无评论
暂无评论~