Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

机器之心报道

机器之心编辑部

一场一万五千人的竞赛,如何确保比赛顺利进行?如何保证公平公正?在这场活动中,阿里技术专家为我们解读了阿里云天池平台背后的技术支撑。

人工智能、大数据竞赛有所了解的同学想必都听过「天池」这个平台。各大论坛上也流传着各路学长 / 学姐通过天池晋升 AI 大神、Offer 收割机的传说。

除了让这些学长 / 学姐 C 位出道之外,天池最近又参与了一件大事——为首届全球人工智能技术创新大赛提供平台和算力支撑。

大赛由中国人工智能学会联合杭州市余杭区政府联合发起,参赛用户达到 15000 多人,其中不乏来自清华、北大、浙大、剑桥、牛津、密歇根、普渡、南洋理工等中外名校的参赛者。如果你发现身边有几个同学最近忙得脚不沾地,除了上课根本看不见人影,那他们八成也是「陷进去了」。

从规模来看,为这样一场赛事提供平台和算力支撑是一个不小的挑战:不仅要构建强大的数据集,还要解决数据集保护、算力公平性、结果可复现性等诸多问题。面对这些挑战,天池是如何克服的呢?

在大赛主办方发起的「AI 青年说」系列活动中,来自阿里云天池的两位技术专家——陈漠沙和盛乐乐为我们解答了关于天池平台、数据集建设的一些问题,揭开了「天池」的神秘面纱。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

阿里云天池平台是中国最大的 AI 开发者社区,面向社会开放高质量数据(阿里数据及第三方数据)和计算资源,让参与者有机会运用其设计的算法解决各类社会或业务问题。如今,该社区已经承载了电商、金融、工业、医疗等上百种场景的赛事,合作或服务了百余家机构。

这些成就的取得离不开坚实的技术支撑。为了更好地支持各类比赛,天池平台推出了模型评估工具 TCC(TianChi Computing),保障竞赛优胜模型质量的同时兼顾模型效率和数据安全,维护竞赛公平性并推动竞赛成果落地转化。2020 年,天池在 TCC 的基础上推出了业界首创的流评测机制,推动竞赛模型评估迈向新高度。

在本次活动中,阿里云天池竞赛平台技术专家盛乐乐为我们详细解读了 TCC 在竞赛场景中发挥的作用,包括TCC 在这次大赛中怎么使用、如何保障赛事公平公正,对参赛者的技术能力有哪些要求,以及一些历史案例解读、竞赛中常用工具分享等。

在支撑各类赛事的同时,这些比赛也为天池平台沉淀了大量的高质量数据集。为了让这些数据更好地服务社区,天池团队提出了一个系统化的建设思路。

在本次活动中,阿里云天池平台首席科学家陈漠沙为我们介绍了天池数据集的建设情况,包括天池数据集建设的初衷、在行业里的应用和价值以及生态建设情况等。

在圆桌讨论环节,两位专家还分享了自己在参与平台构建过程中的成长经历和业务思考,包括参赛要做哪些准备,有哪些常见误区等。

在下文中,机器之心在不改变原意的基础上对两位专家的分享进行了整理。

盛乐乐:天池竞赛平台 TCC 技术解密

大家好,作为今年全球人工智能技术创新大赛的平台支撑方,今天很荣幸来跟大家一起分享一下天池竞赛平台 TCC 的相关内容。首先我会先介绍一下TCC 是什么,TCC 在这次大赛中怎么使用,TCC 如何在大赛中维持赛事的公平,以及 TCC 对各位选手的技术能力有哪些要求。然后我会简单结合我们过去几个不同领域的大赛,来解读一下 TCC。最后,我还想跟大家一起分享一下参赛中比较实用的一些工具,来帮助大家更好地去完成比赛。

TCC 是什么?

首先,为了保障这次竞赛的赛事质量,我们在复赛阶段都会采用 docker 的形式来提交。选手需要将自己的代码和软件环境打包成一个 docker 镜像提交到平台,平台会在统一的软件和硬件环境中运行,得到结果和分数。就像第一张图片所示,选手只需要提交自己的镜像链接,填写之后点击提交,页面里面就会出现一个状态的变化。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

状态变化的过程中,你会收到一些邮件提醒,告诉你当前的代码运行情况。同时,每次状态的变化都会提醒你去查看日志或者查看成绩。对于长时间运行的代码,你可以及时得到反馈。当你收到结束的状态提醒的时候,你就可以到「我的成绩」页去直接查看自己的成绩。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

如果一切顺利,那么你可以在「我的成绩」里面看到自己的成绩。同时,你可以在排行榜里面看到自己的排名。

在复赛的过程中,有的赛道你还可以看到自己模型的运行效率、时间,甚至你超时了多少条。

TCC 有什么用?

接下来,我们来看一下 TCC 在这次大赛里发挥的一些作用。

今年,全球人工智能技术创新大赛总共分了三个赛道,分别是医学影像报告异常检测、PANDA 大场景多对象检测跟踪以及小布助手对话短文本语义匹配。其实对于竞赛而言,公平公正永远是第一位的。TCC 作为平台支撑方,主要从三个方面来保证大赛的公平权威

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

首先,我们从数据安全出发,支持数据不可下载不可见,甚至是不可读,测试系统以流式的形式来分发测试集,支持同时在线训练和在线预测。本次大赛的三个赛道其实都要求测试集不可见,因此在线上做预测的时候会自动挂载测试集,防止模型对测试集的过度分析带来的过拟合等问题。

同时,TCC 特有的流评测机制可以实现类似荷官发牌的形式,将数据集以单条数据的形式分发给选手,这样可以避免选手模型过度接触测试集,防止基于测试集的无监督模型学习等。同时流评测的形式可以精细粒度地保障模型效率。比如在这次竞赛中,我们的赛道二是对大场景下的图像目标检测,赛题要求我们单张图片预测的时间必须控制在 90 秒内,否则成绩无效。

其次,从竞赛公平性上来看,平台统一的硬件环境可以帮助我们拉平选手间的算力差异。在以前没有提供 TCC 竞赛环境的时候,我们遇到过一只获奖队伍,在做代码复现时我们发现,选手是在 128 张 P100 的 GPU 上训练一周得到的模型。所以后面我们希望大家能在相同的算力条件下比拼算法。

统一的硬件环境也为模型的可复现性提供了基础。可复现性一直是竞赛里非常重要的一环,不仅需要统一的硬件环境,还需要完整的软件环境(不同的软件版本或者系统都可能导致复现出现较大偏差)。而 docker 镜像解决了软件环境问题。平台导出的优胜模型镜像具备了直接运行和可完整复现的能力。

此外,针对越来越来越多的环境交互类赛题,如强化学习,样本效率是评估模型非常重要的一个指标,如何限定在统一的样本效率下评估模型是平台能够支持此类赛题的要求。

其实除了以上这些,我们还有一个弹性的集群资源(GPU 资源),可以保证我们大赛选手在高频和大量并发提交的时候不用等待,在资源有限的情况下,让大家更好地去提交。

接下来,我想举几个具体的例子。这些例子来自不同领域的历史大赛,从中我们可以看出 TCC 在大赛中发挥了什么作用。

第一个是非常常见的工业质检类竞赛,这是我前年实地跑过的一个赛题。当时,江小白是希望最终应用在流水线上,代替人工识别瑕疵杂质的。所以我们必须要求选手模型对单张图片的预测效率满足流水线要求。TCC 的评测机制可以定制精细化的效率控制,精细到单张图片的预测时间。所以我们当时要求单次 infer 的时间必须要小于 4 秒。其实,TCC 在评测机制里面可以精细化地定制每一次预测时间的限制。

第二个例子是一道时序类的数据挖掘竞赛,我们需要用历史数据和日志来预测未来服务器的故障事件。但是这类时序类竞赛一直都有一个痛点,就是我们如何去保护测试集,防止模型提早读取到未来的数据来做预测。为了解决这一问题,天池的流评测就限制了测试集不可读。流评测通过给模型喂数据的形式掌握了模型预测的主动权,从而保障模型无法提前接触到未来的测试数据

最后介绍下我们去年举办的一个机器人竞赛,这也是我们首次尝试将 iros 的机械手臂赛事搬到云上举行。当时,我们面临着两大难题。第一,虚拟显示设备不具备 GPU 加速能力,导致模拟器帧率从几十帧降到线上的几帧,这严重影响了模型效率,可能导致模型无数据可读。后来我们自己开发了一套集群共享的 GPU 版本虚拟显示设备来解决这个问题。第二个问题是评测一次需要的时间非常长,大约要几天才能出一次成绩,这对于赛题方和选手来说都是难以接受的。因此,我们借助 TCC 的分布式评测架构将选手模型镜像到多台机器,协同完成全量场景的评测,将几天才能评测完的任务降低到了几个小时

TCC 与选手

其实在 TCC 的发展过程中,我们不只关注平台的技术发展,同时也会关注选手的成长。所以我们今年发布了第一本面向 AI 开发者的 Docker 电子书。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

其实,docker 技术不止应用于大赛,更逐渐成为 AI 开发者的必备技能之一。天池成了很多开发者第一次接触 docker 的场景。这么多年来,我们培养了一批又一批的开发者,培养他们的 docker 使用习惯。很多学生赛后跟我说 docker 很好用,他们在实验室已经用起来了。因为实验室往往是多个同学共用一台服务器,大家可能使用的环境都不一样,用了 docker 大家可以互不影响。

除了电子书,我们去年也尝试发布了一个竞赛工具包——ai-hub。这是一个 Python 包,并不局限于竞赛,在日常开发中也会经常用到,主要目的是方便大家在云端进行开发、训练。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

其中的 inferServer 模块已在大赛中得到了广泛应用。借助该模块,我们通过简单的几句调用就可以完成模型到服务的转化。

未来,我们会继续围绕开发者的需要开放更多功能模块,比如右边 Notice 模块。这个模块一直是我自己用的。因为训练模型是一个耗时的操作,开始训练后我需要去忙别的事情,但是我又希望训练异常或者训练结束时能够第一时间得到通知,这样可以节省我的时间和算力,快速开始下一个尝试。Notice 就提供了一个消息通知的能力,同时它也支持发送 plot 图像到手机端,因为云端往往没有显示器,想要看一下 loss 曲线或者某张图片其实是挺麻烦的,有了 ai-hub 就可以 plot 到手机端查看图表。

最后,我想讲一下 TCC 的愿景。我们希望 TCC 是做最公正的模型评估排行,做最专业的赛事保障,筛选最优秀的算法

TCC 致力于为选手提供公平公正的竞赛环境,通过技术的与时俱进和持续创新来保证赛题的权威,为参赛选手提供更好的参赛体验。

希望在大家的共同努力下,我们可以用算法解决更多实际的商业或社会问题。

陈漠沙:人工智能基石建设——数据集

大家好,我今天报告的题目是《人工智能基石建设:数据集》。我会从以下两个方面来进行陈述:第一部分我会整体介绍一下天池数据集;第二部分我会介绍下天池数据集的生态。

天池数据集简介

我们先从三组关键词说起。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

第一组关键词是 AlphaGo 围棋战胜李世石、自动驾驶和 AlphaFold 破解蛋白质分子折叠结构。「AlphaGo 围棋战胜李世石」是 16 年的一则新闻,标志着深度学习技术的兴起;最近几年,「自动驾驶」也从人类幻想开始逐步走向商用;今年年初,又有了一条很令人振奋的消息:AlphaFold 破解蛋白质分子折叠结构。这些关键词的背后体现的是人工智能技术(AI)。

第二组关键词是大家比较熟知的,它其实更多是从数据层面来阐述的,包括大数据、数据技术,还有最近比较火爆的数字经济。这背后体现出的就是大数据,我们叫 Big Data。

第三组关键词包括分布式计算、云计算、CPU、GPU,这背后体现的是算力,我们把它统称为 Cloud。

ABC 整体组成了人工智能的三驾马车:数据对应 Big Data,算力对应 Cloud,算法对应 AI。这三个元素之间是相辅相成的:数据规模的增加对算力提出了更高的要求;算力提升之后又会促进算法的提升;算法性能提升以后又会反过来反哺数据和算力。它们整体形成了一个正向的循环,保证了技术不断的迭代发展。

在这里面,数据是非常关键的一环,它是整个人工智能技术发展的基石。接下来我会从数据的角度来谈一下天池数据集建设的思路以及我们的一些经验

首先我先介绍一下什么是天池。天池是阿里巴巴于 2014 年推出的、面向全球的高端数据竞赛平台。经过这么多年的发展,天池目前已经承办了 400 多场机器学习、大数据的比赛,沉淀了 60 多万的大数据爱好者。这些开发者分布在 98 个国家的 4300 多所高校中。可以说,天池是中国目前最大的人工智能开发者社区。天池的比赛横跨很多行业,包括电商、金融、医疗、交通以及自然科学等多个领域。

通过比赛入口沉淀了这么多数据集以后,我们其实在想怎么能把这些数据集更好地组织起来,让它去服务社区的开发者。为此,我们提出了一个系统化的建设思路。

首先来看我们的使命。我们的使命是让开发者有机会接触和使用大数据,运用算法解决社会或者业务问题。我们的目标是通过制作并开放阿里集团脱敏后的精品数据集,联动第三方数据集提供方(比如高校、企业、事业单位)共建有影响力的 AI 科研数据平台,助力人工智能新基建发展。

从数据集的使用情况来看,其实科研占了非常大的比重。很多学生在写毕业论文的时候就已经在使用天池的数据集了,很多高校也使用天池的数据集发表了一些有影响力的工作,比如在 AAAI、ACL 等国际顶级会议上发表一些论文。

讲完天池的整体概况之后,我们来看一下天池数据集在行业里面的具体应用情况

以电商领域为例,我们提供了覆盖广告点击率预测、淘宝服装搭配、电商标题预测等核心场景的一些数据集。在自然科学领域,我们也做了气象预测(比如降雨量预测)等一些关注民生的赛题数据。在交通领域,我们有航班调度路径规划等有意思的赛题数据。这些赛题都来源于真实的业务场景。我们希望通过数据来撬动算法的应用与创新,更好地推动人工智能算法在行业里面的落地与应用

在思考数据集在行业中的价值的时候,我们提出了这样一个观点:建设行业多任务标准数据集是人工智能技术规模化应用的前提。这一结论的得出是基于以下思考。

首先,行业在数字化转型的过程中,缺乏标准数据集和数据集标准,导致有些成果无法量化或者公开化评估。在今年刚颁布的「十四五规划」中,我们可以看到:在数字经济章节,国家首次提出了要建设重点行业人工智能数据集。这也呼应了我们的观点。

其次,算法模型的落地需要提升模型的泛化能力。过往都是算法在某个特定数据集或者某个特定任务上表现优异,迁移到其他数据集或任务上性能就会有很大落差。如何提升模型的泛化能力和通用性?一个很自然的思路就是构建一个多任务的数据集榜单或者 benchmark 来进行模型泛化能力的评估。

这两个行业痛点是我们提出行业多任务数据集背后的思考逻辑

下图是我们在医疗领域做的一个多任务数据集榜单工作。这是一个中文医疗信息处理挑战榜,由中国中文信息学会医疗健康与生物信息处理专业委员会发起、天池以及其他从事医疗 AI 研究的单位共同协办,目标是建设成为医疗信息处理领域最权威的 benchmark,以促进行业的发展。

这个榜单囊括了信息抽取、医学临床试验入组/出组筛选分类、医学问答等常见的医疗 AI 任务,包括 8 个公开的任务。榜单一经推出便得到了业界的广泛关注。参与打榜的选手包括各大知名高校和医院科研单位。欢迎大家扫码参与或提出建议。

天池数据集生态

在介绍完数据集之后,我来讲一下天池数据集的生态。

我们知道,光有数据集是不够的,我们需要思考如何发挥数据集的价值。为此,天池为开发者创造了一站式的学、练、赛开放平台,目标是全方位地提升开发者、人工智能从业人员的算法水平,帮助他们积累更多实践经验。

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

在「学」这个板块,我们提供了天池 AI 训练营,目标是为 AI 入门玩家提供从零到一的完整学习路径。此外我们也推出了天池读书会,每周会定期邀请行业大咖来给开发者分享热门书籍和实战经验,让大家学习更有效率。

在「练」这个板块,我们提供的天池 Notebook是基于阿里巴巴机器学习 PAI 提供的 DSW 平台,提供了 IDE、计算资源一体化的实战平台。开发者可以在 notebook 上使用数据集,基于数据集开发算法,也可以通过优秀选手分享的解决方案来提升自己的能力。

经历了学和练之后,开发者们可以在比赛中一展身手,把自己所学应用到真实应用场景的数据集中,来验证效果,比如全球人工智能技术创新大赛。

很多选手通过天池一站式的学、练、赛平台和天池数据集掌握了人工智能技术。从这方面来讲,天池平台是在做一件公益性质的事情。

最后给大家提醒一点,如果要使用我们的数据集去做一些研究工作,并且要发表的话,大家需要进行规范的学术引用,格式如下:

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

如果有研究成果发表,大家需要通过天池的公共邮箱做一个申报,来获取激励。

圆桌论坛:天池学长的成长分享和业务思考

Q1:阿里云天池平台如今承载了电商、金融、工业、医疗等上百种场景的赛事,已合作或服务了百余家机构,这些赛事运作也为天池平台沉淀了海量的、高质量数据集,漠沙老师可否向我们科普下天池是如何参与这些数据集制作的?这应该是个门槛很高的事情吧?

陈漠沙:我们在做数据集的时候是非常讲究专业性的,要求专业的人来做专业的事情。从赛题的命制到数据的采集、标注,我们都有非常专业的团队来支撑。在拿到标注数据以后,我们还会有一个非常严格的质检流程。从而保证放出来的数据是高质量、高规格的。

Q2:所以我们可以理解天池平台的运作实际上需要大量的人力、物力、成本,那么天池作为一个有影响力的 AI 开发者社区,做这件事情的出发点是什么?尤其是在一家商业公司中,对天池的利好和挑战分别有哪些?

陈漠沙:这个问题其实让我想到了天池的初心。在 14 年的时候,大数据这个概念是非常火爆的。我们在走访一些高校的时候也发现,很多高校都已经开设了大数据的课程或者讲座,甚至还有一些学校成立了大数据学院。但当时的一个痛点是,老师和学生其实是接触不到企业大数据的。所以我们就在想,能不能把阿里的一些业务数据集开放给高校做科研。后来考虑到一些竞技性的因素,我们就把它做成了比赛。

在天池的发展过程中,我们发现很多复杂的算法其实还需要有比较强的算力。这些算力的成本是比较昂贵的,对绝大部分学生来说都不太现实。因此,我们就免费开放了天池实验室,学生可以在天池 Notebook 上玩转大数据,开发自己的算法。最终,我们是希望把天池打造成一个学习、比赛一体化的平台。

我们希望通过数据集更好地去服务科研和创新,同时助力传统行业进行数字化转型,让人工智能技术在业务场景中发挥更大的价值。我们的使命是让开发者有机会接触和使用大数据,并且通过算法来解决真实的社会、业务场景问题。天池会一直坚持自己的初心,让这个社会变得更美好。

Q3:从开放的天池平台中有收获的同学应该不少,乐乐也是其中一员。你作为曾经的天池大赛冠军,现在参与天池平台的架构设计、赛题开发、以及答辩评审等,天池平台对你有怎样的影响?特别是现在从事天池平台自身的建设,又有哪些体会?

盛乐乐:我觉得最大的体会应该是更看重模型的实用性。过去几年,我们有很多大赛并没有把模型效率作为大赛指标,但是在答辩环节经常会有专家老师询问选手模型的推理效率,并且很看重模型效率是否满足实际应用场景的需要。因此,TCC 应用后,我们也逐渐把模型效率考核纳入竞赛指标,让更多选手能在模型设计之初就将实用性考虑进来,从而推进优秀算法的可落地性。竞赛和实际应用不一样:在竞赛里面,分数是模型好坏的唯一标准;但是实际应用需要关注模型的实用性,包括如何落地、模型效率、泛化能力等。所以作为竞赛平台方,我们也在不断改进我们的评测机制,从而让竞赛不再只关注单一的指标。

Q4:今天收看节目的同学除了乐乐的心路经历,肯定也特别想了解参赛秘籍,可以给我们剧透一些吗?

盛乐乐:如果有秘籍的话,我就去打比赛了,哈哈~ 不过其实大赛也是不断轮回的过程,不同的场景和数据解决的是相同或者相似的问题,要学会利用历届大赛,把历史大赛分类总结。比如去年江小白的酒瓶瑕疵检测就对应了今年的广东工业瓷砖瑕疵检测。不同的场景数据,相同的瑕疵检测问题。直接借鉴历史大赛的代码分享和技术文章,再认真学习下当时的答辩视频,你也可以在新的大赛中获得很好的成绩。我觉得这算是一条秘籍吧。

Q5:所以参加天池竞赛到底需要哪些技术能力?门槛怎样?

盛乐乐:首先你需要选定一个方向,如 CV、NLP,然后找到对应的学习路径。天池平台其实也为刚入门的同学提供了一个类似知识树的页面。通过这个页面,你可以看到每个方向最简短的学习路径,对这个领域有一个大致的了解。

同时,你要学会边学边练,从学习赛开始。学习赛是我们从历届比赛中筛选出来的一些优秀比赛,已经有很多前辈在学习赛里面沉淀了很多优秀资料。一般的学习赛都会有一个 baseline,你可以从 baseline 开始,学习他们的代码,然后融会贯通。到了正式的比赛(大概两三个月的时间),如果你能坚持下去,在正式赛里面不断地和其他同学交流、学习,然后尝试这个领域不同的一些算法,那么两个月之后,你就会不知不觉地发现其实自己的能力已经得到了非常大的提升。这个时候,在这个领域里面,其实你已经有了相当丰富的经验了。

要参加天池的比赛,除了专业能力,你还要掌握基础的 docker 能力,才能完成大赛的提交。这部分可以参考我前面分享的面向 AI 开发者的 docker 电子书。其实你只需要掌握如何把自己的代码打包成镜像在云服务器上运行起来即可,不需要精通所有的操作,docker 是工具,满足需要即可。

Q6:我留意到刚才乐乐一直在强调数据集的使用。看起来在天池平台上,整个的使用体验和市面上的数据集概念是有明显区别的。漠沙老师,天池在数据集的构建方面到底有哪些特点?

陈漠沙:我觉得天池数据集有四个特点。第一个特点是,它是跟天池大赛结合起来的,我们也有很多独家的产业数据集在里面。第二点是安全性。因为针对不同安全等级的数据,我们会提供不同的安全策略来保证数据的安全。数据在我们平台上的安全系数是比较高的。第三点是系统性的一站式数据集托管平台。从数据的上线、申请到后续的论文引用,我们提供的是一个一体化的系统服务。如果你的数据集有一些论文代码,你也可以借助直播等形式在天池平台上做一些解读。最后一点就是刚刚说的专业性。在数据集的建设过程中,我们会整合阿里巴巴内部及外部的一些专家资源。以我们最近推出的一个中文信息处理挑战榜单为例,这个数据集由中国中文信息学会医疗健康与生物信息处理专业委员会发起,我们在参与过程中得到了阿里达摩院、阿里健康和夸克浏览器等兄弟部门的帮助,可以保证榜单的专业性和权威性。

Q7:其实业内一直都热衷讨论的话题就是如何让数据真实有效的同时,确保隐私和安全,这点天池是怎么做到的呢?

陈漠沙:首先一定要重视的一个问题是数据的合规性,比如像人脸、患者电子病历等涉及生物指纹的数据我们是不能去开放的。一些医学影像的数据,虽然我们平台有开放,但也是患者签署知情同意书之后才拿来做比赛的。我们背后有一个非常专业的法务团队帮我们去做审核。拿到数据以后,如果它的合规性没有问题,我们内部还有一个非常严格的审核机制。第一道是机器审核,用于拦截恐怖、色情等不健康的内容,保证开放出去的数据集是健康合规的。开放之后,如果社区开发者反馈说数据有问题,我们运营同学也会第一时间去跟进、审核,发现有问题就会下架。

在技术层面,我觉得阿里巴巴在数据开放层面走得是很靠前的,比如数据如何脱敏,如何打水印,这些研究成果已经在天池中采用了。另外,我们还会跟进一些非常前沿的数据安全技术,比如联邦学习区块链,不断升级我们的数据安全策略。

最后,从平台层面来讲,盛乐乐老师提到了TCC这样一个平台。数据开放模式包括以下几种:1)数据可下载;2)数据可见、不可下载;3)数据不可见、不可下载。针对不同的数据安全等级,TCC 会采取不同的数据安全策略。

综合以上三点,我们其实是能比较好地保证数据隐私和安全的。

Q8:天池平台在这方面的建设确实领先行业,相信未来会有越来越多的开发者通过平台了解更多技术,也一同加入平台的建设,两位老师可以给屏幕前的选手们一点寄语吗?鼓励鼓励!

盛乐乐:第一,坚持到最后才会胜利。其实我之前也参加过一场天池竞赛。竞赛就是逆水行舟。当时,我们是每天早上 8 点起来看排行榜更新。如果你前一天没有去更新你的成绩,就是没有往前走,第二天你一定就被别人超越了。在排行榜上,你可以看到今天你比昨天下降多少名。所以说找到一个志同道合的队友相互鼓励非常重要,比如我就是很难依靠自己走到最后的一个人。

第二,对数据的理解要深入。新手往往容易忽略数据集的重要性而放大模型的重要性,这是个误区。通常情况下,数据和模型花的时间要尽量做到五五分。当你的模型优化遇到瓶颈时,一定要回头看看数据。

第三,保持学习,尽量多尝试不同的方法。你在参加比赛的时候会遇到各种选手,大家各自用不同的方法。尽量把常用的方法都跑一遍。真正地自己跑一遍之后,你才能发现每一个方法到底有什么好,有什么不好,最后才能融会贯通,得到最优的一个解决方案。

陈漠沙:我觉得乐乐老师刚才的分享已经非常精彩、非常到位了。我想从其他角度提几点要求。第一点,我希望学生在取得好的成绩之后能够把经验分享给我们的社区,让社区更加繁荣。第二点其实要回到天池的初心,我们是做技术公益的。我们希望学生在参加这个比赛,通过数据集解决一些真实场景问题的时候,能有更多的思考。想一想如何能通过技术促进国家、社会的发展。

产业阿里云天池
相关数据
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
点击率预测技术

在在线广告中,点击率(CTR)是评估广告效果的一个非常重要的指标。因此,点击预测系统是必不可少的,并广泛用于赞助搜索和实时出价。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~