「一人团队」勇夺冠军:IJCAI 2018 阿里妈妈国际广告算法大赛圆满落幕

6 月 5 日,IJCAI 2018 阿里妈妈国际广告算法大赛在杭州落下帷幕。本届比赛于 2018 年 2 月启动,吸引了 50 个国家和地区,超过 6000 名选手报名参赛。最终,由选手花志祥一人组成的「DOG」队从 8 支决赛团队中脱颖而出,获得了冠军。他和获奖的其他四支队伍也同时赢得了前往瑞典斯德哥尔摩参加 IJCAI 2018 大会的资格。

冠军获得者花志祥与赛会评委合照

本次活动是阿里妈妈携手 IJCAI 2018 大会,以及阿里云天池平台共同启动的国际广告算法大赛。比赛共吸引了 6137 名选手,其中海外地区选手 729 人,范围则覆盖了 50 多个国家和地区。在初赛海选之后,赛会从复赛 TOP20 的队伍中产生了 8 支队伍进入决赛。在赛事结束后,所有获奖团队分享了共计 37,000 美元的奖金池。

贴近实际的赛题设置

作为阿里经济体举办的大型数据竞赛,本次大会的赛题自然也选择了其积累深厚的领域之一——电商广告点击。众所周知,阿里等科技公司在过去几年中一直试图采用深度学习、在线学习、强化学习等人工智能技术预测用户的购买意向。然而,作为一个复杂的生态系统,电商平台中的用户行为偏好、商品长尾分布、热点事件营销等因素依然给转化率预估带来了巨大挑战。如何高效准确地预测用户的购买意向,是人工智能和大数据在电子商务场景中需要继续解决的技术难题。

本次比赛中,赛会方以阿里自有的电商广告为研究对象,提供了基于真实场景(经过脱敏处理)的数据,参赛选手们需要通过人工智能技术构建预测模型,预估用户的购买意向。即给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR)。

这是度量营销效果、商家投入产出比的重要指标。结合业务场景和不同的流量特点,比赛定义了两类挑战:

1. 日常的转化率预估

2. 特殊日期的转化率预估

机器之心发现,这次算法大赛使用的数据集既贴近实际,也体现了难度:其中包含七天的正常时间数据,以及其后时长为一天的购物节峰值数据。初赛训练数据 48 万,测试数据集 6 万;复赛的训练数据集 1000 万,测试数据集则为 173 万。

这次竞赛向全社会开放,各个大学、科研单位,以及来自科技公司的开发者们组成了多个三人以内的团队报名参赛。在入围决赛的 8 支团队中,我们也可以看到选手不仅有来自大型科技公司的研发人员,也有来自各个高校的在校学生,其中还包括几名本科生。

本次国际算法大赛的评委包括:悉尼科技大学数据科学学院院长张成奇、康奈尔大学威尔医学院助理教授王飞、上海交通大学助理教授张伟楠、国家科技部云计算专家组成员 / 天壤智能创始人及 CEO 薛贵荣、阿里巴巴研究员吴波、阿里巴巴资深算法专家杨红霞、阿里妈妈资深算法专家刘凯鹏等人。

6 月 5 日,决赛队伍的成员们在位于杭州西溪的阿里巴巴总部进行了最终答辩。

获奖团队

这次大赛不仅为各位数据科学高手提供了展示自己实力的舞台,也是一个开发者之间互相认识、互相交流的好机会。据机器之心了解,在参与决赛的队伍中,很多团队是几名强手在线上认识并组成的队伍:他们原本互相并不认识,数据竞赛让他们彼此成为了朋友。

在 6 月 5 日下午最终的答辩之后,赛会最终选出了比赛前三名与两个获得「创新」特别奖的队伍。

由中科院计算所、香港科技大学的庄晓敏、张卫民、李昊阳组成的团队,以及吉林大学、山东大学、中南大学的李强、沈冬冬、蒋浩然所组成的团队获得了本次比赛的特别奖。

来自浙江工业大学陈波成、中南大学罗宾理、天津大学吴昊所组成的团队获得了三等奖。

来自工业界的选手周耀、李智和郭鹏博组成的团队获得了二等奖。

最终,一等奖由同样是来自工业界的花志祥获得。「冠军团队让人眼前一亮地使用了迁移学习的方法,简单有效且思路清晰。」大赛评委,阿里巴巴资深算法专家刘凯鹏表示。

作为本次大赛的冠军获得者,花志祥已经是一名数据竞赛的「老手」,他已有 Kaggle Grandmaster 称号,并位列 Kaggle 总榜第 12 位。本次比赛之前,他也在天池平台上获得过五个数据竞赛的第一名。

「最简代码」方案获胜

在决赛的答辩环节中,花志祥分享了自己的获胜方案。

根据初赛、复赛组委会提供的数据,选手认为数据呈现了某次购物节前七天,和购物节当天消费者行为和店铺点击 / 购买数据的状态——消费者的购物数字在前七天保持稳定,在购物节前一天略有下降。在购物节当天,消费数量突然暴增。而比赛的要求是预测购物节期间的消费数据。这种特性也成为了比赛的难点:如何利用常规日期的消费习惯预测购物节。

在分析了数据之后,花志祥决定使用迁移学习的观点,利用前七天普通日和购物节当天上午的销量训练模型,其结果作为 feature。随后建立一个新的模型来预测购物节后期,即第八天下午的销量。

上图所示为获胜方法的主要结构,其中 Level-1 和 Level-2 表示两个 LightGBM 模型的处理过程。Level-1 将使用预热期的所有数据对这一时期的购物行为建模,并将它在购物节当天的预测作为第二个模型的输入,这样就能避免预热期与购物节之间的剧烈变化。此外,第一个模型的输出特征还为第二个模型提供先验知识,因而能与当天的数据一起更高效地建模购物行为。

值得注意的是,和入围决赛的所有其他模型集合方法不同,获胜模型仅使用了 LightGBM,并取得了最优的效果。

在模型之外,花志祥还介绍了针对数据处理的思路。在特征工程上,选手参考了四种特征:统计特征、时差特征、排序特征、表征特征。其中统计特征即浏览商品数等用户行为的统计特征,时差特征即用户两次购物行为之间的时长,排序特征即用户与商品的交互次数。在表征特征中,选手使用了词袋和其它统计数据找出重要的属性及选手的特征。这些独特的特征工程确保了机器学习模型能正确地对用户购物行为进行建模。

最后,获胜算法的核心代码很短,只有一页。

在决赛中,花志祥展示的获胜模型代码。

未来展望

决赛中,我们发现很多队伍都展示了多模型集合的方法,这也是目前各大数据竞赛中普遍出现的方法。不过,最终排名第一的方法为我们带来了新的思路。

在参与这次比赛的过程中,参赛者们对于电商用户行为分析任务有了更深入的理解,也对多种不同机器学习算法进行了实践。一些参赛者表示,在未来,他们还希望继续合作,尝试对自己的模型做进一步优化。另一方面,轻量化的数据分析框架也可以被应用于工业应用中,为企业带来实际的收益。

据悉,本次比赛的最终颁奖仪式还将于 7 月在瑞典斯德哥尔摩的 IJCAI 2018 大会上举办。

产业阿里妈妈算法大赛IJCAI 2018迁移学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章