本次活动是阿里妈妈携手 IJCAI 2018 大会,以及阿里云天池平台共同启动的国际广告算法大赛。比赛共吸引了 6137 名选手,其中海外地区选手 729 人,范围则覆盖了 50 多个国家和地区。在初赛海选之后,赛会从复赛 TOP20 的队伍中产生了 8 支队伍进入决赛。在赛事结束后,所有获奖团队分享了共计 37,000 美元的奖金池。
贴近实际的赛题设置
作为阿里经济体举办的大型数据竞赛,本次大会的赛题自然也选择了其积累深厚的领域之一——电商广告点击。众所周知,阿里等科技公司在过去几年中一直试图采用深度学习、在线学习、强化学习等人工智能技术预测用户的购买意向。然而,作为一个复杂的生态系统,电商平台中的用户行为偏好、商品长尾分布、热点事件营销等因素依然给转化率预估带来了巨大挑战。如何高效准确地预测用户的购买意向,是人工智能和大数据在电子商务场景中需要继续解决的技术难题。
本次比赛中,赛会方以阿里自有的电商广告为研究对象,提供了基于真实场景(经过脱敏处理)的数据,参赛选手们需要通过人工智能技术构建预测模型,预估用户的购买意向。即给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR)。
这是度量营销效果、商家投入产出比的重要指标。结合业务场景和不同的流量特点,比赛定义了两类挑战:
1. 日常的转化率预估
2. 特殊日期的转化率预估
机器之心发现,这次算法大赛使用的数据集既贴近实际,也体现了难度:其中包含七天的正常时间数据,以及其后时长为一天的购物节峰值数据。初赛训练数据 48 万,测试数据集 6 万;复赛的训练数据集 1000 万,测试数据集则为 173 万。
这次竞赛向全社会开放,各个大学、科研单位,以及来自科技公司的开发者们组成了多个三人以内的团队报名参赛。在入围决赛的 8 支团队中,我们也可以看到选手不仅有来自大型科技公司的研发人员,也有来自各个高校的在校学生,其中还包括几名本科生。
本次国际算法大赛的评委包括:悉尼科技大学数据科学学院院长张成奇、康奈尔大学威尔医学院助理教授王飞、上海交通大学助理教授张伟楠、国家科技部云计算专家组成员 / 天壤智能创始人及 CEO 薛贵荣、阿里巴巴研究员吴波、阿里巴巴资深算法专家杨红霞、阿里妈妈资深算法专家刘凯鹏等人。
6 月 5 日,决赛队伍的成员们在位于杭州西溪的阿里巴巴总部进行了最终答辩。
获奖团队
这次大赛不仅为各位数据科学高手提供了展示自己实力的舞台,也是一个开发者之间互相认识、互相交流的好机会。据机器之心了解,在参与决赛的队伍中,很多团队是几名强手在线上认识并组成的队伍:他们原本互相并不认识,数据竞赛让他们彼此成为了朋友。
在 6 月 5 日下午最终的答辩之后,赛会最终选出了比赛前三名与两个获得「创新」特别奖的队伍。
由中科院计算所、香港科技大学的庄晓敏、张卫民、李昊阳组成的团队,以及吉林大学、山东大学、中南大学的李强、沈冬冬、蒋浩然所组成的团队获得了本次比赛的特别奖。
来自浙江工业大学陈波成、中南大学罗宾理、天津大学吴昊所组成的团队获得了三等奖。
来自工业界的选手周耀、李智和郭鹏博组成的团队获得了二等奖。
最终,一等奖由同样是来自工业界的花志祥获得。「冠军团队让人眼前一亮地使用了迁移学习的方法,简单有效且思路清晰。」大赛评委,阿里巴巴资深算法专家刘凯鹏表示。
作为本次大赛的冠军获得者,花志祥已经是一名数据竞赛的「老手」,他已有 Kaggle Grandmaster 称号,并位列 Kaggle 总榜第 12 位。本次比赛之前,他也在天池平台上获得过五个数据竞赛的第一名。
「最简代码」方案获胜
在决赛的答辩环节中,花志祥分享了自己的获胜方案。
根据初赛、复赛组委会提供的数据,选手认为数据呈现了某次购物节前七天,和购物节当天消费者行为和店铺点击 / 购买数据的状态——消费者的购物数字在前七天保持稳定,在购物节前一天略有下降。在购物节当天,消费数量突然暴增。而比赛的要求是预测购物节期间的消费数据。这种特性也成为了比赛的难点:如何利用常规日期的消费习惯预测购物节。
在分析了数据之后,花志祥决定使用迁移学习的观点,利用前七天普通日和购物节当天上午的销量训练模型,其结果作为 feature。随后建立一个新的模型来预测购物节后期,即第八天下午的销量。
上图所示为获胜方法的主要结构,其中 Level-1 和 Level-2 表示两个 LightGBM 模型的处理过程。Level-1 将使用预热期的所有数据对这一时期的购物行为建模,并将它在购物节当天的预测作为第二个模型的输入,这样就能避免预热期与购物节之间的剧烈变化。此外,第一个模型的输出特征还为第二个模型提供先验知识,因而能与当天的数据一起更高效地建模购物行为。
值得注意的是,和入围决赛的所有其他模型集合方法不同,获胜模型仅使用了 LightGBM,并取得了最优的效果。
在模型之外,花志祥还介绍了针对数据处理的思路。在特征工程上,选手参考了四种特征:统计特征、时差特征、排序特征、表征特征。其中统计特征即浏览商品数等用户行为的统计特征,时差特征即用户两次购物行为之间的时长,排序特征即用户与商品的交互次数。在表征特征中,选手使用了词袋和其它统计数据找出重要的属性及选手的特征。这些独特的特征工程确保了机器学习模型能正确地对用户购物行为进行建模。
最后,获胜算法的核心代码很短,只有一页。
未来展望
决赛中,我们发现很多队伍都展示了多模型集合的方法,这也是目前各大数据竞赛中普遍出现的方法。不过,最终排名第一的方法为我们带来了新的思路。
在参与这次比赛的过程中,参赛者们对于电商用户行为分析任务有了更深入的理解,也对多种不同机器学习算法进行了实践。一些参赛者表示,在未来,他们还希望继续合作,尝试对自己的模型做进一步优化。另一方面,轻量化的数据分析框架也可以被应用于工业应用中,为企业带来实际的收益。
据悉,本次比赛的最终颁奖仪式还将于 7 月在瑞典斯德哥尔摩的 IJCAI 2018 大会上举办。