连续四年万人参赛,腾讯广告算法大赛「逆算」赛题火了,冠军团队:我用 BERT

「逆算」赛题 + 百万奖池,腾讯广告算法大赛已经成为了全球最受瞩目的算法赛事。

在国内机器学习领域里,有这样一个享有盛名的数据竞赛,虽然每年仅举办一届,但每届都能吸引上万名技术人前来参加,它奖金丰厚,评委阵容豪华,还提供优质的计算资源供选手使用。

它就是腾讯广告算法大赛,这场全球最受瞩目的算法盛事今年已经举办到了第四届。

腾讯广告副总裁蒋杰为 2020 腾讯广告算法大赛决赛致辞。

今年的腾讯广告算法大赛早在开赛之前就吸引了颇多技术圈层的期待和关注,加上全新升级的赛制、加码奖金池和顶级评委阵容的加持,自 4 月 15 日正式开赛以来,比赛吸引了来自超过 1,000 所国内外院校和 3,000 家企事业单位的 11,000 + 人报名,这一数字超过同类算法竞赛 2 倍以上。

毫不夸张地说,腾讯广告算法大赛已经成为了全球最受瞩目的算法竞赛之一。

当前,大数据技术与应用逐渐成为营销链路上不可或缺的一环,随之衍生的数据竞赛也成为了各家企业探索前沿课题、吸纳人才的重要方式之一。本届腾讯广告算法大赛则另辟蹊径,针对广告行业的经典假设,出具了一道「逆向思维」的全新赛题。

与此同时,腾讯广告算法大赛的奖金纪录也再度自我超越,总奖池近百万人民币,冠军奖金约 50 万人民币,这也引来「无数技术英雄竞折腰」。

从结果「逆推」原因,趣味又创意的「逆算」赛题

经过近三个多月的角逐, 10 支入围决赛环节的队伍,于 8 月 3 日在深圳腾讯滨海大厦展开了最后的算法争锋。

本届腾讯广告算法大赛由腾讯广告主办,腾讯云 AI、腾讯大数据、腾讯招聘、腾讯高校合作以及英特尔联合举办。与此同时,腾讯会议为大赛全程提供远程协同、线上会议及直播等服务,英特尔和 TI-ONE 共同支持 AI 算法平台。

决赛现场,腾讯广告算法大赛邀请到了腾讯广告副总裁蒋杰、微众银行首席 AI 官杨强、科大讯飞副总裁刘鹏、腾讯数据平台部副总经理刘煜宏、英特尔全球大客户总监米琦、腾讯云产品部 AI 基础产品中心总经理徐晓敏等诸多行业专家作为评委嘉宾莅临现场,此外腾讯多位技术总监也在现场给予十强团队专业的点评和指导。

腾讯广告算法大赛十强队伍和评委、嘉宾合影。

更值得关注的是今年的赛题「广告受众基础属性预估」。和以往比赛分析广告转化率、预估曝光效率的传统思路不同,本次赛题以在无法获取用户信息的情况下尽量准确地预估用户属性为目的。

通常,开发者们会认为人对于广告的偏好会因为年龄和性别不同而有所区别,但验证这一现象时所采用的方法是在已有这些属性之后进行区分推荐,随后对比推荐效果的方式来完成。

今年的赛题「广告受众基础属性预估」尝试从相反方向验证这一假设,这既是行业中会面临的问题,也符合目前 AI 算法落地更加注重用户隐私的趋势。

具体来说,这次比赛向参赛者们提供一组用户在长度为 91 天时间内的广告点击历史记录作为训练集。每条记录中包含了日期、用户信息,被点击广告的信息(素材 ID、广告 ID、产品 ID、产品类目 ID 等),以及该用户当天点击该广告的次数。测试数据集则是另一组广告点击历史记录,不包含这些用户的年龄和性别信息。

「这是一个多任务学习的预测,每个用户在不同的 ID 中是自然的路径。这既是一个节点分类任务,也可以看做是一个短文本分类的 NLP 问题,同样也可以看做是点击率的预估问题。」入围决赛队伍「挥霍的人生」成员罗宾理说道。

冠军团队:我用 BERT

创新升级的赛题,需要参赛者们找到全新解法。在2020腾讯广告算法大赛中,Transformer 和 BERT 成为了高频词。


要说近年来人工智能 NLP 领域里最高频的热词,预训练模型 BERT 当之无愧,但在数据竞赛的环境下,由于算力的限制,使用新方法的思路往往只能停留在 PPT 最后的「远期规划」阶段,在实践中往往让位于 LightGBM、LSTM 等传统方法。但令人惊喜的是,本次腾讯广告算法大赛的冠亚军团队都通过结构优化的方法,在方案中都成功使用了 BERT ,并凭此获得了绝对领先的分数。

本届比赛的冠军团队 DYG 战队最终捧走了 7 万美金(近 50 万人民币)的高额大奖。团队成员包括武汉大学计算机科学硕士、算法工程师王贺,中山大学 - 微软亚洲研究院联合培养博士生郭达雅,以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强。值得一提的是,前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主,某种程度上,该战队也算是卫冕成功。

左起:腾讯广告副总裁蒋杰,「DYG」战队王贺、郭达雅、梁少强。


在 BERT 部分,假设每个广告为一个单词,将用户点击序列看作一句话,这样就可以将问题转为 NLP 文本分类问题。「我们使用 BERT 作为 Encoder 进行编码,在这里使用 12 层 Transformer。每层 Transformer 将上一层的隐变量作为输入,经过 Multi-Head Self Attention 和 Layer Norm 等,最后输出交互更高的隐变量。」王贺介绍道。

不过,预训练方虽然在 NLP 领域里获得成功,但在广告任务中词表高达七八百万的场景下,存在因数据稀疏而存在参数量过大且难以训练的问题。针对这些挑战,DYG 团队使用了两阶段预训练的方法对 BERT 进行训练,其中第一阶段使用 word2vec 预训练广告的 embedding,目标是将类似的广告进行聚类。在第二阶段,这一团队采取了很关键的策略:把词表缩小到 10 万(提取 top10w,其余为 unk),从而使得 BERT 可以在四块 Tesla V100 上运行起来。

最后,DYG 战队把点击广告的受众人群性别年龄分布融入到网络之中:通过将训练集分成五个部分(其中四个部分有标签),假设用户点击 n 个广告并来自第一个人群,那么就可以把剩下的作为种子人群,计算出每个广告点击者的性别年龄分布,用四层 transformer 进行融合。

DYG 战队在决赛答辩环节分享解题思路。

通过引入 BERT 模型,DYG 战队在初赛中很快就锁定了第一名的位置,在初赛和复赛成绩一直大幅领先。他们获得最终的冠军,可以说是实至名归。

而由算法工程师林有夕、广东工业大学计算机硕士孙泽勇、同济大学计算机硕士唐静组成的「山有木兮」战队也凭借出色的表现获得了亚军,由南京大学在读硕士刘冀、算法从业者周宏、哈尔滨工业大学在读硕士王志昊三人组成的「微醺」战队获得了季军。

改进 BERT 并将其应用到用户属性预测场景,为业界广告推荐算法找到了新的解题思路,DYG 战队也收获了价值 50 万元的头奖。「这是我第三年参加腾讯广告算法大赛,能感觉赛题一年比一年具有挑战性,而比赛的收获也越来越多。我希望能够把这些技术运用到工程实践当中,也希望明年能够继续参加这一比赛。」王贺在颁奖现场如是说。

腾讯广告副总裁蒋杰也对本次所有获奖团队表达了祝贺,并展望了下一年的赛事:「欢迎各位选手明年持续关注腾讯广告算法大赛,新一年我们也将带来更多的赛事升级和更丰厚的奖金池」。

腾讯广告:新的定位,新的技术愿景

每年一度的算法大赛只是腾讯广告技术能力的体现之一。实际上在 QQ、腾讯看点、腾讯视频、腾讯新闻等腾讯系产品中,我们都可以看到腾讯为不同用户展示的个性化广告。

广告业务一直是机器学习技术应用最前沿的领域,腾讯拥有国内领先的互联网资源池,广告资源位覆盖即时通讯、新闻、游戏、视频等众多场景,基于 AI 算法的技术需要支撑日均百亿级的曝光量,对数据分析及处理能力的要求可见一斑。

腾讯拥有中国领先的互联网流量池,以社交实现全场景协同。

从 2011 年的广点通为起点,不论是 2015 年成立的社交与效果广告部,还是 2018 年 「930 变革」之后成立的广告营销服务线,腾讯广告一直以极快的速度发展壮大。

在行业内,腾讯广告的技术水平毫无疑问处于第一梯队,但它依然保持着持续的自我革新和技术探索。而这一议题在去年年底蒋杰担任腾讯广告副总裁后,显得愈发重要。蒋杰于 2012 年加入腾讯,目前担任腾讯广告副总裁,现任腾讯广告副总裁、腾讯广告营销服务线平台总经理、腾讯智慧零售产研副总裁及腾讯数据平台部总经理,全面负责腾讯广告平台产品技术管理、腾讯智慧零售业务的产品研发及腾讯数据业务。

「来到腾讯广告,我把自己定位成一位『广告新人』,新人的好处是没有包袱,更能主导革新和变化。」蒋杰说道。「2020 上半年,腾讯广告的产品技术团队已经通过持续的整合工作,更好地为企业全链路数字化转型打下扎实基础。

蒋杰在加入腾讯广告后所做的一切工作可以用两个字来概括:整合。今年 7 月,腾讯广告通过新版投放管理平台 ad.qq.com(ADQ 投放端)的上线发布,完成了腾讯广告投放端的整合;而投放端口统一的背后,也涉及到后台投放策略算法、实验系统、创意和落地页等多项能力和技术的全面整合。

自去年以来,腾讯广告对自身算法的底层框架做了多项创新和优化。「在转化率预测上,我们的平台如今已经能支持上千个广告位的精排,底层容量相比原来有数十倍的提升,」蒋杰表示。「我们正在引入更多在线算法支持,与此同时,我们也在持续进行基于深度学习算法的实现,和 BERT 这样的最新技术演进探索,让数据变得更有价值,这是我们专注在做的一件事情。


而腾讯广告在今年 6 月也提出了构建商业服务中台的新定位,如何服务好广告主、销售团队和自身的流量团队,是摆在蒋杰为代表的领导团队面前的三个重要议题。

传统的广告平台是「按照点击率付费」的一锤子买卖。如今,广告主更希望在广告投放之后能够获得用户更深层次的转化,助力增长、成交与复购,形成从用户触达到影响再到转化的完整链路。腾讯广告提出「商业服务中台」的全新定位,正是希望把「交易全链路」的思想用中台的模式连接起来。

我认为商业服务中台并不是高屋建瓴地空想出来的,而是腾讯广告在服务广告主需求的过程中自然而然地沉淀下来的。」蒋杰如是说。

让用户与广告在对的时间、对的场景美好相遇,「连接用户与商业,实现交易全链的用户增长」,是腾讯广告技术团队的愿景,更是互联网在广告商业化道路上的恒久命题。

在腾讯 2020 年第一季度的财报中,腾讯的网络广告业务同比增长 32% 至 177.13 亿元人民币。社交及其他广告收入同比增长 47% 至人民币 145.92 亿元。腾讯将广告业务收入的增长归因于「提供了具备吸引力的广告投放效率」等因素,腾讯广告在底层技术发力的效果也初见端倪。

技术的背后是人才的持续引进和培养。除了举办每年一届的全球顶级赛事之外,腾讯广告也持续通过与腾讯高校合作联合发起「犀牛鸟专项研究计划」,开放腾讯广告业务中的技术挑战,搭建产学研合作平台,共同探索影响广告技术长远发展的前沿问题,培养优秀人才。

连续四年举办全球最受瞩目的算法大赛,腾讯广告向外界展现出了求贤若渴的开放心态,它也将以「美好连接,智慧增长」的品牌主张,持续用技术助力企业进行全链路数字化转型。期待下一年,全新升级的腾讯广告算法大赛将会给我们带来更多的技术启迪。

参考内容:https://mp.weixin.qq.com/s/-lizDyP2y357plcG1M64TA

产业BERT腾讯
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

推荐文章
暂无评论
暂无评论~