Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

窦英通 作者

我分析了上万个微信红包数据,得到了这些发现(附数据集)

引子

笔者在2015年7月创建了一个以分享滴滴打车红包为主的微信群聊,创建的本意是为了方便大家在分享红包时不打扰别人,在乘车需要红包时能方便地领到红包。随着群人数和分享红包种类的增加,该群已成为一个各类 O2O 服务APP优惠券红包的集散地。从2015年8月到2017年8月,本群产生了约两万条红包分享记录,笔者最近将这些记录导出,通过数量,时间,语义等维度分析这些数据,下面将笔者自己的解读分享出来以供大家学习交流。

数量维度

本群主要成员为北京某大学的大学生。两年时间里本群共产生21477条聊天记录,其中有效的红包分享记录约为20000条,群成员在10个月内从几十人增长到500人满群。

聊天记录可导出为 Excel 表格格式,单条聊天记录的格式如图1所示。

图1

每一列的数据分别为微信群群号(没错,微信群也有群号)、消息发送时间,发送者微信昵称,发送者微信号,发送形式(接收或发送),消息类型(文本、网页、动画表情、照片壁纸)和消息内容。因为大部分红包都是以网页的形式分享,而且每种 APP 只使用各自固定的域名,例如滴滴打车使用 xiaojukeji.com ,饿了么使用 ele.me。通过对不同域名数量的统计,笔者分析出了红包数量最多的12个APP 以及他们的数量比例(图2),这12类 APP的红包数量占所有红包总量的95%。

图2

从图中可以看出外卖红包是所有红包种类中数量最多的,因为衣食住行中,“食”的频率最高。饿了么红包数量占所有红包数量的近一半,这与市场调查机构公布的2016和2017年外卖 APP 市场份额报告的结论(饿了么与美团外卖市场份额不相上下)不一致。这是因为微信群聊参与者身份和地域的局限性导致该统计结果只能反应小范围内外卖APP 的市场份额。

除了图中的 APP 之外,红包数量比较多的 APP 还有:去哪儿、由你单车、嘀嗒拼车、爱鲜蜂、一米鲜、携程、 每日优鲜、乐惠、优酷、开心消消乐、Airbnb、中国移动、触宝、有货。需要补充的是,图2中京东的红包包括了京东商城、京东到家和京东金融,网易的红包包括了网易严选,考拉海购和阴阳师。

以上 APP 基本上涵盖了中国大部分主流提供 O2O 服务的APP,同时也体现了大学生的消费特征。共享出行,外卖,生鲜配送,网购,娱乐休闲是当前大学生主要的消费形式。

从图1中可以看到每个红包在分享时都有一条相应的广告语,笔者分析了这些广告语的高频词汇,并将其做成词云图,如图3所示。

图3

细心的读者可能发现红包的广告语有几种类型,一种是宣传 APP (及其提供的服务)本身,一种是其他品牌的广告,常见的有影视剧和品牌促销活动等,还有一种类型是 APP 自身的明星代言,例如饿了么的王祖蓝和科比。我分析了2015年8月,2016年8月和2017年8月这三个月中这三类红包的比例,如图4所示。

图4

2015年夏天是O2O服务刚开始迅猛发展的时候,那个时候他们的市场份额还不高,所以红包主要还是以宣传自家服务为主,到了2016年夏天, O2O服务竞争到了火热阶段(外卖领域和出行领域),那个时候的红包折扣力度也比较大,分享人数较多,所以我们看到其他品牌广告占比明显上升,红包冠名广告可以作为O2O服务提供商的收入来源之一。笔者没有行业经验,但猜测红包冠名广告的曝光率和点击率要高于一些其他的广告形式。2017年夏天,这时外卖和出行市场格局已定,红包的折扣力度减小,分享人数下降,所以大部分广告是针对自己APP的宣传,常见的广告语是“第X个领到红包的金额最大”,以刺激大家点击链接进而产生消费。

时间维度

图5是红包数量前七名的APP红包数量两年间的变化趋势。

(建议横屏观看)

图5

从红包数量变化趋势中可以得到以下几点结论:首先,饿了么和美团外卖的红包是所有外卖红包中的主流。在2016年8月之前,美团外卖的红包数量要高于饿了么红包数量,之后饿了么红包数量一路反超,远远高于美团红包数量。造成变化的原因不是饿了么增加推广力度,而是因为大部分群成员(北京某高校学生)从一个校区整体迁往了另一个校区,而美团外卖在原校区的规模相对于饿了么要比新校区的规模大。同样,在2017年6月之后,红包数量的整体下跌是因为大部分群成员从大学毕业,对外卖的需求下降。这从另一个角度反映了小规模数据的不稳定性。

第二,同样是外卖红包,我们可以看到在2016年2月和2017年2月,也就是春节和寒假的时候,各类外卖 APP 的红包的数量都明显下跌,显而易见,大部分群成员都回家过年,对外卖的需求大大减少。有趣的是,滴滴红包数量并没有明显变化,一方面是春运的影响,另一方面说明滴滴对三四线城市的下沉做得比较好。

最后,我们看到滴滴红包的数量稳定增长一直到2016年7月达到最高峰,从2016年8月开始一路下跌。笔者认为造成下跌原因和群成员的关系不大,主要原因是2016年8月1日滴滴宣布收购优步中国,国内的共享出行领域滴滴一家独大,笔者清楚记得从那时起滴滴的红包优惠力度大打折扣,快车的价格也有了起步价。一方面是优惠力度的下降,另一方面部分摇摆乘客可能会选择别的出行方式,笔者认为这才是导致滴滴红包分享数量的下降的原因。

图6

图6将滴滴和ofo红包数量变化趋势专门列出来,这样可以更直观的看到其变化。之所以没有列出摩拜,是因为摩拜的分享次数较少,在图表上不明显。如果说2015年夏天是汽车共享出行开始迅猛发展的时候,那么从图中可以看出2016年夏天就是共享单车迅猛发展的时候。事实上滴滴从2012年就开始做出租车叫车业务, ofo早在2014年就开始在大学校园推广共享单车。随着4G网络的和智能手机的普及,微信使用人数越来越多,在多种因素的综合作用下,这些出行O2O服务在2015年后才开始迅速发展。

下面我们将时间维度缩小到一天内,看看一天内出行红包和外卖红包的分享数量和时间的关系(图7)。

图7

一般而言,一次线上的红包分享可以代表分享者同时在线下产生了相应的行为,通过变化红包分享数量变化趋势可以看到,在“食”和“行”方面,统计数据很好地体现了我们一般的认知。外卖集中在中午十二点和下午七点两个饭点之前,出行则在白天相对均匀地分布。

支付宝跨年红包

相信大部分读者都经历了支付宝跨年红包的洗礼,作为敏感的红包群群主,我发现支付宝的吱口令在十二月中旬开始在群里大量出现,到跨年时达到高峰,图8是群聊中从2017年12月10日到2018年1月10日支付宝跨年红包的分享数量变化。

图8

由于笔者在国外,并没有参与到瓜分红包的行动中,但笔者好奇的是:在2017年12月12日到2017年12月22 日,支付宝分享红包的吱口令中,“支付宝”三个字有大量变体字出现,让人一度以为是欺诈消息,我分析这十天所有的支付宝变体,将其做成图9的词云。

图9

支付宝一共产生了十种变体,起初笔者猜测支付宝是为了防止微信的追踪和屏蔽,但我想这样变体也不妨碍微信监测到消息,况且在这之前和之后红包都是正常的,所以我特别期待懂这个问题的朋友能够解答我的疑问。

总结

总而言之,这份两万条记录的数据集规模太小,所以很难得到宏观的结论,目前得到大部分结论也是显而易见的。利用该数据集进行进一步例如行为预测,用户画像,也是不现实的。另外,该数据集的特殊性在于它的独一无二,不同于微博等公开可获取的数据,这样的数据只能通过人为组织收集,所以即使此数据集的体量足够大,基于它训练出来的模型也难以有实用价值。

所以,假设我有足够多的群成员,我可以通过收集他们的性别,职业和收入的情况,结合他们线上分享红包的时间、种类、次数,可能会得到一些有趣的经济学结论。进一步,如果我们能获取到每个红包群成员点击的情况,这样又增加了一个数据维度,可以结合时间以及冠名广告和点击率做红包发送的优化,也可以结合群内其他数据维度来进行用户的画像,行为预测等等。当然,这一切都是基于群成员和红包数量足够多的前提。在这个前提下,我们可以对O2O行业的发展做一个宏观的分析,从全新的角度观察行业的发展。

不过以上所说的种种限制,对于微信官方来说都不是问题,微信利用自己的平台优势关联了无数的APP,利用不同的数据源,微信可以通过协同过滤(Collaborative Filtering)以及多视角学习(Multi-viewLearning)进行用户画像从而进行更精准的推荐。从另一个角度想,我们越来越多的行为都被 BAT 三家收集到,大家在互联网上越来越透明,所以对隐私的保护越来越重要,这不仅要靠企业自律,还要靠国家加强立法。

通过这次分析,笔者最主要的发现就是小数据集的片面性,并不是说如果数量到百万千万级就不是小数据了,而是说得深刻认识到现有数据集的局限性,不能以偏概全,并且尽量尝试获取到全面宏观的数据。这对数据挖掘从业者有一定的启示。

微信群聊记录可以通过“同步助手”导出到电脑上,可以导出为文本文档、表格或者网页格式,结合 Excel 和相关 Python工具包,可以轻松实现对微信群聊数据的挖掘,各位读者可以自己动手挖掘感兴趣的微信聊天记录。我也把本文用到的数据集匿名化处理后发布在网上以供大家学习使用。

数据集下载地址:

http://ytongdou.com/wp-content/uploads/2018/01/WechatLog.zip

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

工程微信数据集Python
2
相关数据
触宝机构

触宝成立于2008年8月,是一家创新型移动互联网公司。触宝总部设立在上海,现在拥有旧金山、北京、深圳等多处办公室。2009年,触宝在MWC(世界移动通信大会)展会上荣获“全球移动创新大奖”,是首家获得该项大奖的中国公司。触宝坚持技术创新和知识产权保护,目前共拥有160多项专利。触宝旗下拥有两款产品,分别是触宝电话和触宝输入法。触宝电话拥有6亿用户,日活跃用户达到5600万,电话防骚扰功能深受用户好评;触宝输入法支持超过120多种语言,覆盖158个国家与地区,占有全球Android智能手机20%的市场份额,全球超过7亿用户,日活用户超1亿。

http://www.chubao.cn/
网易机构

网易成立于1997年6月24日,是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

https://www.163.com/
协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
推荐文章
暂无评论
暂无评论~