9小时突破1000亿,你以为这就是阿里双十一的最大胜利?

撰文 | 宇多田

离 11 号晚上 0 点还有十几分钟时,媒体中心坐在我旁边的一位记者盯着手机上的淘宝购物车,手指边滑动,边在不停地抱怨:

「这是要破产吗,我之前只往购物车里加了个音箱,你看这几天我老婆往里加了些什么,往下划都看不到底,音箱都不知道跑哪儿去了,你说怎么抢!页面又得崩溃!」

他说的音箱,是指这次据说「亏死也要把量做大」的「天猫精灵」;而他指的「天猫精灵」,就是几年前淘宝一旦挺不过支付流量高峰,交易详情页就会出现「淘公仔泪奔」表情的白屏状态。

但 12 点一过,他顺利下了单,也清空了购物车,而页面崩溃的情况也没有出现。



凌晨 1 点后,在很多人看来,双十一交易量的最高峰值已经基本过去,而几年前系统经常遭遇瘫痪,消费者长时间无法下单的情况并没有出现。

虽然我们无从知晓位于杭州的双十一技术指挥作战部是否在击掌欢呼,但一位站在上海双十一媒体中心直播大屏幕前的阿里工作人员好像放松了不少,他转过头跟我们开了句玩笑:

「这算不算给阿里云做了广告?」



从技术角度,阿里通过双十一赢在了哪里?

普通消费者看到的阿里黑科技,可能只是阿里在双十一晚会中「秀出的热闹」。

坦率讲,无论是晚会里张杰吼歌时后面玩键盘、耍鼓锤的机器人,还是节目最后有马云和妮可基德曼参与的 AI 作曲,对于科技圈来说,都不算什么新鲜事儿。

打鼓?现在各大机器人博览会里,舞龙都不在话下;作曲?Google,Facebook 等技术公司去年早就做出了会作曲和弹琴的 Demo 与应用。

但是在我们眼中,阿里的确通过双十一打赢了一场阶段性的技术仗。这场仗,事关阿里在物联网和AI时代的入口与生态之争,也在一定程度上秀出了阿里云的技术实力。

实际上,0 点还没到,我们就看到阿里 AI Lab 旗下智能音箱产品,也是阿里开始自主研发的第一款硬件——「天猫精灵」的淘宝页面显示,音箱预售量已经超过 55 万台;

而截至早上 8 点 53 分,根据官方数据公布,天猫精灵的销量也突破了 100 万台。



这个成绩,「99 元」的双十一定价功不可没。但这个价格,据其内部和一家语音技术供应商透露,是肯定亏本的。

「通常来讲,光技术成本就不只这些,」这家语音技术供应商表示,「还有人力,硬件等等。可能也就阿里等大公司有资本这么干。」

而一位不愿意透露姓名的智能平台创业者告诉我们,像很多其他新兴产品一样,在智能音箱的市场初期,特别是物联网建设初期,「先把量搞上来」的思路人人都懂:

「大家都知道音箱在中国的销量不是很旺,现在各家水平截止目前还差不到哪里去。你看,这次音箱类产品可不止阿里自己一家降价……

便宜了量才上的去,量上去了,你才有好数据去训练,你才有资格谈生态,其他厂商和开发者才愿意跟你玩。」

因此,他也十分感叹在这种情况下,硬件创业公司的不易:「即便你有野心,做的硬件再好,你拼得过阿里吗?你接入的内容得靠买,而且价格他们有实力故意压的很低。你量和价格都起不来,就像被掐住脖子一样。」



从阿里的角度来看,他们在天猫精灵的营销上着实下了一番功夫。

铺天盖地的广告宣传,晚会中的频频露脸,双十一淘宝页面和硬件专场里的显眼位置,不惜降至 99 元来提量……都能证明内部对天猫精灵和 AI Lab 的重视程度。

值得注意的是,不只对外宣传,阿里各个部门其实都在为天猫精灵「赋能」,AI Lab的负责人浅雪曾表示,天猫精灵打的是一个「集体仗」。

举个例子,天猫精灵「查电话号码」这个 Skill(技能),就是阿里旗下的安防软件部门钱盾为天猫精灵在很短时间内做出来的。

钱盾的反诈平台高级市场专家蓝背就向我们透露:「一旦几个部门想合作,内部不会有拖拉扯皮的情况。当时他们说做这个技能的时候,我们这边就拍桌一口答应了,基本上从接到需求到你开始在音箱上能用这个技能,不到两个星期。」

现在,销量达到了一个度,阿里 AI Lab 的语料库估计会「增收不少」,而据说喜欢浏览用户评价的实验室负责人浅雪和科学家们,估计得花更多时间去看音箱淘宝页面里的好评和吐槽了。



除了天猫精灵这个可以凭借销量和用户反馈来衡量阿里实力的 2C 智能产品,阿里云方面的「沉默」其实有点让我们为难。他们甚至还因为数据而遭到质疑。

在「10 秒销售额 16 亿」的消息出来后,甚至有记者在旁边咕嘟:「造假吧,怎么可能,抢东西又不卡。」

实际上,在杭州作战部,有一群紧盯电脑,几小时不挪一下屁股的技术人员。由于技术中心及机房不允许媒体乃至任何外部人员进入,我们几乎得不到任何来自阿里技术部门的现场作战信息。

而一位我们接触到的阿里技术工程师与一位网络安防部门的朋友都只是默默地表示,他们在加班,一直在加班,没人走。

但是,在 12 点前后高峰期平安度过后,微博上很多的感慨与质疑基本证明了阿里云的巨大的存在感:

「我老婆说网没卡就付款了,她还有点奇怪,说双十一这次是没人抢东西吗?」

我们迅速连线了阿里云的技术人员,他们给了机器之能一些更加专业的答案。通俗来讲,为了保证你买着买着网页不卡壳,不崩溃,其实用了 2 个比较关键的能力——流量智能调度,以及「网络自愈」的能力。

  • 流量智能调度

阿里建立了一个智能流量调度系统,这个系统不仅要实时监控互联网质量,最关键的是要动态调整用户访问阿里数据中心的网络路径。

「以往的双十一,都需要人肉盯着应用集群的健康情况,来看集群里面的机器是不是工作的正常,如果发现有不正常的机器,例如某个 RT,进行手工隔离,甚至直接下线等等,」阿里技术人员表示,如果是平常的流量,还可以应付,但是如果发生在双十一高峰期,这种传统方法就非常危险了:

「往年我们也有不少血的教训。例如 2015 年的双十一,由于超卖,某个应用 10% 的机器系统负载飚高到 170 多,无法对近来的请求进行响应,这个缺陷在链路上被一层层放大,最后导致 0 点的请求量比预期低了 40%。

当时的解决方案是手工问题机器筛选出来,然后手工一台台杀死,做完这些,已经 10 多分钟过去了。这在双十一峰值时间,就损失了将近上百万甚至上千万的交易请求。」

但是之后阿里发现,虽然多个集群上万机器的表现以及状态是无穷举的,但是一个集群机器本身性能的分布,是固定的。

「我们从这个思路入手,把「阀值问题」转化成离群点监测的方法,与时间、状态等不确定因素解耦,把无限集变成有限集。而流量调度通过多个离群点监测模型,就能准确地探测出集群中异常的机器,进行降权解耦。」

他表示,自从用了这种监测方法,流量调度在日常能够每天发现问题几百起,并且自动隔离机器,很大程度上避免了各种机器设置,性能不均匀的情况。

「在高峰期,对问题机器进行及时调度,大概准确率能超过 90% 吧。」他表示。

  • 网络自愈

这个能力是阿里在 2017 年才具备的,能够让网络有实时准确发现故障,然后对故障进行收敛。

根据阿里提供的数据显示,在过去半年的时间里,因为有了这项能力,阿里的网络故障减少了一般,故障恢复时长减少了 30%。

「这里面其实涉及到了阿里集团正在使用的一些技术。譬如统一变更管理平台 Changefre,这个平台平时对接了集团多个 BU 的 100 多个变更系统,每天为各种业务线提供几万多次变更信息查询来辅助故障定位。」技术人员将其称为一种必要的管控策略:

「它用机器学习的技术自动统计并分类了各条线的故障规则库,在在故障发生时能利用规则库加快变更触发故障的定位,同比故障恢复时间可以提升 65%。」

而双十一期间淘宝的智能运维,在很大程度上有这些技术的「辅佐」。



因此,在质疑声和赞扬声的此起彼伏中,「双十一」夜间的平稳度过,与用户支付体验的大幅度提升,阿里云及各个事业群的技术人员无论如何都是功不可没的。

而越来越多的人也开始明白,这个让你剁手停不下来,分分钟完成上亿成交额的互联网节日,逐渐成为阿里「秀技术」「玩技术」的最大营销舞台。

入门阿里云阿里巴巴产业