Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

极具争议的百万音箱销量与科学家多重面具背后, 暗藏阿里AI Labs参与竞争的独特法则

撰文 | 宇多田

编辑 | 刘燕


2017 年 11 月,在双十一晚会媒体中心外的科技展示区,我买了一副耳机。


买这副耳机实属偶然。当时,为了给我们「提供更多的写作素材」,阿里特意在可容纳几百名记者的直播间外,搭建了大大小小与新零售密切相关的「体验样板间」。其中,就有一个方便我们体验无人支付流程的简易版天猫超市。当然,你只能真的买了东西才能进入无人支付环节。


超市里东西不多,我到处转了转,发现除了各种天猫与淘公仔式样的毛绒玩具、挂坠与杯子,就只有耳机相对实用一些了。恰好阿里工作人员也在旁边适当地推销了几句:


「这是我们自制的,都是在内部销售,质量挺不错。」


最后,我花 172 元买下这副无线蓝牙耳机,顺利通过了手机全程揣在裤兜里的无人支付环节。然而直到现在,我对无人超市的体验几乎没了印象,却对这副耳机「念念不忘」。


因为实在是,难用到令人发指。


即便是入耳式设计,走路不到 5 秒也会掉出来;作为无线耳机,蓝牙连接很多时候不听使唤;挂脖子的耳机线走几步就滑下来…


这就是我对阿里硬件水平有着严重顾虑的源头事件。


也让我对阿里唯一开发消费级 AI 产品的实验室——阿里 AI Labs的能力,保持了审慎的态度。


一个被称为实验室的部门,一台价格便宜的音箱,再加上「阿里」的 title,很难不让人想到大洋彼岸早在 2011 年就开始密谋 Alexa(智能语音助手)与 Echo(音箱)的亚马逊。


「很明显,亚马逊从来都是一个商业风向标。他们从 2014 年就开始卖 Echo 了,甚至到 2015 年还没打开局面,但是却让很多科技公司闻到了不一样的味道。」一位智能耳机创业者感慨。


与 2017 年音箱市场百花齐放,每家与技术沾边的公司恨不得都要做一款音箱的格局全然不同,2014、2015 年入局的玩家量少,且步伐小心翼翼。


阿里就是这群嗅觉敏锐的早期试探者之一。但由于当时没有明显的市场说服力,2015 年中旬,阿里选择了较为保险的入场方式——合作。


2015 年 4 月,阿里成立智能生活事业部,让时任总经理的浅雪带着百人团队主攻软件平台,而硬件部分,自然是合作伙伴来承担。


就是在这种模式主导下,三个月之后,阿里分别与飞利浦及漫步者共同合作推出智能音箱「小飞」与「MA1/3/5」,迅速进入了市场。


而结果,可想而知(在当时,无论是市场,还是产品的设计与 AI 技术都不够成熟)。


或许正是由于几年前那些不算顺畅的智能硬件合作经验,让 2017 年重新出山带队阿里 AI Labs 的浅雪毫不犹豫地表态:


「合作是个必然的选择项,但安卓思路并不靠谱。只有亲手试试,才知道它究竟存在什么样问题。」


AI Labs负责人浅雪


坦白讲,不管是跟风、经验教训,亦或是选择 2017 年市场抬头之际抓住风口再次出击,对于一家商业公司,要寻找更多收益机会,无疑需要更加全面地增加与用户的「接触点」。


而对比此前各种各样由第三方制造,许多只是名字冠以「天猫**」的硬件产品(以天猫魔屏为例,其制造商标注为深圳市橙子科技公司),天猫精灵的诞生其实让阿里显得有诚意了不少。


这一次,硬件设计团队成为了 AI Labs 极为重要的一部分,产品经理通过各种渠道「回收」用户意见,整个软硬结合的流程通畅了不少。


而与此同时,他们也承受了双十一销量拔高后,用户的花式吐槽以及大规模量产带来的质控与供应链压力。


这到底是不是一个优秀的实验室?很难说,因为产品还在被市场持续考验中。但有一点可以确定:


这是一个有故事的实验室。


智能音箱天猫精灵


「接地气儿」并不只是说说


随着 Echo 逐渐被市场接受,亚马逊硬件实验室曾被爆出不少有意思的组建经历。


譬如由于浑身散发的「生意人」气味儿太浓,与 Google 相比,发展史上研发人员的地位也不算太高,因此在公司决定为 Alexa 项目寻找人才时,傲娇的技术大牛们都纷纷表示嫌弃。


总之就是:招人挺难的。从学术圈走出来的科学家们都会优先选择提供良好研发氛围的企业。


因此,亚马逊采取了连续性收购策略——人招不来,那我就买下公司。


专攻语音文本转换的 Yap,开发语音助手的 Evi,以及语音交互技术供应商 Ivona 在 2012 年前后被亚马逊陆续收至麾下。


对比起步艰难的亚马逊,也许有 iDst(数据科学与技术研究院)、城市大脑在前,也许出手颇为豪气,总之 AI Labs 科学家们的「就位」速度十分可观。


AI Labs 成立不久,根据 LinkedIn 提供的资料显示,2017 年 3 月,前新加坡南洋理工大学终身教授王刚就已经加入 AI Labs。


又隔 5 个月,微软亚洲研究院主攻自然语言理解与知识图谱的科学家聂再清与 Google 前 Tango 及 Daydream 项目负责人李名扬也被阿里 AI Labs 成功挖角。


迅速的动作,在很大程度上证明了阿里想拼命转换身份的决心。更直白来说,科学家的加入,从营销角度来说也大大增加了外界对阿里 AI 产品的可信赖度。


「现在即便抢人很难,但实验室和科学家就是大公司标配。不这样弄都不好意思说你搞 AI。」一位 AI 猎头这样告诉我。


然而,当科学家决心踏入行业,特别是商业氛围相对浓厚的阿里,自然而然需要迫使自己主动作出改变。而这也正是我们认为阿里 AI Labs 最吸引人的地方:


研发专家、产品经理、淘宝店客服。消费级产品的属性,让这个部门的技术人员具备了三重身份。而实验室的科学家们,也变成了我见过的最接地气儿的一群学术人。


在 2017 年 10 月接受机器之能的采访中,当听到我们在评测天猫精灵过程中遇到不少问题后,聂再清立马掏出手机,这位入职 AI Labs 不到 5 个月的前微软科学家当场一条一条记录下来:


「太好了太好了,我正好去跟技术和产品经理沟通一下,有技术问题得赶紧解决。」


聂再清


而与聂再清几乎同时入职的李名扬,由于年纪很轻,看起来更像 90 后,略显呆萌。


不知道是不是因为在 Google 有着视觉方向的项目研究经历,他对色彩极为敏感。


在接受采访时,他对我五彩斑斓的键盘贴纸产生了浓厚的兴趣,我们还特此围绕颜色唠了几分钟嗑,并由此借题发挥转移到了计算机视觉技术应用在音箱产品上的几种可能性。


「给音箱带摄像头的确是个方向,但具体产品形态我可不能告诉你。」


李名扬


与聂再清的研究风格截然不同,王刚喜欢自己给自己找难题,还喜欢把难题用段子呈现出来。


「你问我难点在哪里,语音识别、自然语言理解,再到后面的命令执行,哪一个环节都有难点。但对我来说,最让人恼火的语言理解问题,」他在接受采访时,迅速开启了「段子」模式,


「不是有句话嘛,『大学里有两种人不谈恋爱:一种是谁都看不上,另一种也是谁都看不上』。


每个字重音和语气不同,意思千差万别。自然语言这种模糊性,让我们在这一块做了不少研究」


因此,他更喜欢呆在电脑前写写画画,一直在测试与训练不同的深度学习算法,又在这个基础上进行各种调参与优化。


这就好比面前摆着一口大锅,为了煮出一锅味道不咸不淡的鲜美鸡汤,火候与料包都需要反复调配,才能获得恰当的比例。


就是在这种训练-调试-训练-再调试的反复状态下,他带领的团队在短时间内设计出了一些独有的自然语言理解的深度学习网络,这些网络在一些标准的设计基础上超越了国际上以前的方法。


王刚


很显然,这些术业有专攻,有着产品经验的科学家,正在模糊实验室里技术研发和产品开发之间的界限。


他们仍然要看论文、发论文,带着技术队伍去「打国际比赛」,这是公司保持自己不被新趋势所抛弃的必然举动。


但一个事实可能会让你难以想象——双十一当天,天猫精灵旗舰店的大部分客服的身份,其实就是这群科学家。


甚至有一位技术人员,还因为在短时间内成功卖出好几万台音箱,被评选为当天的「销售明星」。


「他们学什么都很快。像『么么哒,亲』这些术语,简直是信手拈来。」浅雪在描述双十一当天科学家作战状态时,把他们的大脑比作成「天然的深度学习网络」:


「你如果不在现场,根本不会想到,他们竟然具备高超的推销技巧,可以针对不同用户用不同的话术引导下单。我还感慨果然都是全方位人才。」


在双十一销量突破 100 万后,急剧增长的除了天猫精灵 APP 下载量与用户活跃数,还有各种各样的用户反馈。


因此,科学家们的日常又变成了时不时去淘宝和其他网上销售渠道刷「用户反馈」,一有用户的吐槽,就迅速截图扔到产品群里。


「吐槽和差评对普通卖家是件坏事,对我们来说,就是与其他竞品的最大优势。卖的少的厂家会极其羡慕我们。」


问题「倒逼」产品,技术决定产品


在我们与各种各样科学家们广泛接触的过程中,很多时候会出现由于问题浅显,科学家搪塞回答,甚至不屑于回答的尴尬场景。


这很正常,外行与科学家之间,总会隔着上百篇论文与上百个算法模型。


因此可以想象,当一位科学家有着亲和态度的同时,也兼具极佳的「将技术转化为通俗语言」的能力是多么难得。


而 AI Labs 的科学家们,就擅长用「产品吐槽倒推技术」的方式,解释了软硬结合过程中的技术难点。


举个简单例子。


由于天猫精灵的很多回复不够精准,当我们提出「这种状况是否跟知识图谱技术做的不好有关联」时,聂再清老师在用实例进行问题还原的同时,也把这项技术与它的作用阐释地通俗易懂。


「想听周杰伦的歌,但喊一声『想听周董的歌』却得不到回应;或者问『范冰冰是谁』,再接着问『那他男朋友呢』?音箱回答不了。这里面·都会涉及到知识图谱构建的不完善。


「知识图谱简单理解,就是给这些名词建立联系,把人物关系都理顺了,跟家谱差不多。你可以把它当做一种管理数据的方式,建立起一整套结构明晰的数据库。」