Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

时维作者

首次揭秘!阿里无人店系统背后的技术

今年云栖大会现场一大网红打卡地莫过于天猫未来店:没有收银台、结算不用扫码不用排队……对于消费者来说,“天猫未来店”的无感支付,真的可以“拿了就走”。这个占地80平方米的天猫未来店,陈列着多种食品饮料和零食,一次性可容纳20余位消费者。进入店内,天猫的全域追踪技术将捕捉到消费者的行为,在“T-guide”指引下即可迅速找到你想要的商品,选购结束后自动结算,实现“即拿即走”。

下面,我们邀请阿里巴巴淘宝技术部资深技术专家,天猫未来店技术负责人时维,为大家分享“天猫未来店”背后的技术(本文根据云栖大会演讲整理而成)。

时维:我的分享将分为四个部分:第一部分先介绍一下无人店的概念,第二介绍一下天猫未来店是怎样的“无人”、具体技术怎么实现,第三是下一步是这种基于AI的无人店方案、接下来的演进方向是怎样的,最后一部分会谈一谈我们对未来的畅想。

一、无人店的透视

首先我们来透视一下“无人店”这个概念。其实要解释两点误区:第一点误区,无人店其实不等于完全无人。实际上无人店的“无人”只是“无”掉了部分“人”工作,一部分是枯燥繁重的工作,另一部分是人类难以特别好地实现、需要很高的人力成本的工作,我们希望把这部分工作无人化。

对于店里面来讲,基础的服务员、收银员的工作,每天都在重复化、机械化操作的,这部分是我们希望无人化的。而对于导购(一个特别资深的导购和所有来店的人都是朋友、一些熟人)、库管还有我们的店长(知道在哪儿开店、知道怎么进货、备货),这些人的工作都是需要高难度长期培训才能上岗的,我们希望把这部分工作也无人化,但这还只是无人店希望达到的第一个目标。第二个目标,是要通过技术手段,实现线下消费流程的全面深度的数字化,以推动整个零售产业链的智能化升级。这就是我刚才说的,我们需要把线下的数据和线上的数据融合起来,还是能够为我们提供更精准的服务,这才是零售行业升级的下一步目标。

第二个误区,很多人觉得新零售主要就是无人零售,这一点也需要跟大家重新解释一下。如上图所示,其实新零售是一个很大的概念,比如盒马,比如我们和银泰的合作,比如淘宝心选,比如最近刚刚和星巴克成立的合作。无论是通过技术、通过商业模式还是通过渠道,只要在原有零售效能上实现了质变的升级,我们都可以称之为新零售。

无人零售只是新零售中的一部分,而且无人店也是无人零售中的一部分,因为无人零售还包括了自动售货机,还包括各个办公楼里面的开放货架。这三种模式其实是针对不同的点位、不同的用户群及不同的时效性来发挥不同的作用,时效性要求比较强的可能是自动售货机,写字楼里面可能是开放货架,而无人店更多的是要针对社区、商区及办公楼下的便利店、垂直行业零售店进行改造和升级。

其实大家之前都见过了无人店这两三年内在热度上的大起大落,实际无人店产业是什么样的情况?经过统计数据可以知道,2017年并没有外面唱的那么衰,实际有200亿元的产值。其实在2020年,通过分析公司的预测,应该还会有650亿元的市场规模。主要的驱动力还是来自于线下的人力成本和其他运营成本逐渐攀高,以及大家对消费的需求也在升级。最后还有一个重要的驱动力是智能技术的发展。以前我们只会想象一下未来的高科技生活,但是技术达不到,那就算了,不玩了。但是现在的技术能达到这样的水平,“我们要这样生活”的欲望也就被勾起来了。所以这三点是无人零售的三大要素。

再补充一点,有人会说“拿即走”是一个伪需求,但通过艾瑞咨询的数据统计,在中国市场,发现8.5%的人希望有人工收银,22.7%的人希望出门一次性统一扫码,29.8%希望有一个智能结算的购物车或者购物篮,出去的时候往那一放就走了,但还是有39%的人希望拿了就走,自动结算,所以“拿即走”这种体验,还是代表了广大消费者对提高生活品质的一部分需求的。

总结下来,阿里无人店开发的宗旨就是两句话:首先,技术上我是要追求无人的能力,但不迎合无人的体验。我的目标更多还是希望探索前沿。刚才说了大家有很多想法是因为技术达不到所以才没有做,所以我要做的事情,我可以先不发散我的思维,我把思维收敛回来,做技术的,就要看技术上具体怎么满足大家的异想天开的想法。但如果我去迎合无人的体验,那就会为了迎合体验尽快市场化而对我的技术进行降级。

比如说现在可能开无人店要一百万的成本,本来我可以从技术角度突破成本的瓶颈,用技术能力到50万、20万的成本。但为了迎合无人体验,我今天就想开几十家无人店,我的重点就聚焦在了如何通过商业模式节省成本了,这样的话我的技术就停滞不前,降低了我的技术上的要求。

其次,我们另一个宗旨是赋能商家,我们更看重的是要提升合作伙伴的线下产业的人效、坪效。如果大家开过店或者做过买卖的人就知道,开店是否成功和盈利,最终还是要看人效和坪效这两个指标,就好比我们开网店要看GMV一样。

接下来,我们来介绍两个无人店改造的具体案例。第一个是阿里库,这是在西溪园区旁边的阿里授权的专门卖阿里纪念品的店。经过开刀改造手术以后,和去年相比,全天营业额同期增长75%,购买人数增幅56.5%,销量增长20%,而且大家可以看到我们总共是120平的店,全天进店客流是2300。就是因为做了无人化的改造,因为出口自动结算了,所有平均出口的时间只有4.5秒,才能满足2300的客流量还没有把店爆掉。

第二个案例是志达书店。项目比较值得说的一点是因为有了一些成熟经验,所以改造周期很快,从开始到交付只用了53天。我们给它改的已经是3.0版本,3.0版本和去年重新装修的2.0版本相比,日成交额提升78.3%。

二、云栖现场无人店解析

我说的阿里库和志达书店,对他们来说可能是2.0或者3.0版本,但对阿里的无人店体系来说还是1.0版本。而现在在云栖大会现场,出门左拐的天猫未来店是我们的2.0版本的无人店。

2.0版本的无人店用一句话概括,就是基于计算机视觉的“天猫未来店”。这次开店的目的已经不再是秀我们的无人结算的技术,而是告诉大家在做一个线下店的时候,有了这些技术我还能干什么,如何通过技术的提升满足大家各种各样的玩法和想法。大家可以体验一下。用我们运营的同学的话来说,就是告诉大家未来的门店可以做成什么样、可以往哪个方向走。

比如你现在进店想找某一个东西,能够快速找到。同时,我们有大大小小长长短短100多个屏幕,这个屏都是用来直观和顾客进行交互,并且显示详情、评价、优惠等活动,尽量做到比你懂你、随处随想和所见即得。对于B端商家而言,我们这个店也已经做到自动结算、一键盘货、异常预警、自动补货、人群画像、单店画像、供应链预测、经营状态分析等等能力。

为了大家一会儿去现场体验时玩得顺畅一点,这里教大家一下购物流程。首先进店扫码,刷码进场后你的唯一识别ID在场里面建立起来了。当你走到一个屏幕前面,屏幕会给你信息,指引你想要商品在哪里。当你拿起商品的时候,通过重力感应及货架上的视频识别你拿了什么,并将这笔订单加入你的虚拟购物车。在出门的时候,会自动结算掉你的虚拟购物车里还没有被放回货架的商品,并且会在你的手淘或者是支付宝生成虚拟账单,你可以回头看我买了什么。如果你买了的商品在线上有货的话,直接跳转到线上店进行线上复购。这就是逛天猫未来店一个基本的流程。

这张图是我们从5月份到现在积累出来的算比较成熟的无人店技术架构,如果大家有兴趣自己开店的话也可以参考这个架构。我称这个架构为非常6+1的模式,“6”指什么?现场有传感端,传感端把采集到的信息和数据反馈算法端,由算法端进行解析,通知给现场的执行端和客户端,分别进行闸机开关、屏幕投放、促销推荐等能力。这五个端是通过本地的网关来进行串联,所以6是指五个处理的端加上一个本地网关。“1”是指在云端上还有整套原来已经很完备的交易、处理、经营、数据存储的能力,这就是天猫未来店的整体技术架构。

天猫未来店里面涉及到的技术有很多,主要的核心能力其实只有三个:第一个能力是全域追踪能力,第二个能力是商品识别,我通过货架的重力感应器和货架上的摄像头,我们能感知到用户手里拿了什么商品。第三个能力,我知道了人是谁、货是什么,最后结算的时候要做人货匹配。人货匹配目前是无人店体系里最关键的一项技术,因为你要给人扣错钱,这个事情就非常不开心了。这两天有很多人到我们的店挑战,出现了诸如大家两人并排站一起交叉拿货、拿了货以后在手里互相传、一个人拿了货给另外一个人再放回来等等情况,这些都对算法的能力带来了很大的挑战。所以说只有开过店,你才会知道现场会发生各种奇怪的事情。

无论是人的识别还是商品的识别,还是人货绑定的识别,其实最后是在数据化用户的线下行为。线下行为数据化之后,首先我可以补足线上的数据,能够形成更完善用户画像。那么这些数据对于线下的门店又有什么直接、具体的反馈呢?我这里会介绍一个具体的例子——因人而异的商品引导。通过室内定位我可以知道现场谁在哪个位置,然后我们就可以帮用户实现快速找到他想要的商品。比如我最近热卖的天猫精灵,你想知道这个货架在那儿,通过屏一点就可以直接引导你到货架前面,这是因为我们已经具备了掌握店内客户动向的能力,所以我们才能够对用户做精准的引导。

三、AI解决方案的演进

前面讲的这些就是我们过去这段时间在无人店体系建设上所做的努力,那么未来无人店的建设方向是什么呢?今天Amazon刚刚发了一个新闻,它在2021年准备开三千家无人店,其实我们也是。无论谁做这个技术,最后一定希望达到的是市场化、规模化的目标。要想达到市场化、规模化绕不开三个问题:

  • 定向提升算法能力。现在有一些体验还是不完善的,用户进店拿东西进行结算还是需要配合传感器的,比如我们还是需要大家稳定的站在闸机前面以便摄像头能获取大家的入场画面。抽象来说就是需要用户配合我拍摄到一些信息才能给用户提供好的体验,这还是算法能力需要继续提升的角度;

  • 降低硬件的成本。现在的硬件是要满足高难度的处理要求所以算力是过度冗余的;

  • 降低部署成本。部署有时间成本,比如改造一个无人店,如果说这个店要关一年才能改造好,谁都不高兴干;如果说一个月就能改造好,他就愿意,这就是时间成本的问题。第二是部署完了以后每一次升级新的功能,都需要人跑到现场一个个更新上去,就像大家常见的电梯里的广告屏幕要插U盘更新一样,这也是不现实的。

下面我先介绍下需要定向提升哪些算法能力。如图,如果不看这张照片,大家肯定都不会联想到左右两张照片是一个人,大家如果玩抖音的话,看到有很多小姑娘在从下巴的角度拍照,反差是很大的。如果用户是摆着这样的角度进场的话,对我们来说就很尴尬了。现场有做深度学习的同学,可能觉得也还OK,我只要有足够多的样本进行训练,总是能够训练出来的。但是这里有一个关键的问题,在开店的时候和我们在做算法平台最大的区别是很多用户过来的行为是一次性的,他们的脸和他出现在镜头前的角度只有这一次产生,我需要在这一次拍摄中就要把他识别出来是谁。所以,接下来我们除了深度学习的方法外,还会回归到传统的模式识别神经网络的方法,以及传统的图形畸变修正的方法。

最终希望能一次性的完成不同角度的人脸修正,她只要这张脸(左图)过来,他就能修正到这张脸(右图),其实这是可以,比如骨骼面容修正算法等等,这是我们需要下一步提升的能力。第二是算法的环境适应。现在开无人店或者造无人机、无人车这样“人工智能”的产品,生产方式其实是比较累的。我每开一家无人店,都需要针对这家店的特殊环境、应用需求来部署我的模型、训练我的算法,其实这是不适合推广的。我们希望做到的是算法的环境是能够进行逻辑分离,我把我的调参和模型部分分开,调参是根据各种环境传感器,反馈回来建立一个调参机制,然后和我已经训练好的模型进行匹配。我每换一家店,只要通过这家店的环境传感器获得到的信息,就可以把前面的模型进行修正、调参,然后就能运行这家店,这是我们下一步要做的。

对于设备降低成本这一部分我们会做两部分工作,首先是收敛设备性能的要求。其实大家心里要有一个概念,就是我的计算能力的提升带来的成本提升并不是线性的,不是一倍的计算能力需要一百元,二倍的计算能力是二百元,不是这样的,可能一百是一百,两倍是五百。在一开始的云计算时代是没问题的,有很庞大的云,在边缘计算时代,其实我的成本会高居不下的。所以我接下来希望强化端侧智能,把更多计算沉淀到端侧,不是说店里有一台服务器管所有的事,而是店里的摄像头和屏幕都有自己的计算能力,来分担计算压力和计算成本。第二是设备的标准化,所有的商品都是可替换、可维修,也是标准件,可以快速进行建设和替换。此外,在现场实际部署阶段,通过机器人每日开业前闭店后的自动巡检测试,保障全店从智能硬件到AI算法的端到端全链路稳定有效运行。

最后,我们会建立一套设备管理体系来提升门店的部署和维护效率。这里要介绍一下阿里云的产品Linkedge,可以基于这套框架开发可热插拔HAL层,无论它走的是蓝牙还是两根裸线的协议,都能实现对设备信息的上传下达和设备的监控。这套设备管理体系的功能可以归纳为:第一,系统和功能可以远程升级;第二,可以分布式跨设备部署系统,无论是A屏、B屏、大屏还是手机、Pad,都可以远程进行部署;第三,提供类似APP store的功能,想加什么功能就加什么功能,当然也包括APP的在线升级。这里大家可以思考下,现在大家正在用的东西里面,哪一个设备是同时具备了这三个功能?对,没错,就是手机。这也就是我最后要讲的事情,我们未来的畅想。

四、未来的畅想

我们对未来的畅想是什么?就是希望能够把一个个无人店变成像手机一样,可以很直接的和用户发生交互,并且很多功能都能自动远程升级。把门店做成像手机一样是为了什么呢?就是希望能够打造一个线下的淘宝。

大家在淘宝上也好,各种各样的手机APP上也好,它会根据你的使用习惯、根据你的浏览次数、翻页深度等等,来记录用户使用某些功能的情况。做过APP的同学,应该知道一个专业术语——埋点。通过这些埋点,我才能知道这款应用到底用得怎么样,某一个商品看了多少次、做的ABTest的结论是到底是哪个用户更喜欢。今天当我把一个个这样的线下门店都变成手机这样的能力的时候,门店里一整套数据化系统其实就是埋点,店里的陈设大家是否喜欢、店里的哪个商品是最受欢迎的、附近周围人群是怎么消费的等等。

所有的数据收集上来以后,淘宝15年来积累的所有线上运营能力和各种运营产品都可以沉淀到线下,赋能线下开门店的商家,无论是经营会员、搞粉丝经济,还是做流量增长、社群营销、限时秒杀、ABTest等等,这些能力都可以复制到线下。这就是阿里做无人店希望能够达到的长远的目标,把线下开门店的商家当成今天在淘宝开网店商家一样,为他提供生存、增长、爆发的各种能力,来更全面的实现“让天下没有难做的生意”。

我的分享就到这里,谢谢大家。

阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
产业阿里无人店
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

暂无评论
暂无评论~