手机摇一摇测体积,2019菜鸟全球科技挑战赛助力智能物流

近日,2019 菜鸟全球科技挑战赛在杭州落幕。在菜鸟柔性自动化实验室资深总监寒帅、菜鸟人工智能部研究员徐盈辉、旷视南京研究院院长魏秀参、阿里集团高德视觉技术攻坚小组研究员任小枫、菜鸟北京技术中心资深技术专家陈罡等评委的审议下,比赛最终决出了前三名。这些队伍获得了共计 60 万元的高额奖金。

5 月 28 日,以「数字化再加速」为主题的 2019 全球智慧物流峰会在杭州举行。来自国内外的行业专家、企业高管共同探讨了「物流和供应链的数字化如何带动新零售」、「各种模式如何加速行业数字化的时代引擎等」热点话题。

在峰会上,菜鸟全球科技挑战赛总决赛成为了人们关注的焦点。赛题「智能体积测量」关注物流要素「长宽高」进行数字化,希望引起技术人才对物流业的关注。

这场科技竞赛由菜鸟网络举办,自 3 月份即开始了预赛的争夺。在总决赛中,10 支队伍共同展示了各自的解决方案,并现场测量不同的物体。第一名「泰坦」队获得 30 万奖金、第二名「VMeasure」获得 20 万奖金、第三名「Wonder」则获得 10 万奖金。

图注:在决赛后,第一名队伍的代表登台领奖。

这是一场相当硬核的挑战赛,解决的也是物流行业的痛点问题。

菜鸟首席技术官谷雪梅在决赛中表示,「今天物流行业已经从传统的人力密集型,向资本和技术密集型转变。我们在用物联网人工智能区块链等等新的技术在做物流,空间非常大。我们举办菜鸟全球科技挑战赛,是希望有更多青年才俊关注物流。」

面向未来物流的赛题

作为一场科技竞赛,高额的奖金不仅在告诉我们赛题难度有多大,也在暗示:体积测量这件事非常重要。但对于大多数人而言,我们并不清楚它的重要性。自动测量的意义主要体现在物流的仓储、运输和派送三个环节。

自动准确测量物体体积后,我们就能合理规划包装的耗材,从而大大降低包装成本。在运输中,如果知道每一件商品的正确体积,那么分配运输工具就非常方便了。在物流的派送环节中,准确知晓商品尺寸可以让快递员有规划地将货物投递到不同尺寸的快递箱中,帮助节约存储空间与效率。

这就是本次竞赛的赛题:「对于规则的箱体(如天猫超市纸箱)和不规则物体(如洗衣液、篮球),通过手机拍摄图像,获取其最小外接长方体的长、宽、高尺寸(单位 mm),计算其体积(长×宽×高)。根据测量值与被测物体的真实尺寸差值,评估其测量精度。」

挑战赛设定被测物体在 50mm 到 500mm 之间,且它们都是在空旷的平面上完成测量。在实际测量时,比赛要求选手通过普通手机「自动」测量出物体的垂直高和最小外接矩形的长宽。虽然描述很简单,但其中有三个关键点,即普通手机、自动化和求最小。

  • 首先必须是普通手机,我们需要确保可以在市面上买到,且不能定制化或增加外部装置,例如手持云台或外接深度传感器等。

  • 其次是自动化,赛会希望解决方案能自动采集并求出被测物体的体积。因此我们在测量时并不能标记被测物体,或者使用某些具有测量功能的 APP。理想状态下,手机只要拍几张照或一个小视频,就能立即给出被测物体的长宽高。

  • 最后,在通过最高点求出被测物体的高之后,挑战赛要求我们求最小外接矩形作为长和宽。即将物体投影到水平面后,边界框的面积应该是最小的。

本次比赛要求「手机级普适性」。实际上目前使用深度相机的测量方案已经非常成熟,但成本较高,应用还不够广泛。如果能够使用普通手机测量,可以加速应用。这也显示出菜鸟有意在引导技术人才关注物流实务。

下图展示的是决赛中的被测物体。分别是两种规则、不规则物体:

解决方案:三维重建是核心

在进入决赛的前十组选手的展示中,我们可以看到很多不同的解决方案。很多选手通过 visual SLAM即时定位与地图构建)重建 3D 点云,再结合惯性测量单元(IMU)或标志物而获得 3D 点云的实际尺度;也有选手通过被测物体和标志物重建出深度图,然后融合不同的深度图而构建真实尺度的 3D 点云。这两类方法都可根据 3D 点云计算最小外接立方体。

尽管十支团队的方案各有各的特点,但它们都遵循一个基本的解题思路:先获得被测物体在像素空间中的信息,再获得被测物体在真实世界中的尺寸信息,最后计算被测物体的最小外接立方体。

根据测量精度、设备普适性和技术创新性等多个维度,评审们最终选出排名前三的解决方案。

决赛评委阵容。

第一名:基于全局姿态与 MVSNet 的体积测量

第一名方案是由东华大学等院校的在校师生完成的,他们的方法只需标志物和图像信息就能预测被测物的真实尺寸。在这种方案下,我们可以在被测物周围放几张打印的标志物,然后从多个视角拍摄多组图片,这些图片能通过 MVSNet 生成多视角深度图。最后,对不同视角的深度图进行滤波与融合操作,模型就能重建带尺度的 3D 稠密点云。下图展示了该方案的主要流程:

东华大学蔡棽老师表示,对比 ARKit 等结合 vSLAM 和 IMU 的方案,他们方法最大的优势在于重建完整度高。其中 vSLAM 在鲁棒性上有很多劣势,即使在位移和旋转都比较小的情况下,它还是会丢弃一些无纹理物体。这主要是因为 vSLAM 并不追求重建精度,它是一种稀疏重建,因此在算外接立方体时容易产生误差。

因此我们需要 SFM(Structure from Motion)这种关注鲁棒性点云重建方法,它在精度上比传统 vSLAM 和基于 AR SDK 的方法高。开发者们也正是沿着 SFM 与 MVS 这一思路走下去,从而重建稠密的 3D 点云。相比传统的 MVS 算法,新方法在保持重建准确度的同时,极大地提高了模型的重建完整度。

当然,这种重建完整度很大程度上都是由 MVSNet 带来的,它不仅效果好,运行速度也比之前的 state-of-the-art 快了数倍。

通过基于标定板的精确外参数标定方案,开发者在解决 vSLAM 算法的不鲁棒性、SFM 算法两两特征匹配的计算耗时问题,重建精度、鲁棒性、运行速度等各方面都基本满足了实际测量需求。特别的是,对于无纹理的日常超市物体,该方法仍然适用。

手机摇一摇,极速测体积

如果说第一名团队重点关注测量精度与效果,那么第二名团队 VMeasure 则着重打造一个便捷、快速的解决方案。它的 APK 安装包只有 4.3MB,且无需辅助计算设备、参照物,就可离线使用。这支队伍的方法平均测量时间在 10 秒以内,且对于纹理比较丰富的物体,误差能控制在 5% 以内。

更重要的是,他们设计的应用有一个刷新键,当我们对测量结果不满意时,点击按钮就能快速生成更加完善的立方体。用户根据可视化结果决定是否刷新测量的立方体,因此正确测量的概率要高得多。

既然要面向应用,那么算法就应该简洁一些。VMeasure 的思路非常清晰,首先基于 ARCore 完成立体重构,然后再计算最小外接立方体。

其中对于 ARCore 的调用,模型会根据纹理特征确定关键点,在手机围绕被测物体拍摄时,这些关键点会产生位移或视差信息,它们再结合 IMU 传感器就能获取三维信息了。

手动标数据的体积测量

在第三名 Wonder 队(独立参赛者)的解决方案中,选手从一个非常直观的想法出发,探讨怎样分两步解决体积测量问题。即先感知被测物体在像素空间中的位置与大小,然后建立像素世界与现实世界之间的联系。

将这种思想带入到任务中时,就需要设计两个模块:利用目标检测获取边界框,从而快速算出像素上的长和宽;利用 ARKit 内嵌的方法,开发者可以得到屏幕中一个点在现实世界中的大致坐标位置,即建像素与现实尺度的桥梁。

虽然 Wonder 队的做法非常简洁,但它也有非常特殊的地方:选手自行标注了 1700 多张真实图片和 2800 多张合成图片。这些图片模拟了真实场景下利用手机测量体积会拍到的样子,我们可以用来检测目标的边界框。

该队选手表示,这 4500 张图片可用来精调预训练的 MobileNet V2,它可作为主干网络来预测左上和右下两个关键点。因为 MobileNet 是一种非常精简的架构,所以计算力和准确率都能有比较好的保证。

最终,开发者设计方案结合了计算机视觉和 ARKit 技术,所有的测量和计算都发生在手机端,不需要网络和额外的计算资源。

在这场精彩的比赛中,选手们提出的方法各具特色。除体积测量外,物流还有更多的任务需要探讨,例如三维装箱问题。物流业正处于技术大变革中,新兴技术的应用,将加快物流的数智化发展。

产业新零售挑战赛智能物流菜鸟网络
2
相关数据
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

即时定位与地图构建技术

在机器人映射和导航中,同时定位和映射 是构建或更新未知环境地图,同时地图中跟踪机器人在其内的位置。SLAM算法是针对有限可用资源量身定做的,因此不是最优解,而是在于操作合规性。 自行驾驶汽车,无人机,自主水下机器人,行星探测器,新兴家用机器人乃至人体内都采用了SLAM的方法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

暂无评论
暂无评论~