近日,2019 菜鸟全球科技挑战赛在杭州落幕。在菜鸟柔性自动化实验室资深总监寒帅、菜鸟人工智能部研究员徐盈辉、旷视南京研究院院长魏秀参、阿里集团高德视觉技术攻坚小组研究员任小枫、菜鸟北京技术中心资深技术专家陈罡等评委的审议下,比赛最终决出了前三名。这些队伍获得了共计 60 万元的高额奖金。
5 月 28 日,以「数字化再加速」为主题的 2019 全球智慧物流峰会在杭州举行。来自国内外的行业专家、企业高管共同探讨了「物流和供应链的数字化如何带动新零售」、「各种模式如何加速行业数字化的时代引擎等」热点话题。
在峰会上,菜鸟全球科技挑战赛总决赛成为了人们关注的焦点。赛题「智能体积测量」关注物流要素「长宽高」进行数字化,希望引起技术人才对物流业的关注。
这场科技竞赛由菜鸟网络举办,自 3 月份即开始了预赛的争夺。在总决赛中,10 支队伍共同展示了各自的解决方案,并现场测量不同的物体。第一名「泰坦」队获得 30 万奖金、第二名「VMeasure」获得 20 万奖金、第三名「Wonder」则获得 10 万奖金。
图注:在决赛后,第一名队伍的代表登台领奖。
这是一场相当硬核的挑战赛,解决的也是物流行业的痛点问题。
菜鸟首席技术官谷雪梅在决赛中表示,「今天物流行业已经从传统的人力密集型,向资本和技术密集型转变。我们在用物联网、人工智能、区块链等等新的技术在做物流,空间非常大。我们举办菜鸟全球科技挑战赛,是希望有更多青年才俊关注物流。」
面向未来物流的赛题
作为一场科技竞赛,高额的奖金不仅在告诉我们赛题难度有多大,也在暗示:体积测量这件事非常重要。但对于大多数人而言,我们并不清楚它的重要性。自动测量的意义主要体现在物流的仓储、运输和派送三个环节。
自动准确测量物体体积后,我们就能合理规划包装的耗材,从而大大降低包装成本。在运输中,如果知道每一件商品的正确体积,那么分配运输工具就非常方便了。在物流的派送环节中,准确知晓商品尺寸可以让快递员有规划地将货物投递到不同尺寸的快递箱中,帮助节约存储空间与效率。
这就是本次竞赛的赛题:「对于规则的箱体(如天猫超市纸箱)和不规则物体(如洗衣液、篮球),通过手机拍摄图像,获取其最小外接长方体的长、宽、高尺寸(单位 mm),计算其体积(长×宽×高)。根据测量值与被测物体的真实尺寸差值,评估其测量精度。」
挑战赛设定被测物体在 50mm 到 500mm 之间,且它们都是在空旷的平面上完成测量。在实际测量时,比赛要求选手通过普通手机「自动」测量出物体的垂直高和最小外接矩形的长宽。虽然描述很简单,但其中有三个关键点,即普通手机、自动化和求最小。
首先必须是普通手机,我们需要确保可以在市面上买到,且不能定制化或增加外部装置,例如手持云台或外接深度传感器等。
其次是自动化,赛会希望解决方案能自动采集并求出被测物体的体积。因此我们在测量时并不能标记被测物体,或者使用某些具有测量功能的 APP。理想状态下,手机只要拍几张照或一个小视频,就能立即给出被测物体的长宽高。
最后,在通过最高点求出被测物体的高之后,挑战赛要求我们求最小外接矩形作为长和宽。即将物体投影到水平面后,边界框的面积应该是最小的。
本次比赛要求「手机级普适性」。实际上目前使用深度相机的测量方案已经非常成熟,但成本较高,应用还不够广泛。如果能够使用普通手机测量,可以加速应用。这也显示出菜鸟有意在引导技术人才关注物流实务。
下图展示的是决赛中的被测物体。分别是两种规则、不规则物体:
解决方案:三维重建是核心
在进入决赛的前十组选手的展示中,我们可以看到很多不同的解决方案。很多选手通过 visual SLAM(即时定位与地图构建)重建 3D 点云,再结合惯性测量单元(IMU)或标志物而获得 3D 点云的实际尺度;也有选手通过被测物体和标志物重建出深度图,然后融合不同的深度图而构建真实尺度的 3D 点云。这两类方法都可根据 3D 点云计算最小外接立方体。
尽管十支团队的方案各有各的特点,但它们都遵循一个基本的解题思路:先获得被测物体在像素空间中的信息,再获得被测物体在真实世界中的尺寸信息,最后计算被测物体的最小外接立方体。
根据测量精度、设备普适性和技术创新性等多个维度,评审们最终选出排名前三的解决方案。
决赛评委阵容。
第一名:基于全局姿态与 MVSNet 的体积测量
第一名方案是由东华大学等院校的在校师生完成的,他们的方法只需标志物和图像信息就能预测被测物的真实尺寸。在这种方案下,我们可以在被测物周围放几张打印的标志物,然后从多个视角拍摄多组图片,这些图片能通过 MVSNet 生成多视角深度图。最后,对不同视角的深度图进行滤波与融合操作,模型就能重建带尺度的 3D 稠密点云。下图展示了该方案的主要流程:
东华大学蔡棽老师表示,对比 ARKit 等结合 vSLAM 和 IMU 的方案,他们方法最大的优势在于重建完整度高。其中 vSLAM 在鲁棒性上有很多劣势,即使在位移和旋转都比较小的情况下,它还是会丢弃一些无纹理物体。这主要是因为 vSLAM 并不追求重建精度,它是一种稀疏重建,因此在算外接立方体时容易产生误差。
因此我们需要 SFM(Structure from Motion)这种关注鲁棒性点云重建方法,它在精度上比传统 vSLAM 和基于 AR SDK 的方法高。开发者们也正是沿着 SFM 与 MVS 这一思路走下去,从而重建稠密的 3D 点云。相比传统的 MVS 算法,新方法在保持重建准确度的同时,极大地提高了模型的重建完整度。
当然,这种重建完整度很大程度上都是由 MVSNet 带来的,它不仅效果好,运行速度也比之前的 state-of-the-art 快了数倍。
通过基于标定板的精确外参数标定方案,开发者在解决 vSLAM 算法的不鲁棒性、SFM 算法两两特征匹配的计算耗时问题,重建精度、鲁棒性、运行速度等各方面都基本满足了实际测量需求。特别的是,对于无纹理的日常超市物体,该方法仍然适用。
手机摇一摇,极速测体积
如果说第一名团队重点关注测量精度与效果,那么第二名团队 VMeasure 则着重打造一个便捷、快速的解决方案。它的 APK 安装包只有 4.3MB,且无需辅助计算设备、参照物,就可离线使用。这支队伍的方法平均测量时间在 10 秒以内,且对于纹理比较丰富的物体,误差能控制在 5% 以内。
更重要的是,他们设计的应用有一个刷新键,当我们对测量结果不满意时,点击按钮就能快速生成更加完善的立方体。用户根据可视化结果决定是否刷新测量的立方体,因此正确测量的概率要高得多。
既然要面向应用,那么算法就应该简洁一些。VMeasure 的思路非常清晰,首先基于 ARCore 完成立体重构,然后再计算最小外接立方体。
其中对于 ARCore 的调用,模型会根据纹理特征确定关键点,在手机围绕被测物体拍摄时,这些关键点会产生位移或视差信息,它们再结合 IMU 传感器就能获取三维信息了。
手动标数据的体积测量
在第三名 Wonder 队(独立参赛者)的解决方案中,选手从一个非常直观的想法出发,探讨怎样分两步解决体积测量问题。即先感知被测物体在像素空间中的位置与大小,然后建立像素世界与现实世界之间的联系。
将这种思想带入到任务中时,就需要设计两个模块:利用目标检测获取边界框,从而快速算出像素上的长和宽;利用 ARKit 内嵌的方法,开发者可以得到屏幕中一个点在现实世界中的大致坐标位置,即建像素与现实尺度的桥梁。
虽然 Wonder 队的做法非常简洁,但它也有非常特殊的地方:选手自行标注了 1700 多张真实图片和 2800 多张合成图片。这些图片模拟了真实场景下利用手机测量体积会拍到的样子,我们可以用来检测目标的边界框。
该队选手表示,这 4500 张图片可用来精调预训练的 MobileNet V2,它可作为主干网络来预测左上和右下两个关键点。因为 MobileNet 是一种非常精简的架构,所以计算力和准确率都能有比较好的保证。
最终,开发者设计方案结合了计算机视觉和 ARKit 技术,所有的测量和计算都发生在手机端,不需要网络和额外的计算资源。
在这场精彩的比赛中,选手们提出的方法各具特色。除体积测量外,物流还有更多的任务需要探讨,例如三维装箱问题。物流业正处于技术大变革中,新兴技术的应用,将加快物流的数智化发展。