Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

人工智能的新offer:东京奥运会竞技体操裁判员

AI 又有新工作了:竞技体操裁判员。

上个月,国际体操联合会(FIG)宣布,将日本富士通公司开发的「竞技体操辅助打分系统」用于 2019 年 FIG 主办的系列体操赛事上。系统将于明年的体操世界杯系列赛事上进行测试,并在明年 10 月于德国斯图加特举办的体操世锦赛上正式启用。FIG 的目标是在 2020 年东京奥运会上,将一半项目的打分完全自动化,在 2024 年的巴黎奥运会上实现全部项目打分自动化。

跳马、鞍马、吊环、平衡木…… 虽然普通人很难参与其中,但竞技体操这项古老的运动因为其超强的观赏性,在世界范围内都是一项很有「国民度」的运动:能够用和我们一样的四肢躯干完成「踺子后手翻转体 180 度接前直空翻 540 度」这种动作,需要何等的力量、技巧与美!

而与田径、游泳这样的计时项目不同,竞技体操是一个打分项目。选手从 FIG 的规则允许的动作中挑选一系列自己擅长的进行组合,向裁判展示,裁判则分为两组从不同角度为选手的动作打分。在「计时」这个任务上,人类早已创造出了超越自己的工具了:每秒 2000 帧的高速数码摄像机无疑比裁判的肉眼判断更准确,但是在打分类项目里,机器真的能够准确评价一个「踺子后手翻转体 180 度接前直空翻 540 度」的完成质量,给出公允的打分吗?

作为一名接受过裁判训练的业余艺术体操运动员,我针对「竞技体操辅助打分系统」提出了一些想要了解问题,以下是从现有的公开信息中能够得到的七个问题的答案,在本文末尾,我也列出了一些尚未得到解答的问题,如果你对这个系统同样充满好奇,也请在文末留言写下你的问题。

1. 输入数据主要来自什么传感器?

输入来自激光雷达

我们能看到设备的正面有一个摄像头、一个激光雷达脉冲发射器和一个接收器。

富士通采用的 3D 激光雷达为半固态激光雷达(MEMS),每秒钟发射超过 200 万脉冲,感应区域 15m,但是功率、线数、最小精度、探测角度等衡量激光雷达的常用参数都没有披露。

2. 硬件系统还有哪些组成部分?

除了 3D 激光传感器之外,还有传感器控制电脑、云计算环境、数字前端(DFE)服务器、NW 存储、负载平衡器、打分应用服务器以及裁判的电脑构成。

其中主要的算力是负责完成骨骼关键点识别任务的 DFE 服务器以及负责根据骨骼关键点坐标进行打分的打分应用服务器 。

3. 辅助打分系统的结构有哪些模块?

主要的模块包括由 3D 激光雷达负责的动作感知、由软件负责的骨骼关键点识别,结合 FIG 和日本体操协会共同研究的难度动作数据库,共同进行动作高速匹配。

4. 如何打分?是否基于学习?

骨骼关键点识别模块确定用到了深度学习神经网络模型接受多个视角的深度图像为输入,输出一个 3 维的骨骼关键点坐标结果。

根据 PPT 显示,系统还会根据人体关节模型进行适配和校准,调整到最有可能的运动员实际关节位置,但这一部分的实现原理并未披露。

在动作判定部分,可以确定的是模型并非端到端的。

富士通的研究人员提到,他们和日本体操协会的裁判们进行了大量的工作,把每一种难度动作都拆分成一系列要素。他们录制了超过 800 个男运动员的技巧动作和 500 多个女运动员的技巧动作,对其进行了拆分。

如下图所示,系统判定女选手在平衡木成功完成了反身起跳、旋翻 180 度和前手翻三个要素,从而 判断选手完成了一个难度分为 0.4 的 Onodi 动作。

但是具体到动作如何切分、每个要素的判定是否由深度学习完成,还是未知的。

5. 辅助打分是负责难度分(D 分)还是完成分(E 分)?

答案是二者都有。

辅助打分系统给出的吊环项目的 D 分列表

竞技体操的分数由两组裁判给出:D 组裁判负责「加分」:D 是难度(Difficulty)的缩写,选手每完成一个规则内的难度动作,就增加相应的难度分值,不设上限。E 组裁判负责「扣分」:E 是执行(Execution)的缩写,选手完成动作中有小失误扣 0.10 分,中等失误扣 0.30 分,大失误扣 0.50 分,重大错误扣 1.00 分。

D 分相对客观,E 分则更为主观。常见的「失误」中,也有一些相对好判定:例如在吊环静止动作中手臂是否伸直,也有一些很难衡量:例如在自由操中,动作是否有「艺术性偏差」。

6. 打分系统将用于哪些项目?

竞技体操共含十个项目,男子竞技体操包括自由体操、鞍马、吊环、跳马、双杠和单杠共六个项目,女子竞技体操包括跳马、高低杠、平衡木和自由体操共四个项目。

2019 年的 FIG 系列赛事中,辅助打分系统会从男子跳马和鞍马这两个项目开始。跳马和鞍马是完成时间相对较短的、也是运动员位移较少的两个项目。例如跳马里运动员起跳、腾空完成动作、落地,就结束一个动作。其他项目的时长都在一分钟左右。

2020 年的东京奥运会上,自动打分将预计覆盖男子跳马、吊环、鞍马、女子跳马、平衡木五个项目。

这也符合我们对识别算法的预期,代表了更高艺术性的、难度动作体系更为复杂的自由操,和人与器械之间的关系更为复杂的杠类项目(人可能出现在杠的各个方向,杠会对人体造成遮挡)对于识别算法的显然更高。

自由操中裁判还要对节奏、稳定性、选手的情绪调动能力等方面进行考察,这也是机器很难量化的。

7. 给哪些人使用?

富士通称,除了能帮助裁判打分外,系统也将用于协助选手训练,并帮助观众更好观赏比赛。

比如,系统可以在训练中精确地告诉运动员,你的每一个关节夹角是多少、应该保持稳定的关节是否有晃动,让运动员可以在「关节」这个粒度上,根据规则对自己的动作进行有针对性的调整。

系统也可以更直观地通过可量化的指标向观众展示运动员的运动完成度。例如腾空高度、稳定性等等,让更多人能「看懂」比赛,从而增加比赛的观赏性。

运动员完成一个腾空高度为 78 厘米、双腿开度为 198 ° 的交叉分腿跳

8. 还没有答案的问题 

由于 FIG 和富士通并未过多披露技术细节,还有很多问题尚没有答案。

为什么采用基于 LiDAR 的骨骼关键点识别方案?在识别人体动作这一点上,基于 LiDAR 和基于相机的方案各有哪些优劣?

骨骼关键点识别的准确度如何?一旦出现偏差之后会如何影响打分系统的工作?

演示中的一个错误,系统错误识别了运动员右腿膝盖的位置

打分系统的运行速度如何?能否满足比赛评分实时性的要求?

从训练数据与实际应用场景的数据分布一致性的角度,训练数据均来自于日本专业的体操运动员。而不同运动员的动作规格、习惯的不同,会不会对打分造成一定的倾向性?

目前激光雷达,尤其是能够捕捉高速运动的激光雷达的价格仍然非常昂贵,从成本收益的角度,AI 辅助系统能够帮助竞技体操产业吗?富士通给出的预测是,在未来 10 年,该系统将产生超过 1000 亿日元(约 60 亿人民币)的收益。

最后,也是最重要的,相比于人类裁判,AI 裁判有哪些特点?会犯哪些错误?

在发布会上进行展示的运动员提到,他在完成鞍马动作的时候有一个「坏习惯」,就是会弯曲右膝盖,在人类裁判打分的年代,他可以一定程度上通过用左腿遮挡裁判视线来掩盖这一缺点——这是选手与裁判之间多年博弈之后形成的一些可以利用的「潜规则」。但是对于 AI 裁判来说,通过高帧率的深度图像抓到这一弱点轻而易举,但同时,AI 经常会在一些对于人类来说非常简单的任务上犯错误,那么在这样的情况下,用 AI 裁判替换人类裁判是一个像「用高速摄像机替代人类计时员」一样帕累托更优的改进吗?

什么是「更高、更快 、更强」,在 AI 时代,会不会有不一样的定义?

产业富士通体操激光雷达动作识别
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

暂无评论
暂无评论~