Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

格灵深瞳官宣「深瞳阿瞳目」,开创智慧体育新范式

机器之心原创

作者:吴昕

随着 AI 的发展,体育运动完全可以变成像游戏一样的交互式运动。

学生正在操场上练习跳绳,体育老师手中没有哨子和秒表,而是站在一旁盯着手持平板上的数据,提醒同学注意动作细节,或者加快速度。

今年五月,石景山区的一个北京体育中考合格考考点因为采用了 AI 训考方案,下午 1 点开始测试,3:40 结束。按原定计划,整个流程需要四个半小时。

历经近三年迭代和打磨,格灵深瞳智慧校园体育解决方案正为 20000 多名师生提供日常教学支持与考试服务。不过,和世界杯上梅西「毫米级」越位判罚不同,无需大费周章布设几十个摄像头、传感器,更不需要在足球里安置传感器,普通学校操场和教室也能变身拥有专业 AI 裁判的训练场和赛场。

当体育老师把手里的哨子、尺子、秒表、点名表和记分册扔掉,拥抱人工智能技术之后,他们会发现上课竟然能变得这么简单和轻松。

一、哨子、尺子、秒表 VS 「深瞳阿瞳目」

任何一个生产要素进入到一个行业,首先改变的一定是效率问题。

5 月 25 日,格灵深瞳在中国(南京)教体装备产业博览会上正式官宣智慧校园体育业务三大产品,分别是深瞳阿瞳目体育训考系统、深瞳阿瞳目体感互动系统、深瞳阿瞳目体育大数据系统。

「一开始,我们就想要做一款瞄准中考的产品,跟中考标准完全一致,严格追求精度、效率,还要易于使用。」格灵深瞳智慧体育产品负责人夏鹏飞谈到体育训考系统的设计初衷,这款产品主要针对户外操场上可能发生的体育场景,包括体育课堂、测试考核,还有学生的日常体育训练。

以中考的仰卧起坐为例。这个单项有 5 类规范:手抱头,肘碰膝,肩胛骨着地,膝盖弯曲,屁股不能抬起。一分钟要做接近 50 个甚至更多才能得到满分。不少学生做到后面容易出现各种不规范,比如用屁股反弓的力做仰卧起坐,手离开头,这些都是不能计分的。

体育老师就一双眼睛,一个班几十个同学,平时根本忙不不过来。但平时不能按照中考标准来训练,最终考核时,学生一定会傻眼。去年 10 月,北京八年级学生迎来体育中考改革后的首次体育与健康过程性考核,结果许多学生反映平时在学校可以做五十个,但机器记下的合格数只有三十六、七个。

有了深瞳阿瞳目体育训考系统,摄像头会实时采集学生仰卧起坐的动作视频,并进行人体检测,输出人体骨骼关键点。再将待测姿态与标准动作进行关键帧的匹配,算出两组姿态之间的相关性或者相似度等。无论动作多快,挺肚子、双手未抱头、双腿未屈膝、手肘未触碰膝等失分动作都逃不过它的「法眼」,还能得改善建议,老师要做的就是看好手里的平板电脑。

「有一个试点学校,每次都是三个班一起排球测试,全部测试完可能要花两节课的时间。现在,只要提前用后台设定好计划,交给设备来做,两个点位,一节课时间就搞定全部学生的排球测试。」夏鹏飞说,「整个课堂效率提升了一倍。」

由于深瞳阿瞳目体育训考系统可进行实时判分和违规标记,并提供仲裁回溯,机器比肉眼更加可靠、更稳定,因此还能确保 AI 考试区统一标准、规范。


与体育训考系统追求与考核标准的严丝合缝不同,格灵深瞳的另一款产品深瞳阿瞳目体感互动系统更侧重人机交互,在娱乐中提升新课标的基本体能素养,比如灵敏度、力量、柔韧性、反应速度等。

深瞳阿瞳目体感交互一体机内置格灵深瞳自研的智能双目姿态相机,可以高精度检测人体的姿态和运动状态,及时给予反馈和建议。除了支持一百多个运动项目,包括篮球、足球、跳绳等运动专项训练项目,「一体机最大特点是寓教于乐,是一款兼具体育专项训练和趣味交互体验的产品。借助骨骼分析识别人体语言,再结合一些 AR 元素,我们还设计了一些新奇带有交互性的趣味项目。」夏鹏飞说。

以「消灭星星」游戏为例,屏幕不同位置会随机出现一些星星,速度有快有慢,需要学生快速反应,一会往前,一会儿往后,一会儿左又一会儿右,手脚并用,在规定时间里尽可能触碰更多星星,学生在趣味性的互动过程中,也完成了身体协调性和运动量的训练。


「除了聚焦单人训练,我们还在多人互动性层面进行了探索。深瞳阿瞳目体感互动一体机可以识别多人,因此我们也增加了一些竞争机制在里面,支持单人 AR 交互,双人同屏 PK,孩子们非常喜欢玩。

比如云上运动会,不同校区学生、同一校区不同楼层年级学生都可以跨时空 PK,大家还可以设定周比赛。比如,这一周大家 PK 什么项目,参加的同学、班级可以每天去设备面前刷榜。」 夏鹏飞介绍说。


「人工智能,作为当今世界最前沿的技术之一,正深刻影响着我们生活、学习和工作的方方面面,包括校园体育领域。在校园体育中,人工智能将扮演着重要的角色,为学生们创造更加智能、丰富和个性化的体育运动体验。」格灵深瞳创始人、董事长、 CEO 赵勇在长三角教育与学校装备数字化转型发展论坛开幕式致辞中表示。

未来,深瞳阿瞳目体感互动系统还会有迭代新品推出,除了大屏一体机,格灵深瞳还推出算力相机的版本,搭配公司自研的双目相机,班牌、电子黑板都可以变成交互屏。

值得注意的是,无论借助体感互动系统还是体育训考系统,当学生完成一天、一周甚至一个月训练后,老师也希望对学生近期运动表现进行更加深刻的洞察。


「有了一个后台——深瞳阿瞳目体育大数据系统,我们就能够给老师输出一份比较高质量的学生画像。」夏鹏飞谈到第三款产品-深瞳阿瞳目体育大数据系统的设计初衷。

例如,2 班跑步成绩不错,但仰卧起坐的平均成绩明显低于其他五个班,老师就能根据报告「因材施教」。根据报告,老师发现 2 班有一半学生仰卧起坐成绩低于平均,这里又有 30 个学生非常频繁地出现肘位碰膝的情况。这个时候,老师基本可以判断需要加强核心力量的锻炼。

除了针对单次运动项目的精准动作研判报告,深瞳阿瞳目体育大数据系统还能提供针对个人的个性化运动能力评估报告、针对班/级/校等大规模学生群体的身体素质、运动能力、体育技能等分析报告。同时,该系统也可以给各层级的教育部门提供区域内学生的全面深入的体育分析数据,提升区域体育教育的管理效能。

体育教师是三大产品的关键使用者。夏鹏飞告诉我们,试点当中,深瞳阿瞳目体育大数据系统,为体育老师进行教研工作、「因材施教」发挥了重要作用。

「仰卧起坐我做了 50 个,只有 30 个记分了,另外 20 个出现了什么问题?老师其实无法解决这个事情。」他说,做完了仰卧起坐就完了,缺乏一个过程留存和记录。不像数学物理这种科目,解题步骤都留在卷面上,老师能复盘哪个步骤到底出现了什么问题。

现在,我们通过视觉技术把学生的运动全流程地给拆解出来,留在每一份报告里。体育老师也能够像语文、数学老师一样收体育作业,甚至建立一个「体育错题本」,清楚看到这个学生的弱项是什么。

出乎夏鹏飞和同事意料的是,在试点推广和服务过程当中,不少老师把「后台」玩出了新花样。

有的老师会通过后台事先设定好今天要完成的任务。比如,入场时跑步,跑步结束后接着练习实心球,之后是篮球、足球。看谁完成得更快、更标准。于是,学生从进场之后就开始按照既定顺序完成规定项目的挑战。

二、布局新场景的背后

对于所有中国学生来说,学业成绩和排名曾经是一条清晰的生活主线。相比之下,日本和欧洲的文化课一般在下午 3:30 就结束。在瑞典,哪怕城市靠近北极圈,孩子们每日户外活动时间也高达四、五个小时。

在「双减」政策推动下,学校提升体育重视程度,不断提高中小学生的体质健康水平,已经成为不可逆转的趋势。2022 年 4 月,教育部印发《义务教育课程方案和课程标准(2022 年版)》,明确「体育与健康」课占总课时比例 10%-11%,仅次于语文( 20%-22% )、数学( 13%-15% ),高于外语( 6%-8% ),排名第三。

然而,在实际实践过程中,尴尬的是现有教学人力却无法完全覆盖课后服务相关政策全面普及的要求。在国内,一位体育老师同时带六个班的情况很常见,有时还会跨年级带班。每节课只有 45 分钟,还需要有热身、知识点讲解环节,这对体育教师的精力分配提出了很大挑战。

「10 个学生一起做仰卧起坐,老师在旁边除了掐表,根本没有能力去关注每个同学这个动作做得怎么样。」夏鹏飞说。

据教育部统计,2021 年全国共有各级各类学校 52.93 万所,在校生 2.91 亿人,专任教师 1844.37 万人。其中,在体育被纳入升学考试范围的义务教育阶段,共有20.72 万所学校,包含 15.43 万所小学。作为一个 to B 市场,仅就 K12 公立学校的体育教学场景来说,至少能够到达千亿规模,目前也有很多私立学校还有连锁型培训机构也正寻找数字体育解决方案。至于存量市场,2022 年中国体育教育产值达到了1347 亿,且正在以 11.6% 的年增速快速增长。

人工智能产业规模很大。我们也更加重视对数字化程度有需求的新行业。在一次接受多家机构调研中,格灵深瞳创始人、董事长、CEO 赵勇曾表示。「体育新业务空间很大,是一个千亿级市场。但目前市场的渗透率还是很低的,因此未来我们收入增速还是比较可观的。」

格灵深瞳有一个部门叫前沿技术研究院,研究一些具备高潜落地性的新场景、新业务,比如体育健康、轨交运维、元宇宙业务,占到研发力量的四分之一到三分之一。

格灵深瞳于 4 月 20 日披露的 2022 年度业绩报告显示,公司去年实现营业收入3.54 亿元,同比增长 20.47%;实现归母净利润 3261.49 万元、扣非净利润 2507.14 万元,同比增长 147.67%、138.51%;经营活动现金流净额 1.55 亿元,同比增长 280.09%,成为 A 股首家实现盈利的 AI 计算机视觉公司。全年实现盈利意味着公司成熟的业务领域完全能够覆盖创新业务的大额投入。

「我相信随着 AI 的发展,体育运动的面貌完全可以变成像游戏一样的交互式运动。」赵勇曾说。

三、差异化优势:识别精度与极致体验

因为一开始就瞄准中考场景,格灵深瞳三大产品亮点之一就是识别的精度。

1 分钟跳绳,满分 180 个左右。个别城市满分要求 254 个,动作速度非常快。基于 AI 技术建立起来的模型可以快速精准检测数十个人体骨骼点,准确描述人体运动过程中的各个动作姿态,完成高精度计数,动作识别准确率达到 95% 以上。

目前,格灵深瞳自研模型可以快速精准检测人体骨骼关键点,各地体育中考、体质健康监测、小升初考试的项目覆盖率 90% 以上,动作的违规错误覆盖率 100%。

这里涉及的核心技术之一就是所谓人体姿态估计(Pose Estimation),从人体图像中提取出手臂、腿部的关节,以及躯干和头部的关键点,基于这些关键点的信息,连点成线、由线到动作,实现对人体动作的估计,包括幅度、轨迹、角度和姿态等。


分析体育动作姿势,一般有两种方法。一种是 2D 姿态估计的检测和分析,主要基于RGB 图像中人体关节的 X、Y 坐标。

格灵深瞳采用了 3D 姿势估计,检测和分析的是 X、Y、Z 坐标,因为带有深度信息,可以显著提高体育运动中的人体姿势识别精度,包括识别与正确动作非常相似的假跳或单腿跳等。

不过,从单目视角下的 2D 映射到 3D 存在一个比较大的挑战:3D 世界中不同形状的物体可以在 2D 世界中拥有一模一样的投影,也就说,2D 骨架可以对应多个 3D 骨架,给准确获取 3D 人体关键点造成不小挑战。

格灵深瞳自研了一种 3D 人体姿态估计算法,基于单目相机的 3D 重构技术,再结合动作模型库及人体运动功能学的特点,优化了使用单目相机获取三维人体关键点的效果,使得运动姿态分析算法在三维人体上做出更为精准的判断,还能有效避免因遮挡产生的误报。

「除了计算机视觉手段,我们也跟一些体育高等院校、体育专业老师合作,在数学、运动生物力学方法上做了很多研究,帮助更好地还原人体动作。」夏鹏飞说。

事实上,几年前他们已开始为国家竞技队提供实时姿态捕捉与数据分析支持,积累了较为丰富的人体行为数据及相关项目经验。

除了 3D 姿态和动作识别技术,在更靠近前端的采集环节,格灵深瞳独有的多目传感器标定与深度估计技术也对识别精度的提升,功不可没。

通过一对成本更低的可见光相机组成的双目系统,对场景深度信息进行估算,在达到普通结构光相机精度的同时,还能提高相机的可靠性和易用性,覆盖更多结构光相机无法工作的光线条件和场景。


解决方案结构图

解决识别精度带来的挑战之后,接踵而来的是需要给算法运作创造一个稳定的工作环境。然而,现实情况往往是一到大课间或者体育课,很多班级一起涌现,给人体检测、目标跟踪带来困难,影响算法能力正常发挥。

不过,凭借过去十多年的业务积累,格灵深瞳业务团队通过成熟项目应用磨练出一些核心素质,包括人体跟踪、ReID 等,他们成功地解决了这一挑战。比如「多精度目标检测与跟踪」,在安防场景下,目标被遮挡、消失又再度出现很常见,格灵深瞳的系统早就可以做到一直跟踪目标,直到「失踪」的人再次出现。


竞争优势

除了对识别精度高,格灵深瞳产品的另一个亮点在于对技术颗粒度的「锱铢必较」。

「200 毫秒」能够让用户获得实时反馈,刚才动作是不是标准,以及怎么改善。「这个并不是每家公司能做得到。」夏鹏飞很自信。

「无论是实时摄像头传输,还是通过视频传输,我们的系统都可以进行处理和分析。但对于前者,摄像头实时传输的话,必须对视频每一帧 RGB 图像做到即时处理,这里就牵扯到优化效率问题。」

仰卧起坐速度非常快,满分的话,一分钟就要做 50 个。如果做完两个,等到做第三个的时候才听到系统反应,学生心里难道不会诧异前两个没给我记上数吗?

在深瞳阿瞳目体感互动一体机大屏上做「消灭星星」游戏,一秒之内必须碰到随机出现的星星,如果手摸到了星星甚至都缩回来了,画面还没反应,人们会觉得这个设备很笨。

「我们是一家具备算法引擎硬件软件一体能力的 AI 公司,虽然体量没有那么的大,但团队非常完善。为了解决一个具体问题,我们会调动与场景有关的所有团队,一起攻关。」

算法的优化和处理,是一个耗时又耗力的「技术活」,为了达到最极致的技术颗粒度,格灵深瞳从不含糊。「即使每一个算法与模型跑起来是耗时间的,我们也会花很大精力优化引擎。」夏鹏飞解释说。

值得一提的是,三大体育新品之所以能够快速迭代并迅速在多个试点铺开,离不开应用于公司内部的研发算法框架——「深瞳大脑」。在「深瞳大脑」加持下,一个普通算法工程师可以更快交付一个工业级机器学习算法,直接可以在几款公司支持的芯片上高效运行。


格灵深瞳体育大数据平台界面

作为国内计算机视觉行业和算法技术的早期探索者和实践者,格灵深瞳一直相信,想要让计算机要看懂图像,必须通过三维这条路。十年来,他们也在不遗余力地研发与创新。

人工智能能够发挥最大价值的形态是什么?

过去多年里,格灵深瞳的回答是「大数据」,但在未来的一二十年,「我认为答案是『机器人』和『人机交互』。」赵勇在接受媒体采访时曾表示。

Siri 跟人对话,需要能听懂用户;机器和人的视觉交流,需要机器能看懂用户。在看懂的过程中,计算机视觉能有很大的应用空间。

随着 AI 的

产业
暂无评论
暂无评论~