基于单帧图像,云从科技3D人体技术打破纪录

近年来,应用场景的旺盛需求,推动AI领域将技术能力从感知延伸到认知、从2D扩展到3D。

3月19日,云从科技基于单帧图像的3D人体重建技术同时在Human3.6M、Surreal和UP-3D上打破纪录,此次突破将原有最低误差记录大幅降低30%,也是继去年云从在3D人脸数据集上大幅刷新纪录后,再次在此类3D重建技术上取得重要成果。

Human3.6M数据集上对比

Surreal数据集上对比

UP-3D数据集上对比

3D重建领域通常以误差(Error)作为衡量算法能力的主要指标,误差(Error)就是生成模型与实际图像的差别。一般来说,误差(Error)越低,精度越高,意味着技术的性能越好。

云从科技3D人体重建技术全身精度误差(Surface Error)在Surreal上从75.4毫米降低到52.7毫米,关节精度误差(3D Joint Error)从55.8毫米降低到40.1毫米,Human3.6M上的关节精度误差(3D Joint Error)从59.9毫米降低到46.7毫米,技术的执行速度从之前的上百毫秒降低到仅需5毫秒。

论文中,云从科技针对人体具有丰富多样的姿态和穿着的特点,提出了一套全新的基于人体3D纵深预测的3D信息表征方式。通过对三原色图像(RGB,不含深度信息)的分析,预测人体的3D形态和姿势,并用6万多个点完整描绘人体,从而在人体重建技术上取得速度与精度的双突破,呈现出来的模型更精细,帧率更是高达到200fps,原本由于受实时显示限制而无法实现的应用可以一一实现——这将极大地推动相关智能图像应用的落地步伐。

由于对输入图像的要求低,使3D重建技术将可以利用普通光学摄像头作为感知设备。该技术将会使美颜APP无需结构光摄像头也能具备高精准度的瘦身与动画合成功能;商场内试衣魔镜将会自动根据身形生成你所想要更换的衣服,大大节省商场空间的同时提升用户体验度,使更多智能应用成为可能。

通过重要人员影像重建、医疗仿真肢体打印、虚拟试衣、美颜化妆、表情姿态动画合成等应用场景在大型商场、直播平台、美颜软件、影视特效制作等行业普惠AI能力。

值得一提的是,Human3.6M、Surreal和UP-3D是全球关于3D人体重建技术的权威数据集,加州大学伯克利分校、马克斯-普朗克研究所、Amazon、宾夕法尼亚大学、北京大学、浙江大学、Microsoft Research、法国国家信息与自动化研究所、Adobe Research等知名企业、研究所和大学都在该榜单的竞争队列中,算法实力比拼可谓激烈,相较于以往,中国企业与高校机构开始逐渐在国外老牌优势领域展露头角。

与传统关键点检测、3D重建技术的区别

传统的人体关键点检测技术往往以2D的人体骨骼关节点检测形式出现,即通过技术预测RGB图像中人体的十几个关节点的坐标,一方面结果非常稀疏,将人体大为简化成骨骼的形式,另一方面结果往往只包含二维平面上的坐标预测,不能还原深度信息,因此无法体现纵深的感觉。而基于单帧图像的3D重建技术不仅能输出骨骼关节点信息,更能同时预测大量的人体表面关键点信息,预测结果更加丰富,而且每个点的坐标都是3D的,能够体现不同躯干的纵深信息。

landmarks3D关键点检测

并且传统3D重建技术大多需要连续的图像序列或是多视角的图像,在硬件设备上一般需要采用双目摄像机或者结构光摄像机等设备,因此在手机等便携设备上往往难以实现;另一方面,专用设备还会增加部署成本,增加大规模普及3D重建技术的难度。

基于单帧图像的3D重建技术对原始图像的需求放松的同时,对背后的技术提出了更难的挑战:技术需要从单帧图像中推理出人体或人脸的3D形态,并通过「光学透视」、「阴影叠加」等基本光学原则准确预测出各个关键点在3D空间的位置和朝向,从而得到人体的姿态或表情信息。

1552892692(1)

人体姿态和服饰复杂多样,精度提升意味着对复杂场景的适应性更好,模型更接近真实的情况。如阿凡达、漫威电影、阿丽塔等电影中,都需要专用特效设备与面部贴点来完成精细的人像采集,基于单帧图像的3D人体/人脸重建技术将彻底颠覆电影视频的拍摄制作,同时降低工业级3D动画合成的门槛。

理论创业公司3D建模计算机视觉论文云从科技
2
相关数据
云从科技机构

云从科技是从中国科学院孵化的人工智能企业,专注于人脸识别等计算机视觉技术研发。核心技术源于四院院士、计算机视觉之父——Thomas S. Huang 黄煦涛教授。研发团队曾于2007年到2016年7次斩获智能识别类世界大赛冠军。云从科技作为中国科学院战略性先导科技专项的唯一人脸识别团队,参与了人脸识别国标、部标、行标起草与制定; 2017年2月,云从科技入选国家发改委重大工程,与百度、腾讯、科大讯飞共同负责人工智能公共平台建设。

http://www.cloudwalk.cn/
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

加州大学伯克利分校机构

加利福尼亚大学伯克利分校,简称加州大学伯克利分校,又常被译为加利福尼亚大学伯克莱分校,位于美国加利福尼亚州旧金山湾区伯克利市,是一所世界著名的公立研究型大学。其许多科系位于全球大学排行前十名,是世界上最负盛名的大学之一,常被誉为美国乃至世界最顶尖的公立大学。

https://www.berkeley.edu/
推荐文章
暂无评论
暂无评论~