Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

旷视连发20个Demo,VR裸手交互、手绘转动画……大秀AI

一年一度的 MegTech 来了!这次旷视一口气发布了 20 个 Demo。

在今天的旷视技术开放日上,旷视联合创始人、CEO 印奇在主题演讲中表示:「今年是旷视成立的第十一个年头,也是 MegTech 举办的第二年。未来,我们希望每年都能举办一届 MegTech,而且越办越好,让它能够真正成为每位旷视人和旷视朋友的技术节日。」


连发 20 个 Demo

旷视这次有哪些硬核展示,我们先看动图。

旷视的 VR 裸手交互。旷视的 VR 裸手交互 Demo,通过相机捕捉手部的运动状态,基于深度学习技术对图像进行手部检测及关键点提取,并利用时序对手部运动进行跟踪,从而实现对手部姿态的实时三维重建,并基于重建结果进行姿态行为分析,由此即可实现在虚拟世界中进行各式各样的交互。

手机摄影,帮你拍电影,谁都能当生活的导演。旷视手机电影 Demo 集合了视频人像虚化、视频人像留色、视频双重曝光和视频光斑四种视频特效以及最新研发的电影模式算法。上述四种视频特效通过视频人像分割算法、深度信息以及丰富而有趣的图像处理算法,可以满足不同场景和人物的拍摄需求,丰富拍摄体验。

手绘任务转动画,二次元小姐姐活灵活现。手绘人物转动画 demo 背后的技术是旷视自研的模型 CoNR(Collaborated Neural Rendering for Anime Character Sheets, 用于二次元手绘设定稿动画化的神经渲染器),将人物姿势转化为超密集姿势(Ultra-Dense Pose)表示,使用特殊设计的 UNet 结构,估计参考图与生成姿势间的光流。新结构支持任意多个人设图交叉联合推理光流结果,最终使用光流采样以生成新结果。用户输入少量人物图,即可快速生成任意姿态和角度下的人物视频。模型对于输入图片的比例、动作精确性等包容度很高,可适应包括三头身在内的绝大多数手绘图片。

实时 HDR,身前旷野真实还原,多彩视界 AI 点亮。旷视研究院通过 AI 技术,在理解场景信息的基础上,将画面中的物体尽可能恢复到它本来的亮度,实现与接近真实观感的色调映射与高光恢复,同时融合多帧特征信息来加强细节,准确还原多彩明亮的世界。同时该算法可以自适应多场景变化,无论是 “华灯辉煌” 还是“夜阑人静”,AI 都可以帮助用户准确生动地记录下身边美丽的瞬间。

小小充电宝,起大作用

一个充电宝能干啥?这次旷视用它来跑模型。

以往 AI 模型的训练,往往需要云端专用的计算显卡(GPU),价格昂贵、能耗很高,不可避免的数据传输也带来数据安全风险敞口。伴随着 AIoT 时代的发展,AI 模型从云端拓展到边缘端和设备终端,嵌入式设备正成为 AI 落地的重要载体。由于计算能力和精度等因素限制,嵌入式设备一般只用于模型推理,难以进行模型训练。

旷视研究院的研究员通过对计算图的设计和混合精度的训练策略,结合旷视天元 MegEngine 开源深度学习框架,使 ResNet-18、VGG 等模型的微调式训练可在一颗用于推理的芯片上实现,令模型训练脱离昂贵的 GPU 成为可能。
 
以 ResNet-18 微调为例,训练时的平均功率仅为 2.36W,用一个 5V1A 的充电宝就能带得动。微调训练该模型消耗的能量仅为 NVIDIA V100 GPU 的 1/3 左右,与 A100 显卡同量级。对一些需实时更新 AI 模型或是数据隐私要求高的应用场景而言,直接在边缘侧设备上完成模型训练具有极高的实际应用价值。同时,低功耗的模型训练,能够匹敌数据中心模型训练的能效,实现低碳环境友好。

低功耗嵌入式 L2 自动驾驶感知方案。车载感知模型对算力需求很高,比如进行大分辨率输入下的行人、车辆3D感知时,单帧单任务下模型推理部分经常需要200-300GOPS*以上的计算量。实车跑多个任务时,整套感知系统可消耗多达几十T的算力,因此在一般的嵌入式系统上难以达成实时推理。旷视研究院提出模型超级压缩算法,通过软硬协同设计进行算法和硬件联合优化,使得在精度对齐浮点模型的条件下,实现 L2  级车载感知模型平均速度达到 Nvidia NX平台浮点模型的2倍。此时整套系统的 AI 计算部分功耗保持在3w 左右,因而仅用充电宝即可供给嵌入式芯片正常工作,成功实现了低功耗的 L2 自动驾驶感知方案。

AIS 算法生产平台

一站式 MLOps 算法生产平台,实现自动化、规模化的算法量产。

旷视 AIS (AI Service)算法生产平台是旷视基于多年算法生产经验打造的一站式 MLOps 算法生产平台,提供从数据清洗、智能标注、数据管理、数据质检、算法自动生产、模型多维能力评测、pipeline 部署等全流程能力。旷视 AIS 算法生产平台可以高效实现自动化、零代码算法生产,降低行业算法生产的技术门槛以及生产成本,大幅提升生产效率。旷视 AIS 算法生产平台提供多种功能支持算法快速生产部署,包括:

  • 数据清洗:支持对视频和图片数据执行抽帧、去重、去花屏以及黑屏等操作,确保下游数据的标注和训练质量。单个清洗任务最大支持 100Gi 视频数据的清洗。
  • 智能标注:旷视自研的智能数据标注工具能够大幅提升标注精度和标注效率。和手动标注相比,使用智能标注能力可以使标注效率提高 30 倍。
  • 模型训练:基于旷视研究院自研的算法库以及算法推荐能力,AIS 算法生产平台提供自动化的模型创建方式,用户无需具备模型训练的基础,只需提供训验数据、选择模型训练目标,系统将自动帮用户训练出表现良好的模型。旷视 AIS 算法生产平台目前已支持 100 多种业务模型训练,2 小时即可完成模型训练,模型产出精度指标远高于业界平均水平。
  • 模型评测:旷视 AIS 算法生产平台中的模型评测和数据分析能力能够在模型训练后,使用多维指标衡量模型的表现能力,同时可视化模型训练过程中的数据结果,统计模型在不同分布、不同维度下的表现,帮助快速定位模型的问题,进一步优化模型。
  • 模型自动部署:旷视自研的 ADS(Auto Deploy Service)模型部署工具,提供将训练好的模型一键转换至不同计算平台并支持测试对分的服务,可大幅简化模型从训练到部署的流程。


还有一些过硬技术

作为一家 AI 公司,旷视还是有点实力的。这次技术开放日上,在自动驾驶技术预研方面,旷视研究院就提出了一种全新自动驾驶的纯视觉 3D 感知框架——PETR。

PETR 框架通过引入 3D 位置向量的概念,将 3D 空间坐标、相机内外参信息直接编码进 2D 图像特征中,无需任何特征投影、采样等步骤,可以直接进行端到端部署;同时,相机内外参可以显式地作为模型输入,极大缓解了已有方法存在的对相机参数过拟合问题,实现跨数据集、跨场景的模型训练。

PETR 系列研究的最新成果 PETRv2 在 3D 检测、BEV 分割任务上都取得了最优性能。在纯视觉 3D 检测榜单 nuScenes 上,在没有使用 TTA(Test-Time Augmentation,测试数据增强)的情况下,PETRv2 超过了此前时序建模的 BEVDet4D 和 BEVFormer。而在 BEV 分割任务上的性能也高于其他方法,尤其是在车道线分割方面成绩大幅领先。目前该模型源代码已开源。



为了进一步加强模型在 BEV 时的性能,旷视研究院又提出了一个新的 3D 目标检测器 BEVDepth。

BEVDepth 率先定位了影响视觉 3D 检测最核心的问题——物体深度估计,之后创新性地使用了未经标注过的点云数据作为监督信号,极大增强网络感知物体深度能力的同时,还不会影响推理性能。

BEVDepth 在 nuScenes 数据集的 3D 目标检测比赛上取得最优结果,mAP* 达到 0.503。


旷视研究院凭借丰富的机器视觉技术积累,在融合感知和视觉感知两方面均达到了业界领先水平,从而可以有效满足不同车型的需求。同时在定位、预测和规划方面,旷视研究院采用基于深度学习的方案,泛化能力强并且容易维护。下列 Demo 中展示了在高速公路和城区道路中点到点自动驾驶能力,以及在挑战场景下辅助泊车的能力。


锚定 AIoT

这些 AI 基础能力不是在场景化应用中能直接看到的,却是很多应用型 AI 创新突破的基石。旷视一直坚持 “1+3” 的 AIoT 战略,其中的 “3” 是指三大块业务,而 “1” 是指 AI 生产力平台 Brain++ 为代表的 AI 能力。可以看到,其在 AI 基础能力上,旷视也正基于 Brain++ 进行拓展。

看完上述这些前沿 AI Demo,那么我们如何以此为参考认识当下视觉 AI 行业发展的水平呢?

旷视现在是一家 AIoT 的公司。自成立以来,AIoT 一直是旷视核心的战略关键词。旷视将 AIoT 定义为 “AIoT=AI+IoT + 空间”。其中,“AI” 和“IoT”是两个相辅相成的核心关键词。AI 是不断演进的算法能力;IoT 是软硬结合的设备载体。在此基础上,旷视还强调 “空间” 这一关键词,提出空间是应用场景的闭环 。 在过去二三十年,互联网、5G、AR、VR 等技术的不断演进,给虚拟世界带来了翻天覆地的变化。但与此同时,技术对于物理世界的改造并没有发生根本性的变化。旷视认为,“Make the Physical World Better”将是未来 AIoT 从业者努力追求的方向。

旷视联合创始人、CEO 印奇在旷视技术开放日上的分享

为了支撑 AIoT 这一长期发展战略,旷视构建了 “2+1” 的 AIoT 核心技术科研体系,即以 “基础算法科研” 和“规模算法量产”为两大核心的 AI 技术体系,和以 “计算摄影学” 为核心的 “算法定义硬件”IoT 技术体系(包括 AI 传感器和 AI 机器人)。AI 为“本”,是旷视一直坚持的核心能力;IoT 为“器”,是旷视实现 AI 规模化落地的硬件载体。这一整套科研战略体系,涵盖了从基础研究、算法生产到软硬一体化产品的 AI 落地全链路。印奇表示,“2+1” 的 AIoT 核心技术科研体系,是支撑旷视未来不断走向 AIoT 商业化成功的重要基石。

“大”和 “统一” 成为当今视觉 AI 基础研究的新趋势

基础模型科研是 AI 创新突破的根基。在 2012 年 AlexNet 被提出之后,基于深度学习神经网络成为 AI 视觉发展的主要原动力之一。神经网络根据用途、构建方式的不同,大致可以分为 CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等。这些模型极大地推动了 AI 发展的历史进程。

当时间来到 2022 年,旷视认为,“大”和 “统一” 已经成为视觉 AI 基础研究的最新趋势。

其中,“大”主要是指 AI 大模型,即利用大数据、大算力和大参数量,提高模型的表达能力,使得 AI 模型能够适用于多种任务、多种数据和多种应用场景。

旷视研究院基础科研负责人张祥雨

旷视研究院基础科研负责人张祥雨认为,“大”是提高 AI 系统性能的重要捷径之一。但是,大并不意味好,片面地追求大参数量、大计算量和大数据量,并不一定能够实现更强大的模型,反而会产生更大的计算开销,令整体收益非常有限。旷视基础科研倡导的 “大”,是要以创新的算法驱动,充分发挥大数据、大算力的威力,拓展 AI 认知的边界。旷视关于“大” 的研究,从实用角度出发,集中体现在大模型、大算法和大应用三个层面。

在 “大” 和“统一”的理念下,旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向,并取得了多项突出的科研成果。张祥雨强调,基础模型科研需要坚持长期主义,旷视将始终以原创、实用和本质作为基础科研的指导原则,致力于解决人工智能最本质的难题。

AIS 平台让算法量产成为现实 

旷视研究院算法量产负责人周而进总结了过去十多年在算法生产和应用落地过程中的实践经验。在周而进看来,算法落地的主要挑战在于整个生产环节的复杂性上。具体来说,分为三个层面:第一,数据生产的复杂性。第二,算法模型本身的不确定性。第三,算法落地的 AIoT 硬件平台的多样性。

旷视研究院算法量产负责人周而进在旷视技术开放日上的分享

AIS 基于旷视 Brain++ 体系,构建了一套覆盖数据处理、模型训练、性能分析调优、推理部署测试等算法生产全链路的零代码、自动化的生产力工具平台。AIS 标志着旷视 Brain++ 的又一次飞跃,让算法量产真正成为可能。

目前,AIS 平台已经能够支持 100 多种业务模型训练,最快 2 小时即可完成,而且模型产出精度指标远高于业界平均水平。经验证,算法研发人员使用 Brain++ 和 AIS 平台,可以实现智能标注平均加速 30 倍,自动学习训练加速 4 至 20 倍。

AI 传感器是 “算法定义硬件” 的核心单元

AIoT 产生了海量的应用场景,其需求在不断地改变与升级,这对于算法提出了越来越多的需求。同时,算法本身也对于硬件应该提供怎样的信息和输入提出了要求,甚至从根本上改造了硬件的形态与样式。因此,“算法定义硬件”的全新理念应运而生。

旷视研究院计算摄影负责人范浩强以 AI 传感器为例,分享了旷视在 “算法定义硬件” 方面的最新思考与进展。

旷视研究院计算摄影负责人范浩强在旷视技术开放日上的分享

他认为,随着 AI、视觉算法等领域的发展,传感器将不再单独的、直接地提供应用价值,传感器和应用之间需要算法来作为承上启下的桥梁。从技术角度讲,这两者最显著的结合点就是计算摄影。

印奇最后强调,“科研实力和竞争力,最终都将回归到人。‘技术信仰、价值务实’不仅是旷视的科研人才观,更是旷视公司的人才观“。为此,旷视将不懈努力,通过聚集最优秀的人才,一起做最好的科研,通过产品让科研成果创造价值,不断探索新领域,让人工智能技术为这个世界创造更多美好。


技术分析旷视技术开放日
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

嵌入式系统技术

嵌入式系统,是一种嵌入机械或电气系统内部、具有专一功能和实时计算性能的计算机系统。嵌入式系统常被用于高效控制许多常见设备,被嵌入的系统通常是包含数字硬件和机械部件的完整设备,例如汽车的防锁死刹车系统。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~