一年一度的 MegTech 来了!这次旷视一口气发布了 20 个 Demo。
在今天的旷视技术开放日上,旷视联合创始人、CEO 印奇在主题演讲中表示:「今年是旷视成立的第十一个年头,也是 MegTech 举办的第二年。未来,我们希望每年都能举办一届 MegTech,而且越办越好,让它能够真正成为每位旷视人和旷视朋友的技术节日。」旷视的 VR 裸手交互。旷视的 VR 裸手交互 Demo,通过相机捕捉手部的运动状态,基于深度学习技术对图像进行手部检测及关键点提取,并利用时序对手部运动进行跟踪,从而实现对手部姿态的实时三维重建,并基于重建结果进行姿态行为分析,由此即可实现在虚拟世界中进行各式各样的交互。
手机摄影,帮你拍电影,谁都能当生活的导演。旷视手机电影 Demo 集合了视频人像虚化、视频人像留色、视频双重曝光和视频光斑四种视频特效以及最新研发的电影模式算法。上述四种视频特效通过视频人像分割算法、深度信息以及丰富而有趣的图像处理算法,可以满足不同场景和人物的拍摄需求,丰富拍摄体验。
手绘任务转动画,二次元小姐姐活灵活现。手绘人物转动画 demo 背后的技术是旷视自研的模型 CoNR(Collaborated Neural Rendering for Anime Character Sheets, 用于二次元手绘设定稿动画化的神经渲染器),将人物姿势转化为超密集姿势(Ultra-Dense Pose)表示,使用特殊设计的 UNet 结构,估计参考图与生成姿势间的光流。新结构支持任意多个人设图交叉联合推理光流结果,最终使用光流采样以生成新结果。用户输入少量人物图,即可快速生成任意姿态和角度下的人物视频。模型对于输入图片的比例、动作精确性等包容度很高,可适应包括三头身在内的绝大多数手绘图片。
实时 HDR,身前旷野真实还原,多彩视界 AI 点亮。旷视研究院通过 AI 技术,在理解场景信息的基础上,将画面中的物体尽可能恢复到它本来的亮度,实现与接近真实观感的色调映射与高光恢复,同时融合多帧特征信息来加强细节,准确还原多彩明亮的世界。同时该算法可以自适应多场景变化,无论是 “华灯辉煌” 还是“夜阑人静”,AI 都可以帮助用户准确生动地记录下身边美丽的瞬间。
以往 AI 模型的训练,往往需要云端专用的计算显卡(GPU),价格昂贵、能耗很高,不可避免的数据传输也带来数据安全风险敞口。伴随着 AIoT 时代的发展,AI 模型从云端拓展到边缘端和设备终端,嵌入式设备正成为 AI 落地的重要载体。由于计算能力和精度等因素限制,嵌入式设备一般只用于模型推理,难以进行模型训练。旷视研究院的研究员通过对计算图的设计和混合精度的训练策略,结合旷视天元 MegEngine 开源深度学习框架,使 ResNet-18、VGG 等模型的微调式训练可在一颗用于推理的芯片上实现,令模型训练脱离昂贵的 GPU 成为可能。以 ResNet-18 微调为例,训练时的平均功率仅为 2.36W,用一个 5V1A 的充电宝就能带得动。微调训练该模型消耗的能量仅为 NVIDIA V100 GPU 的 1/3 左右,与 A100 显卡同量级。对一些需实时更新 AI 模型或是数据隐私要求高的应用场景而言,直接在边缘侧设备上完成模型训练具有极高的实际应用价值。同时,低功耗的模型训练,能够匹敌数据中心模型训练的能效,实现低碳环境友好。
低功耗嵌入式 L2 自动驾驶感知方案。车载感知模型对算力需求很高,比如进行大分辨率输入下的行人、车辆3D感知时,单帧单任务下模型推理部分经常需要200-300GOPS*以上的计算量。实车跑多个任务时,整套感知系统可消耗多达几十T的算力,因此在一般的嵌入式系统上难以达成实时推理。旷视研究院提出模型超级压缩算法,通过软硬协同设计进行算法和硬件联合优化,使得在精度对齐浮点模型的条件下,实现 L2 级车载感知模型平均速度达到 Nvidia NX平台浮点模型的2倍。此时整套系统的 AI 计算部分功耗保持在3w 左右,因而仅用充电宝即可供给嵌入式芯片正常工作,成功实现了低功耗的 L2 自动驾驶感知方案。
一站式 MLOps 算法生产平台,实现自动化、规模化的算法量产。旷视 AIS (AI Service)算法生产平台是旷视基于多年算法生产经验打造的一站式 MLOps 算法生产平台,提供从数据清洗、智能标注、数据管理、数据质检、算法自动生产、模型多维能力评测、pipeline 部署等全流程能力。旷视 AIS 算法生产平台可以高效实现自动化、零代码算法生产,降低行业算法生产的技术门槛以及生产成本,大幅提升生产效率。旷视 AIS 算法生产平台提供多种功能支持算法快速生产部署,包括:- 数据清洗:支持对视频和图片数据执行抽帧、去重、去花屏以及黑屏等操作,确保下游数据的标注和训练质量。单个清洗任务最大支持 100Gi 视频数据的清洗。
- 智能标注:旷视自研的智能数据标注工具能够大幅提升标注精度和标注效率。和手动标注相比,使用智能标注能力可以使标注效率提高 30 倍。
- 模型训练:基于旷视研究院自研的算法库以及算法推荐能力,AIS 算法生产平台提供自动化的模型创建方式,用户无需具备模型训练的基础,只需提供训验数据、选择模型训练目标,系统将自动帮用户训练出表现良好的模型。旷视 AIS 算法生产平台目前已支持 100 多种业务模型训练,2 小时即可完成模型训练,模型产出精度指标远高于业界平均水平。
- 模型评测:旷视 AIS 算法生产平台中的模型评测和数据分析能力能够在模型训练后,使用多维指标衡量模型的表现能力,同时可视化模型训练过程中的数据结果,统计模型在不同分布、不同维度下的表现,帮助快速定位模型的问题,进一步优化模型。
- 模型自动部署:旷视自研的 ADS(Auto Deploy Service)模型部署工具,提供将训练好的模型一键转换至不同计算平台并支持测试对分的服务,可大幅简化模型从训练到部署的流程。

作为一家 AI 公司,旷视还是有点实力的。这次技术开放日上,在自动驾驶技术预研方面,旷视研究院就提出了一种全新自动驾驶的纯视觉 3D 感知框架——PETR。
PETR 框架通过引入 3D 位置向量的概念,将 3D 空间坐标、相机内外参信息直接编码进 2D 图像特征中,无需任何特征投影、采样等步骤,可以直接进行端到端部署;同时,相机内外参可以显式地作为模型输入,极大缓解了已有方法存在的对相机参数的过拟合问题,实现跨数据集、跨场景的模型训练。PETR 系列研究的最新成果 PETRv2 在 3D 检测、BEV 分割任务上都取得了最优性能。在纯视觉 3D 检测榜单 nuScenes 上,在没有使用 TTA(Test-Time Augmentation,测试数据增强)的情况下,PETRv2 超过了此前时序建模的 BEVDet4D 和 BEVFormer。而在 BEV 分割任务上的性能也高于其他方法,尤其是在车道线分割方面成绩大幅领先。目前该模型源代码已开源。为了进一步加强模型在 BEV 时的性能,旷视研究院又提出了一个新的 3D 目标检测器 BEVDepth。BEVDepth 率先定位了影响视觉 3D 检测最核心的问题——物体深度估计,之后创新性地使用了未经标注过的点云数据作为监督信号,极大增强网络感知物体深度能力的同时,还不会影响推理性能。
BEVDepth 在 nuScenes 数据集的 3D 目标检测比赛上取得最优结果,mAP* 达到 0.503。旷视研究院凭借丰富的机器视觉技术积累,在融合感知和视觉感知两方面均达到了业界领先水平,从而可以有效满足不同车型的需求。同时在定位、预测和规划方面,旷视研究院采用基于深度学习的方案,泛化能力强并且容易维护。下列 Demo 中展示了在高速公路和城区道路中点到点自动驾驶能力,以及在挑战场景下辅助泊车的能力。

这些 AI 基础能力不是在场景化应用中能直接看到的,却是很多应用型 AI 创新突破的基石。旷视一直坚持 “1+3” 的 AIoT 战略,其中的 “3” 是指三大块业务,而 “1” 是指 AI 生产力平台 Brain++ 为代表的 AI 能力。可以看到,其在 AI 基础能力上,旷视也正基于 Brain++ 进行拓展。看完上述这些前沿 AI Demo,那么我们如何以此为参考认识当下视觉 AI 行业发展的水平呢?旷视现在是一家 AIoT 的公司。自成立以来,AIoT 一直是旷视核心的战略关键词。旷视将 AIoT 定义为 “AIoT=AI+IoT + 空间”。其中,“AI” 和“IoT”是两个相辅相成的核心关键词。AI 是不断演进的算法能力;IoT 是软硬结合的设备载体。在此基础上,旷视还强调 “空间” 这一关键词,提出空间是应用场景的闭环 。 在过去二三十年,互联网、5G、AR、VR 等技术的不断演进,给虚拟世界带来了翻天覆地的变化。但与此同时,技术对于物理世界的改造并没有发生根本性的变化。旷视认为,“Make the Physical World Better”将是未来 AIoT 从业者努力追求的方向。旷视联合创始人、CEO 印奇在旷视技术开放日上的分享为了支撑 AIoT 这一长期发展战略,旷视构建了 “2+1” 的 AIoT 核心技术科研体系,即以 “基础算法科研” 和“规模算法量产”为两大核心的 AI 技术体系,和以 “计算摄影学” 为核心的 “算法定义硬件”IoT 技术体系(包括 AI 传感器和 AI 机器人)。AI 为“本”,是旷视一直坚持的核心能力;IoT 为“器”,是旷视实现 AI 规模化落地的硬件载体。这一整套科研战略体系,涵盖了从基础研究、算法生产到软硬一体化产品的 AI 落地全链路。印奇表示,“2+1” 的 AIoT 核心技术科研体系,是支撑旷视未来不断走向 AIoT 商业化成功的重要基石。“大”和 “统一” 成为当今视觉 AI 基础研究的新趋势基础模型科研是 AI 创新突破的根基。在 2012 年 AlexNet 被提出之后,基于深度学习的神经网络成为 AI 视觉发展的主要原动力之一。神经网络根据用途、构建方式的不同,大致可以分为 CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等。这些模型极大地推动了 AI 发展的历史进程。当时间来到 2022 年,旷视认为,“大”和 “统一” 已经成为视觉 AI 基础研究的最新趋势。其中,“大”主要是指 AI 大模型,即利用大数据、大算力和大参数量,提高模型的表达能力,使得 AI 模型能够适用于多种任务、多种数据和多种应用场景。旷视研究院基础科研负责人张祥雨认为,“大”是提高 AI 系统性能的重要捷径之一。但是,大并不意味好,片面地追求大参数量、大计算量和大数据量,并不一定能够实现更强大的模型,反而会产生更大的计算开销,令整体收益非常有限。旷视基础科研倡导的 “大”,是要以创新的算法驱动,充分发挥大数据、大算力的威力,拓展 AI 认知的边界。旷视关于“大” 的研究,从实用角度出发,集中体现在大模型、大算法和大应用三个层面。在 “大” 和“统一”的理念下,旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向,并取得了多项突出的科研成果。张祥雨强调,基础模型科研需要坚持长期主义,旷视将始终以原创、实用和本质作为基础科研的指导原则,致力于解决人工智能最本质的难题。旷视研究院算法量产负责人周而进总结了过去十多年在算法生产和应用落地过程中的实践经验。在周而进看来,算法落地的主要挑战在于整个生产环节的复杂性上。具体来说,分为三个层面:第一,数据生产的复杂性。第二,算法模型本身的不确定性。第三,算法落地的 AIoT 硬件平台的多样性。旷视研究院算法量产负责人周而进在旷视技术开放日上的分享AIS 基于旷视 Brain++ 体系,构建了一套覆盖数据处理、模型训练、性能分析调优、推理部署测试等算法生产全链路的零代码、自动化的生产力工具平台。AIS 标志着旷视 Brain++ 的又一次飞跃,让算法量产真正成为可能。目前,AIS 平台已经能够支持 100 多种业务模型训练,最快 2 小时即可完成,而且模型产出精度指标远高于业界平均水平。经验证,算法研发人员使用 Brain++ 和 AIS 平台,可以实现智能标注平均加速 30 倍,自动学习训练加速 4 至 20 倍。AIoT 产生了海量的应用场景,其需求在不断地改变与升级,这对于算法提出了越来越多的需求。同时,算法本身也对于硬件应该提供怎样的信息和输入提出了要求,甚至从根本上改造了硬件的形态与样式。因此,“算法定义硬件”的全新理念应运而生。旷视研究院计算摄影负责人范浩强以 AI 传感器为例,分享了旷视在 “算法定义硬件” 方面的最新思考与进展。旷视研究院计算摄影负责人范浩强在旷视技术开放日上的分享他认为,随着 AI、视觉算法等领域的发展,传感器将不再单独的、直接地提供应用价值,传感器和应用之间需要算法来作为承上启下的桥梁。从技术角度讲,这两者最显著的结合点就是计算摄影。印奇最后强调,“科研实力和竞争力,最终都将回归到人。‘技术信仰、价值务实’不仅是旷视的科研人才观,更是旷视公司的人才观“。为此,旷视将不懈努力,通过聚集最优秀的人才,一起做最好的科研,通过产品让科研成果创造价值,不断探索新领域,让人工智能技术为这个世界创造更多美好。