二次元AI画师、防遮挡弹幕,腾讯多项AI技术亮相SIGGRAPH Asia 2018

2018年12月4日到7日,第11届SIGGRAPH Asia在日本东京举行。作为国际顶级专业学术会议,SIGGRAPH Asia从2008年起每年召开,这也是有计算机图形图像研究领域“奥斯卡”之称的SIGGRAPH唯一的分会。SIGGRAPH Asia 2018汇聚了全球从事科研(硬件、软件)、电影、游戏、艺术、动画、人机交互、教育和新兴技术等方向的最前沿的专家、创意人员以及爱好者,展示世界顶尖的科学、技术、创新与思想。

机器之心了解,“清华大学-腾讯联合实验室”联合腾讯AI Lab、互娱NEXT技术中心、优图实验室、音视频实验室、腾讯视频、自动驾驶业务中心等多个腾讯顶尖AI团队,参与SIGGRAPH Asia 2018的展厅展示及Exhibitor Talk,为大会参与站展现了多项AI技术与体验,包括高保真可交互的虚拟人Siren、自动生成日系二次元头像的AI画师YUI、基于人眼视觉的腾讯丽影、基于人脸人体识别技术的智慧商超、防遮挡的视频智能弹幕、基于智能物联的微派机器人、自然场景汉字的自动识别等。

一、高保真可交互虚拟人Siren——腾讯互娱NEXT技术中心 & AI Lab

近年来,AI技术的日渐成熟促进了IoT设备的爆发式增长,语音助手、聊天机器人逐渐走进我们的生活。为了给用户创造出更生动的交互体验,腾讯互娱NEXT技术中心与AI Lab联合研发的Siren AI,赋予虚拟人AI的大脑和具体的形象,让虚拟人能听会道。

基于虚拟人的语音交互是一个复杂的过程,涉及多个AI研究和工程领域:语音激活检测(VAD),语音识别(ASR),自然语言处理(NLP),语音合成(TTS),语音驱动面部动画(ADFA)。

在虚拟人Siren的研究中,基于腾讯已有的AI解决方案,主要攻坚的是语音驱动面部动画(ADFA)相关技术。在解决实时驱动虚拟人的技术难点时,团队注意到Siren具有精巧的Rig Logic,能将80维左右的Rig Controls参数映射到数千维的脸部Rig Elements参数(Blend Shapes, Joints, Wrinkle Maps, etc. )。基于规则的映射,研发团队将语音驱动模型输出并抽象到80维左右,大大缩减了模型规模,同时降低了训练难度。在训练中,团队在面部动捕的同时采集音视频数据和Rig Controls序列数据,然后离线处理成一一对应的训练数据,并采用Time Code和专业的音视频采集设备数据解决对齐和掉帧的问题。

二、自动生成日系二次元头像——AI画师YUI 腾讯AI Lab

图像转换(Image Translation)是目前计算机视觉领域最热门的研究方向之一。腾讯AI Lab运用这一技术,自主研发了可以将用户的真人头像转换成萌萌二次元头像的“画师YUI”,在本次大会上和与会者充分互动。

YUI背后的核心技术是AI Lab自研的 “堆叠式循环一致性生成对抗网络”。它首先学习低分辨率的图像转换,然后基于低分辨率的转换结果在更高分辨率下学习图像转换,进而提高图像转换质量。团队采用了基于生成对抗网络(GAN)的方式来训练 YUI 的转化网络。这一生成对抗网络由生成器和判别器两部分组成。生成器不断地学习如何生成更高质量的二次元形象来欺骗判别器,同时判别器也不断学习如何更好地区分原始的二次元形象和生成的二次元形象。两者相互促进,最终使生成器能够根据输入人像生成接近人类画师水平的二次元形象。目前,用户可以通过微信小程序利用该技术将自己的真人头像转换为二次元头像,未来YUI将支持更精细的画风适配,甚至扩展至视频应用中。

三、更小更漂亮的视频魔术师“腾讯丽影”——腾讯音视频实验室

腾讯丽影是腾讯音视频实验室推出的基于人眼视觉标准的视频服务平台,在SIGGRAPH Asia 2018上,第一次向世界展示。腾讯丽影能将人眼视觉标准,贯穿视频处理服务的七大模块:分析、理解、修复、处理、编码、传输和评估,让每一个环节都以人眼视觉最优为目标。

腾讯丽影的人眼视觉识别

利用人眼视觉的特性,腾讯丽影可以自动找出视频中人眼感兴趣的部分,然后将视频分成人眼关注区域和非关注区域分别压缩和处理。同时,平台还能融合多种视频增强技术来提升视频感官质量,如去除可见噪点、低照度增强、去抖动、锐化增强、超分增强(SD->HD 2K->4K)、去除原始编码失真、去除毛刺、去除锯齿、帧率上采样、去除运动模糊、HDR等等。经腾讯丽影压缩处理后的视频,人眼的画质观感不但不会变差,反而可以超越源视频,达到视频修复并增强的效果。

四、智慧商超中的人脸人体识别——腾讯优图实验室

腾讯优图实验室在此次展会上展示了人脸人体识别技术在智慧商超、社交娱乐等场景中的应用。在城市生活方面,腾讯优Mall智慧零售系统通过大数据AI,赋能智慧零售。该技术基于人脸检测配准、人脸识别、人体Re-ID、人流密度分析以及人脸人体联合追踪等计算机视觉技术,通过腾讯优Mall智能零售系统,为消费者提供从进店、逛店到购买的全方位更优质的消费新体验。与此同时,零售商家可以通过VIP及老客到店识别、细粒度客流统计、客流轨迹统计等全面刻画场内用户行为,实现精准营销。目前,腾讯优Mall已经与百丽国际、永辉等客户达成合作。

优图智慧商超解决方案中的客户动线分析和停留路线统计

此外,腾讯优图联合腾讯云、每日优鲜最新推出的智能货柜解决方案,基于商品识别技术,可实现取物关门后自动生成订单结算,为用户提供“即拿即走”的流畅购物体验,准确率达99%以上。

五、智能防遮挡弹幕——腾讯视频

此次SIGGRAPH Asia中,在交互体验上,腾讯视频展示了为用户提供了智能防遮挡弹幕技术和“只看他”功能。智能防遮挡弹幕技术通过对视频内容的分析,分割出视频中的人体区域,让弹幕在经过人体区域时被遮挡,使用户可同时享受观看弹幕和视频的乐趣。同样基于AI技术对视频内容分析的“只看他”和台词提取与分享功能,也让视频用户获得更有趣的交互体验。

在观看体验上,TIE(钛)视频增强技术能给用户提供更细致的视频观看体验。它在SDR的基础上,自适应地对视频內容的对比度、饱和度优化,让呈现的画面色彩更鲜艳,层次更分明。结合视频超分辨率技术、HDR10 转换和增强技术,和ROI(感兴趣区域)编码,腾讯视频能为用户提供画面更清晰,视觉效果更好的观看体验。

六、基于智能物联的微派机器人——腾讯自动驾驶业务中心

本次大会上,腾讯自动驾驶业务中心展示了由腾讯自主研发的AI技术与物联网高度融合的智能配送机器人 - 腾讯微派。 根据末端配送应用场景,提供包裹分发、智能运输、便捷签收等一体化定制服务,真正做到在室内环境下将包裹安全、高效送达。

腾讯微派集成深度定制化的机器人操作系统,依靠自主研发的高性能SHIELD 模块化自主定位导航算法,结合多传感器融合感知解决方案,自研图像识别引擎、多模态人机交互等机器人核心技术,已实现在复杂大场景下构建地图、智能网联、规划轨迹、自主行走与避障,并具备调度物联设备的综合服务能力。

七、自然场景汉字的自动识别——清华大学-腾讯联合实验室

在自然场景照片上,文字会出现遮挡、透视变换、阴影、字体不一致等复杂情况,在此情况下识别汉字要比在扫描文档上识别困难得多。

清华-腾讯联合实验室可视媒体智能处理团队利用字符级别标注的特点,将物体检测和识别的神经网络(包括AlexNet、OverFeat、Google Inception、ResNet和YOLOv2等模型)应用到街景汉字检测和识别中,从而实现室外街景汉字的高准确度检测和识别。这项技术可以用于街景中POI信息的自动提取,丰富地图中POI信息的细节。

为了给神经网络训练提供大量汉字数据集,清华-腾讯联合实验室在腾讯街景照片中挑选了32285张照片,并标注了超过100万个汉字及其属性信息,共创了迄今为止最大的真实场景汉字数据集。

此前,腾讯董事会主席兼首席执行官马化腾曾表示,AI、云计算大数据是腾讯关注的重点,将持续与学术界、产业界开展各种合作。成立于2010年的清华-腾讯联合实验室,就是腾讯在产学研结合新模式上的探索:腾讯携手清华大学共同承担国家重大科研项目,探索原创性的技术成果,培养和吸收一流的高素质人才。在深入合作的AI、社交网络、大数据、安全、互联网+等领域,联合实验室取得了丰硕成果,共同研发的几十项科研成果现已在腾讯业务上得到实际应用。未来双方将在更广的领域、更深的层面开展更紧密的合作,为腾讯的业务发展、为清华大学的学科建设做出更多贡献。

产业SIGGRAPH AsiaSIGGRAPH计算机视觉应用腾讯AI Lab腾讯优图腾讯
3
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

机器人操作系统技术

ROS,是专为机器人软件开发所设计出来的一套电脑操作系统架构。它是一个开源的元级操作系统,提供类似于操作系统的服务,包括硬件抽象描述、底层驱动程序管理、共用功能的执行、程序间消息传递、程序发行包管理,它也提供一些工具和库用于获取、建立、编写和执行多机融合的程序。

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的,并在随后的两篇论文中进行了修订。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

Alex网络技术

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

暂无评论
暂无评论~