Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相

「智能时代的操作系统」飞桨和自研 AI 处理器百度昆仑都已就位,产业智能化时代正在到来。

在刚刚开幕的百度世界大会上,总台央视主持人康辉和年轻 20 岁版的自己对话,成为了人们喜闻乐见的话题。

这个虚拟版康辉同样「立志成为新闻播音员」。

之所以说是年轻 20 岁的康辉,是因为「他」是基于几十年前康辉的新闻播报视频数据生成的。与我们此前见过的一些类似技术相比,今天亮相的「康辉」,是一款具备认知能力的终端虚拟人,甚至可以进行机器——机器对话。

除了更会思考,全新的虚拟人技术还有另一个突破:他们的生成和展示的门槛已经大大降低,可以在普通手机上流畅运行。像这样帅气、聪明又会思考的虚拟人,背后整合了视觉、语音、语言与知识等多种模态的 AI 技术。这些技术是由升级后的百度大脑 6.0 提供的。

百度大脑是百度技术多年积累和业务实践的集大成,其中包括视觉、语音、自然语言处理、知识图谱、深度学习、人工智能安全等 AI 核心技术和 AI 开放平台,对内支持了百度所有业务,对外也是全方位开放。

从技术到硬件,从场景到应用,百度大脑作为软硬一体 AI 大生产平台,有效地降低了各行业应用 AI 技术的门槛。截至目前,百度大脑共计开放了 273 项 AI 能力,吸引到 230 万开发者,创建超过 31 万模型,并已培养出 100 万人工智能领域的从业者,目前在业内规模最大。

「百度大脑自 2010 年开始布局和积累基础技术,迄今为止已经发展了十年,」百度 CTO 王海峰说道。「今天我们发布的百度大脑 6.0,是『AI 新型基础设施』,它将方便各行各业更全面、更高效地应用 AI 技术,加快智能化升级。」

在百度,不论是无人驾驶汽车、小度音箱、度晓晓、康辉和李彦宏的虚拟形象,还是人们常用的百度搜索、地图、输入法等等产品的背后,都有百度大脑提供的 AI 技术。

百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜 

对于百度大脑 6.0 的升级,吴甜从多个层次进行了概括:在基础层,飞桨深度学习平台和百度昆仑AI芯片「软硬一体」升级为开发者打下了坚实的基础;在技术层,百度大脑实现多个核心技术融合,形成知识增强的跨模态语义理解能力,在语音语言一体化理解的支持下,语音识别的准确率和交互成功率也迎来大幅提升。具有认知能力的「虚拟人」正是这些前所未有技术的集中展示。

「从时代大背景来看,人类社会正处在第四次工业革命的开端,人工智能是其核心科技,正在驱动新一轮科技革命和产业变革,带领人类进入智能时代,」王海峰表示。「近期国家提出了『推动互联网、大数据、人工智能和实体经济深度融合』,推进新基建,加速产业转型升级,促进社会经济高质量发展等战略。人工智能是新基建重点建设的新型基础设施。百度建设的 AI 基础设施就是百度大脑。」

什么样的技术才能承担起这样的重任?在今天的大会中,百度大脑 6.0 宣布了从内到外的升级。

新一代百度昆仑芯片

首先是 AI 技术最为依赖的算力。「百度昆仑」是百度在 2018 年 7 月 4 日发布的一款 AI 芯片,但在之后的很长一段时间里鲜被提及。但实际上,百度昆仑团队已在业界顶级芯片会议 Hotchips 上发表了 4 篇论文,是国内发表最多的机构。

在今天的大会上,百度介绍了芯片研发的最新消息。目前,百度昆仑芯片一代已经大规模部署,在百度搜索引擎及云计算任务上部署了 2 万片。在实际工作环境中,相比英伟达 Tesla T4 GPU,这种芯片在不同模型任务上的性能可以提升 1.5 到 3 倍。

百度还宣布了百度昆仑 2 芯片的计划,新一代芯片将采用 7nm 工艺打造,性能相比百度昆仑 1 代提升三倍,计划明年上半年量产。新一代芯片将加入高速片间互联能力,并推出多款细分型号,覆盖训练和推理,还将有边缘计算的型号。

飞桨平台:核心技术自主研发

百度飞桨是国内首个开源的,功能完整的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。随着功能的不断完善,飞桨吸引了越来越多的开发者。

「飞桨正在作为中国智能经济的基础底座,对外输出产业智能化升级转型的强大推动力。」王海峰说道。

最近,飞桨也经历了大幅度的升级,其范围覆盖动态图和 API 体系,一些核心技术也有了新的突破。其迎来了「动静统一、软硬融合」的升级:已适配 22 种芯片型号,覆盖 15 家硬件厂商,对国产硬件的支持业内第一,范围超过 TensorFlow 和 PyTorch。

在动态图转静态图方面,飞桨现在已经支持完备的语法覆盖和带控制流的任务,仅需一个装饰器就可以触发操作,统一的接口可以让模型保存加载实现自动适配。

在动态图上,飞桨提供了比静态图更简洁灵活的混合精度训练接口,并且实现媲美静态图的混合精度与量化训练效果。以 ResNet 训练为例,FP 使用混合精度训练,比 FP32 方式速度提升了 2.7 倍。动态图还支持量化,在 MobileNet,ResNet 等动态图模型的任务中,在保持精度不变的情况下,仅占 FP32 体积的 1/4。

飞桨的 API 体系也在全面升级。据介绍,飞桨形成了贴合用户使用习惯的全新 API 体系,包括包结构、API 规范、共性问题优化等,面对用户更加友好。为了减少开发者的工作量,飞桨可以提供包含视觉、NLP 等领域的模型和工具封装的高层 API,以及最经典的模型结构。 

语音交互,日均调用量超 155 亿次

在语音识别领域,百度推出了端到端信号声学一体化建模的技术。语音合成方面,最新的 Meitron(语音风格迁移)和单人千面合成个性化技术亮相。

个性化 TTS 是个性化定制的 Meitron 语音合成系统的最新演进,是基于子带分解和 GAN_loss 的端侧神经网络声码器,也是业内首个在手机端多人通用的端侧的基于神经计算的声码器。个性化 TTS 相较于传统的基于信号处理和参数的声码器,ABS 提升可以达到 65:35,其已应用于地图导航,目前每日的导航播报超过 1 亿次。

多角色的语音合成,则是针对娱乐内容产业存在的挑战。在制作小说有声读物等任务中,多个角色交替出现,单一音色演绎会出现没有张力的问题。通过深度学习技术对小说文本进行分析,AI 可以判断出文字中的角色、身份、情感,再借助多风格、多角色语音合成技术去合成小说中的声音,从而实现声音自然、体验优美的效果。

百度在大会上还交出了语音技术的最新成绩单:日均调用量超过 155 亿次,广泛应用在移动端、智能家居、和语音 IoT 等场景。

全球最大知识图谱的再次升级

百度拥有目前全球最大的知识图谱,其中包含超过 50 亿实体、5500 亿事实,日均调用量超 400 亿。百度的知识中台现在向企业提供了面向知识应用全生命周期的一站式解决方案,其知识图谱产品目前已覆盖 100 多个行业场景。

最近,这个知识图谱也有了全新升级。在通用图谱方面,百度提出了基于深度自注意力机制的知识表示框架,通过深度自注意力网络对知识图谱中的实体和关系进行连续向量表示,在此基础上,进一步引入预训练语言模型助力结构化知识表示,二元关系推理能力全面超越现有方法,语言学知识图谱上提升尤为显著。

利用多元关系异构图表示,百度还实现了简单知识表示到复杂知识表示的跃迁,多元关系推理效果大幅提升,关键指标平均提升 10%+。

在关系抽取技术上,百度研究人员提出了基于文本图谱联合预训练的关系抽取,通过联合文本语境与图谱路径,共同推断实体间的语义关系,从而大幅提升了关系抽取效果。

在事件图谱方面,百度已经形成了事件检测、事件表示、事件抽取、事件关系挖掘等核心能力,可实现分钟级检测热点、构建了包含 4000 多种事件类型、千万量级的事件库,并发布了业界规模最大的中文事件抽取数据集 DuEE。

除此之外,百度还研发了事理图谱,并升级了多模态语义理解技术。

语义理解框架文心(ERNIE)

在预训练模型火热的 NLP 领域里,百度提出的知识增强语义理解框架文心(ERNIE)最近一直被人们所关注。它以知识增强和持续学习为核心创新点,在深度学习的基础上融入了知识,通过持续学习技术不断吸收海量数据中的词汇、结构、语义等方面的知识。此前,文心在最具影响力的 NLP 评测基准 GLUE 上刷新了不少业内最佳水平记录。

目前,文心已经实现了基于知识增强的跨模态深度语义理解。通过知识关联多模态信息,AI 模型可以使用语言描述不同模态信息的语义,让机器实现从「看清」到「看懂」、「听清」到「听懂」,即图像和语言、语音和语言的一体化理解。

这种能力被百度称为「知识增强的跨模态深度语义理解」,它让机器能够听懂语音、看懂图像视频、理解语言,进而理解真实世界,并与人进行更好的交流。

因为语义理解框架文心的新发展,基于多流机制的预训练语言生成技术 ERNIE-GEN 和知识增强跨模态语义理解技术 ERNIE-ViL,ERNIE-ViL 首次将场景图知识融入到跨模态的预训练模型中。百度推出了文心语义理解技术平台,为企业提供一整套 NLP 定制与应用能力,目前已累计支持 2 万余名开发者。

文心基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的 NLP 算法集、端到端开发套件和平台,这套技术可以向开发者们提供一站式 NLP 开发与服务,让开发者更简单、高效地定制企业级 NLP 模型。经过大量真实应用场景的应用,这项技术已经具备工业级的落地实力。

视觉计算进入「软 + 硬」时代

视觉计算在端侧的需求凸显,模型小型化已成为趋势。百度大脑 6.0 让视觉计算走向极致效率,基于 PaddleSlim,为开发者开源 Slim 系列视觉模型,不仅包括端侧检测和分类上性能优异的基础模型,还包括计算量下降到 1/7 的人脸识别、仅有 3.1M 的文字识别模型,并开放了 3 款业界首发的视频生成 SDK 方案,可在手机端赋予用户 2D 虚拟真人、二次元等独特的形象。最后还探讨了以度目为代表的视觉硬件在生产生活中的落地应用,正式开启「软硬一体」的视觉时代。

目前,Slim 系列模型拥有业界最小的人脸识别、文字识别等模型等,在人脸识别方向,Slim 系列模型可以做到计算量小至 7 倍压缩。

百度大脑度目硬件则将优势算法通过嵌入式开发技术移植到边缘产品上,打造了人脸应用套件、人脸抓拍机、AI 镜头模组、视频分析盒等民用软硬件产品。通过软硬结合的一体化设计,实现了算法与硬件的深度调优,配备预设应用,可直接部署应用及简单的二次开发和集成。

首发国内首个面向疫情预测与追踪的多方位数据协作平台

在分论坛中,百度研究院大数据实验室与商业智能实验室主任窦德景发布了国内首个面向疫情预测与追踪的多方位数据协作平台——百度数据联邦平台。其具备安全数据存储、云上可信数据交换、大规模数据演算等特性,能够实现多个机构间的隐私数据融合、数据访问与联邦学习,目前已助力清华大学、西安交通大学,厦门大学等研究机构进行疫情研究。

在安全性方面,百度数据联邦平台可以保证数据不被泄露、篡改。在可扩性方面,这一平台可以提供自动部署服务打通不同城市的数据中心,加快不同数据中心数据的读写。而在可持续性方面,数邦平台与百度智能云原生集成,基于百度智能云进行了定制化的优化,极大限度地减少了损耗。

百度数据联邦平台还通过弹性动态配置,实现了多方数据的安全共享,形成了全动态的自动部署。

量脉 + 量桨 + 量易伏

今年 5 月,百度提出的量子机器学习工具「量桨」让飞桨成为了国内首个支持量子机器学习的深度学习平台。百度研究院量子计算研究所今天全新发布了国内首个云原生量子计算平台量易伏,并全面升级了量脉与量桨。

量易伏具备一系列特色功能:首先是三大量子开发套件——针对开发者,量易伏提供基于 Python 的开源开放工具包 QCompute,对于量子研究人员直接登陆浏览器而不需要任何人工配置即可使用在线编程工具 PyOnline,而对于量子计算爱好者来说,可以使用 QComposer 拖动编程体验量子计算的乐趣。

量易伏还带有量子编程全生命周期的支持,根据需要可以调用本地或者云端的服务器完成计算。量子工具链则支持用 Python 和量子汇编语言进行混杂编程,还具有设备无关性。量易伏的特色应用「变分量子特征求解器」,可以准确高效求解分子基态及能量,有望用于量子化学模拟以及新药发现等领域。

现在,百度量子平台已提供了连接顶层解决方案和底层硬件基础所需的大量软件工具以及接口,百度希望这一平台,帮助开发者与合作伙伴们免除学习复杂量子软硬件的麻烦,更快速地为各行业提供量子计算的能力。

在危害出现之前,保证 AI 安全

随着 AI 技术的不断落地,IoT 设备进入人们的家庭,人工智能技术的安全可信问题逐渐被人重视。面对前所未有的挑战,百度提出了 AI 安全三大维度:Security、Safety 和 Privacy,即强对抗环境下的安全威胁、非对抗条件下自然环境所产生的真实威胁,以及数据安全与隐私保护。

针对安全威胁,百度首创的模型鲁棒性体系化评估框架和对抗样本工具箱,将为量化评估安全威胁,帮助飞桨、TensorFlow 等主流机器学习平台快速提升模型鲁棒性提供支撑。

在隐私保护方面,百度在联邦学习等方面的技术探索,将为整个数据生命周期提供安全保障,进一步释放数据价值,扩大 AI 时代大规模数据协作的信任边界。

「我们希望通过长期的研究与实践,能够跑在这些威胁造成重大危害之前。」百度副总裁马杰说道。

现在,百度大脑的技术,已经可以实现设备端、服务端的软硬件一体部署,覆盖企业服务、智能零售再到医疗和教育等多个行业。

李彦宏表示,芯片、操作系统这样过去被「卡脖子」的技术,都是需要长期坚持的,它们的商业价值不可能在短短几年之内就体现出来,需要我们的科技人员有雄心、有耐心、耐得住寂寞,而且有信仰。我们也有长期的考虑和耐心,希望把中国的这些被「卡脖子」的技术能够一点一点突破,最后被市场广泛接受。

百度大脑从 2010 年开始布局和积累基础技术,迄今为止已经发展了十年。它已成为百度人工智能技术积累和产业实践的集合,覆盖了人工智能工作的基础层、感知层、认知层、平台层和安全的所有方面。这家公司希望能够能力通过云服务和开放平台将技术输出给更多人,支持各行业进行智能化升级。

百度大脑是百度 AI 生态建设的基础,结合对 AI 技术的底层研究,中间层的智能云、Apollo 等智能化平台,以及最上层各行业的解决方案,AI 先进技术已经开始批量商业化落地的进程。在多年的大幅研发投入之后,百度的 AI 战略已经开始显现成效。

产业自研AI处理器百度昆仑PaddlePaddle量子计算百度王海峰
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~