作者:寓扬、李亚洲

请把注意力放到百度AI上:技术、芯片和无人车更值得被关注

今天的 AI 开发者大会上,百度又一款语音 AI 芯片「鸿鹄」亮相,宣布百度飞桨与华为麒麟芯片达成深度合作,首次亮相了无人驾驶出租车项目「Apollo Go」。一手技术新进展,一手 AI 商业落地,这届百度开发者大会的亮点全在此文。

7 月 3 日,一年一度的百度 AI 开发者大会在京举行。

今年是百度第三届 AI 开发者大会,李彦宏全面秀出 AI 在各个领域的成绩单,让河北保定的红绿灯智能化,与浦发银行打造了超级员工「金融数字人」,还展示了小度智能音箱最新的语音交互能力。

王海峰升任百度 CTO 后,今天也带来百度大脑 5.0 的最新进展,抛出百度远场语音交互 AI 芯片「鸿鹄」,还宣布百度飞桨(PaddlePaddle)与华为麒麟芯片达成深度合作.

小度智能音箱在 2019 年 Q1 季度出货量已经位列全球第三,中国第一,成长迅猛。今天百度发布小度助手 5.0,带来 3 款新品智能硬件,并着重介绍小度的商业化进展。

自动驾驶方面,百度发布 Apollo5.0,包括 Apollo 开放平台以及 Apollo 企业版两大升级。百度还宣布和一汽红旗打造的 L4 级乘用车前装产线投产下线,并首次亮相了无人驾驶出租车项目「Apollo Go」。

此外,百度 APP 上线了两个新功能「超级分辨率」和多目标识别。超级分辨率功能可使图片的实时分辨率可提升 2~4 倍,节省 50%~75% 的流量;百度 APP 物体识别种类可类达 1000 万,物体检测速度可达 100ms,物体跟踪速度达 8ms。

1、李彦宏狂晒 AI 落地成绩单,让保定红绿灯智能化

百度创始人、董事长兼 CEO 李彦宏首先登台,全面秀出百度 AI「成绩单」。

他首先展示了百度在智能音箱与语音交互方面的进展。去年他展示了小度连续对话的能力,时隔半年,小度再度进化。

李彦宏现场演示,打开小度的极客模式,进入音乐界面,不仅实现了「一次唤醒,多轮交互」,还能在与他人对话的同时互不干扰地实现人机交互,即小度知道什么时候该应答,执行任务;什么时候只需要听着,不搭话,不反应。小度的聪明引来现场阵阵掌声。

智慧家庭外,AI 也在各行各业都在改变着生活。比如「停车」一直是城市的一大痛点,2018 年我国乘用车的保有量达到 2.7 亿台,而停车位的缺口高达 6000 万,有 44% 的车位利用率非常低。在一线城市,司机 30% 的驾驶时间花在停车、找车位上。

李彦宏展示了百度自主泊车解决方案的新进展,通过手机 APP 可召唤车辆,车子就能远程启动,自动开出地库找我们,过程中可以实现自动避障等。百度自主泊车解决方案目前已拿到多个车企的合作订单,将让一部分人实现「最后一公里自由」。

在小度车载方面,现场李彦宏通过小度车载系统与车内的吉利控股董事长李书福进行了远程互动,为大家演示了车机互动的种种功能。

不一会,李书福开车来到现场,宣布从吉利博越 PRO 开始,吉利汽车将开始全面搭载融合小度车载交互系统的 GKUI19 系统。双方将在智能网联、智能驾驶、智能家居等方面达成合作。李书福还说,未来的车不仅有用超级大脑,还具备线上线下的结合,实现车+互联,为用户带来便捷智能的出行体验。

在场景更大的智能交通领域,百度已在多个城市落地智能红绿灯。李彦宏举例道,在河北保定,通过智能红绿灯规模化部署,市民的行程延误时间减少了 20%~30%,缓解突发交通拥堵效果显著。

在金融领域,百度和浦发银行通过技术创新,打造了一个超级员工——「金融数字人」,它有一个超级大脑,永远不惧怕 996 的工作节奏,可进行个性化的服务。现场李彦宏与「数字人」进行交互,它具备流畅的语音交互能力,并且具备表情、手势等肢体语言等。

这些应用背后都是百度大脑 AI 技术的支撑,目前百度大脑已经开放 200 多项核心 AI 能力,AI 正与各行各业结合产生越来越大的价值。

百度也在用科技服务于社会,从百度 AI 寻人启动至今,李彦宏称用户发起的照片比对已经超过 20 万次,已帮助超过 6700 个家庭重新团聚,将覆盖民政部全国 1600 家救助站。

此外,百度还用 AI 助盲,通过对房间的智能化改造,盲人师傅可以用语音来控制各种设备。百度宣布与多家盲人公益机构联合发起「AI 助盲行动」,先期计划在 3 个月内,在广州、成都、西安、太原、青岛、郑州等 6 大城市进行盲人按摩店 AI 试点改造。

2、抛百度大脑 5.0,亮相鸿鹄 AI 芯片

今年的 5 月 31 日,王海峰博士被正式任命为百度 CTO,这一职位已在百度空缺近 10 年。如今,他集百度 CTO、AI 技术平台体系(AIG)和基础技术体系(TG)负责人,以及百度研究院院长于一身,全面接管百度技术。

王海峰博士开场前先带来了一段传统与科技碰撞的精彩演示——机械臂倒盖碗茶。这个机械臂既会茶艺绝活儿,还能说会道。他称这背后融合了机器人视觉、语音、自然语言处理等多种人工智能技术。

而后,王海峰揭开了百度大脑全面升级的 5.0 版本,以及百度大脑开放平台赋能产业的新成果。

王海峰介绍,百度大脑 5.0 形成了包括基础层、感知层、认知层、平台层和 AI 安全五大部分的核心架构。它是软硬件一体的 AI 大生产平台,核心算法再获重大突破,首次公布端到端 AI 计算架构,并实现了 AI 计算、计算架构与应用场景的创新融合。

首先王海峰介绍了算法层面的创新。前文李彦宏在演讲中演示的全双工、免唤醒的持续交互技术,就用到了百度大脑最新的 SMLTA(流式多级截断注意力模型)语音识别技术,该模型利用局部注意力的流式识别代替全局注意力识别,从而使得延迟更短,准确率更高(准确率提升 15%-20%)。此外,该技术还能解决中英混杂的问题。

除此之外,百度大脑使用基于风格迁移的语音合成技术,复现了一位老兵声音;结合语音识别语音合成、计算机视觉等技术,实时合成虚拟形象。

在认知层面,百度大脑将知识图谱与视频理解技术相结合,构建出基于知识图谱的视频语义理解技术;百度翻译技术也有所进展,联合词向量解码,把中文词和拼音联合解码,从而打造出高准确、低延迟的同声传译技术;语义理解方面,百度推出知识增强的语义理解框架 ERNIE,它可以持续学习知识,刷新了中文自然语言处理任务效果,超越谷歌 BERT 模型。

在计算架构层面,百度也有新动作。王海峰认为,算法持续突破,但算力缺口巨大,这需要算法、计算架构等多方面努力来解决。AI 计算架构主要面临着算力、效率和多元化场景的挑战。

去年,百度在开发者大会上发布 AI 芯片昆仑、引起了极大的关注,当前昆仑芯片已经流片。

现在,王海峰重磅宣布百度面向远场语音交互场景的 AI 芯片「鸿鹄」。鸿鹄芯片使用了 HiFi4 自定义指令集,双核 DSP 核心,平均功耗仅 100mW。这款芯片是根据车规级标准打造,将为车载语音交互、智能家具等场景带来便利。

「深度学习框架是智能时代的操作系统,向下对接芯片,向上对接应用。」百度飞桨正是这样一款深度学习框架。今天王海峰与华为消费者 BG 软件总裁王成录联合宣布,百度飞桨与华为麒麟芯片达成深度合作。据介绍,双方的合作内容包括三大方面:

  • 第一,百度飞桨将与华为麒麟芯片在 HiAI Foundation 底层全面对接,最大限度释放芯片硬件能力,为端侧 AI 提供最强劲的算力;

  • 第二,双方将共同优化经典模型,让搭载麒麟芯片的设备运行得更加流畅,为用户提供绝佳的体验;

  • 第三,通过深度学习框架的性能和功能诉求,驱使芯片不断提升算力,驱使下一代芯片的快速演进。

最后,王海峰总结说,目前百度大脑已经开放了 210 项领先的 AI 技术能力,开发者数量达到了 130 万,平台上开发者的日均调用次数同比增长 108%,定制化平台模型的数量也在飞速增长。来自不同行业,拥有不同背景的开发者们,都在借助百度大脑快速地获得 AI 能力。

「百度大脑 5.0 全面升级成为软硬件一体的 AI 大生产平台,希望能够深度赋能产业开发者,加速产业智能化进程。」王海峰表示。

3、「智能音箱已不再是音箱」

百度智能生活事业群组总经理景鲲也是今年新晋的副总裁,他抛出小度助手 5.0,发布 3 款智能硬件,他称「智能音箱已经不再是音箱」,并重点介绍了小度的商业化进展。

他首先分享道,截止到 2019 年 6 月,小度助手激活设备量已经超过 4 亿台,月交互次数已经超过 36 亿。另外据 Canalys 等三家机构报告显示,2019 年第一季度小度智能音箱出货量位列全球第三,中国第一,成长迅猛。

景鲲说,小度助手 5.0 具备三个特性,它包含更强大的智能助手能力,更繁荣的开发者平台,以及欣欣向荣的商业化生态。这也是他首次重点介绍智能音箱的商业化进展。

在智能助手方面,它支持全双工免唤醒能力,家庭信息流能力,家庭通讯与通知,可以直接拨打手机进行音视频沟通。

在开发者平台方面,百度已有 33000+开发者,2400+的优秀技能。他说「智能音箱已不再是音箱」,它是人工智能的强大载体。在小度在家上,第三方技能已经成为第一大应用,使用次数超过音乐和长视频。过去一年,语音技能可谓大爆炸,技能数量增长 800%,技能交互次数增长 1926 倍。

商业化生态方面,百度推出小度 VPI 会员,也与爱奇艺推出联合会员,景鲲称未来会推出更多的联合会员,帮助伙伴下沉家庭,获取更多用户。

今天百度还抛出 3 款智能硬件,一款是主打控制中枢的「小度大金刚」,一款是面向年轻群体的小度智能音箱 play,另一款是 4G 可移动的有屏智能音箱。

小度智能音箱「大金刚」,外观有点类似苹果 HomePod,采用全金属包装。它搭载红外遥控,内置 17 万红外码库,支持市面绝大部分家电设备控制。

此外百度与爱奇艺深度合作,研发出智能音箱 DLNA 投屏功能,无需其他配件,就可以直接控制电视。作为一款中控属性强烈的智能音箱,「大金刚」售价仅为 199 元。可见百度在硬件上,依然延续高性价比的策略。

小度在家是百度的旗舰产品,在此基础上,百度推出 4G 可移动的带屏智能音箱,搭载 SIM 卡,可支持多场景通话。

4、智能交通,进入协同创新时代

2018 年百度 AI 开发者大会上,百度宣布 L4 级商用自动驾驶巴士「阿波龙」量产下线。在今天的开发者大会上,百度副总裁,智能驾驶事业群组总经理李震宇为大家介绍了 Apollo 的新物种。

李震宇表示,Apollo 已经与众多开发者在 9 大场景,完成多样化的「新物种」创新并相继落地,包括无人零售车、景区智能漫步车、智能清扫车、无人挖掘车以及本次大会首次亮相的酷黑自动驾驶教学小车。其中,阿波龙已搭载 4 万名乘客,在 25 个城市落地运营;新石器无人零售车已提供零售服务 16 万次;金瑞麒智能漫游车已签约 43 个景区。

而大家一直都很关心的 Apollo 公里数也终于官宣。截止目前,百度 L4 级别自动驾驶城市道路测试里程已经正式突破 200 万公里,测试车辆达到 300 辆,目前已在 13 个城市进行测试。就在本周,百度还包揽了北京首批 T4 自动驾驶路测牌照。

2019 年 3 月起,百度开始在长沙市测试中国首批自动驾驶出租车。李震宇介绍,由百度和一汽红旗打造的中国首条 L4 乘用车前装产线目前已经开始正式投产下线,首批量产的 L4 级自动驾驶乘用车将率先落地长沙,兑现百度要让无人驾驶出租车跑上街头的承诺,实现从规模测试,到前装生产线,再到落地运营的完整链条。

这也就是无人驾驶出租车项目「Apollo Go」的首次亮相。值得一提的是,百度已获得 45 张可「载人测试」自动驾驶牌照,为无人驾驶出租车的正式落地,提供了有力的政策保障。

此外,百度今日还发布了 Apollo5.0,包括 Apollo 开放平台以及 Apollo 企业版两大升级。其中阿波罗开放平台全新开放数据流水线,使开发者可以通过云端 30 分钟完成一辆车的动力学标定,一周可完成百辆标定。Apollo 企业版则全新发布无人驾驶出租车、智能信控两大量产解决方案,重点升级无人驾驶小巴、自主泊车、小度车载 OS 三大能力。

一面 AI 技术的最新进展,一面是 AI 的商业落地,百度 AI 正与各行各业走向深度融合。

产业百度大脑百度Baidu Create 2019
1
相关数据
语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

推荐文章
暂无评论
暂无评论~