机器之心报道
机器之心编辑部
一个「十年」结束了,在 2020 年度的百度 AI 成绩单上,我们看懂了它走向下一个十年的勇气和决心。
2020,对于每个人来说都是难忘的一年。新冠肺炎疫情对全球经济带来巨大冲击,在迎接前所未有的挑战同时,我们发现了更多的机遇和希望在前方:新的科技和信息基础设施比以往都更加深刻影响着人们的生活,人工智能参与到了抗疫防疫、复工复产、产业升级等各个环节,与国计民生紧密相连。
「新基建」成为了年度热词之一,成为了我国疫后经济重建的核心,让智能中国的前路变得明晰。立足核心技术,推动人工智能与实体经济深度融合,增强各行各业的智能化水平,成为新基建道路上的重中之重。
智能中国正势不可挡、加速到来,我们又该如何化解挑战、拥抱机遇?AI 如何进入工业化大生产,成为坚实的 AI 基础设施?
12月30日,百度发布《百度AI的2020》,以万字长文总结回顾过去一年,从三大角度出发,写得明明白白:
2020 年,百度 AI 技术上持续突破,AI 进入工业化大生产,成为坚实的 AI 基础设施。
2020 年,百度 AI 以更加「智能」的产品和业务点亮大众生活,同时向各行各业输送百度的 AI 技术成果与平台能力,促进产业智能化升级;
2020 年,百度 AI 不忘初心,站在社会需求的第一站,积极投身抗疫防疫,持续投入人才培养,为中国、世界源源不断输出新的创造力。
正如百度 CTO 王海峰所说:「立足新发展阶段,以新理念建新格局,科技创新是关键。百度AI的2020,与时代共前行。」
接下来,让我们看看这一年来,百度 AI 都有哪些亮眼的成绩。
百度大脑 6.0:勾勒底层创新
依托百度大脑、飞桨、智能云、芯片、数据中心等成果,百度正在加码新型 AI 技术基础设施。
2020 年,百度多年 AI 技术积累和业务实践的集大成——百度大脑已经形成了基础层、感知层、认知层、平台层和 AI 安全在内的完备技术体系。
一方面,百度大脑 6.0 已经具备 “知识增强的跨模态深度语义理解” 能力,其结合了知识图谱和深度学习技术,使得人工智能不仅能具备知识,还能持续学习,像人一样「活到老学到老」。
除此之外,在多项技术上,百度大脑正在持续实现突破:
在多模态语义理解领域,百度提出了多模态预训练模型 ERNIE-ViL,首次将场景图(Scene Graph)知识融入多模态预训练,刷新了 5 项多模态经典任务的世界最好效果,并超越微软、谷歌、Facebook 等机构登顶视觉常识推理任务(VCR)榜首;
在对话智能领域,百度发布了超大规模开放域对话生成网络 PLATO-2,模型参数规模上升到 16 亿,涵盖中英文版本,在内容丰富性和连贯性上达到新高度,能够就开放域话题进行流畅深入的聊天,对话效果超越谷歌 Meena、微软小冰和 Facebook Blender 等先进模型,并在 DSTC9 比赛中斩获了四项冠军;
在端到端问答方面,百度提出 RocketQA 训练方法,大幅提升了对偶式检索模型效果,在多个问答相关数据集中取得了 SOTA,并问鼎微软 MSMARCO 数据集段落排序任务。该技术已应用在百度搜索、广告等核心业务,也将在更多场景中发挥作用。
另一方面,百度大脑 6.0「软硬一体的 AI 大生产平台」也在持续升级,让百度大脑更高效地支持 AI 工业化大生产,帮助产业智能化发展提速。
中国首款云端通用 AI 处理器「百度昆仑 1」,今年已实现量产和应用部署,量产约 2 万片,性能相比 T4 GPU 提升 1.5-3 倍;第二代的百度昆仑芯片与百度昆仑 1 相比性能将提升 3 倍,预计在 2021 年上半年实现量产。
而在 AI 安全问题层面,依托百度大脑的 AI 安全体系,百度打造了一系列覆盖云管端及大数据和算法层面的领先 AI 安全能力,为当前众多 AI 安全问题的应对和解决提供工具,并首次提出了「Security、Safety、Privacy」三大 AI 安全维度,让 AI 技术和产业智能化能够以可靠、可信的方式良性向前发展。
百度飞桨:做深度学习框架的「中国品牌」
2020 年,人工智能进入全面落地期,开源开放不仅仅是技术开发领域的协作机制精神的内涵,更是驱动技术创新和加速产业发展的核心动能。
今年,国产深度学习框架迎来了开源的「春天」,来自各高校和企业的框架、平台先后开源,正在形成一股合力,推动着中国开源的车轮不断前进。飞桨是百度自研、中国首个开源开放、功能完备、完全自主可控的产业级深度学习平台,也是深度学习开源框架中最知名的「中国品牌」。
在权威数据调研机构 IDC 公布的 2020 年下半年深度学习平台市场份额报告中,百度与 Google、Facebook 居于中国深度学习平台市场综合份额前三,其中,百度综合市场份额位列第二,与位列第一的 Google 几乎持平。
飞桨产业级深度学习开源开放平台全景图。
飞桨开源框架 V2.0RC 版本,带来 “编程一致、动静统一” 的全新开发体验。飞桨动态功能走向成熟,并实现动态图转静态图训练和部署的能力;API 全面升级,分为 19 大类,结构更体系化,功能更强大;实现高层、基础 API 的一体化设计,代码开发更加简洁;完全兼容历史版本,并提供升级工具,降低迁移成本;2.0 动静统一的编程体验为深度概率编程、量子机器学习等前沿学术研究提供更好的支持。此外,飞桨硬件生态伙伴达到 20 家,适配或者正在适配的芯片 / IP 型号 29 种,提供自主可控的坚实底座,加速 AI 产业生态构建。
如今,飞桨已经凝聚了 265 万开发者,服务了 10 万家企业,创造了 34 万个模型,在城市、工业、电力、通信等关乎国计民生的领域发挥着越来越重要的作用。
聚焦前沿技术:站在巨人肩膀,看懂未来
2020 年,世界对前沿技术的关注度更加高涨,量子计算、区块链、生物计算…… 我们相信,这些都将改变人类的未来。
量子计算被视为面向未来的计算范式与生产力。今年,百度发布了国内首个云原生量子计算平台量易伏 Quantum Leaf,可提供 QCompute 等量子开发套件、缩短量子编程全生命周期、实现量子工具链闭环;此外,量子脉冲计算服务量脉 Quanlse、量子机器学习工具集量桨 Paddle Quantum 也获得全面升级,构建起了百度量子平台为核心的量子生态。
这一年,区块链技术备受关注,逐渐「脱虚向实」。技术自主可控、产品高易用性的百度超级链,成为 AI 之外加码新基建的关键技术动能之一。今年,百度超级链已经拥有 425 篇独创技术专利,包括链内并行技术、立体网络等,实现了单链达 8.7 万 TPS 的行业领先网络性能,并作为国内首个项目捐赠给开放原子开源基金会。百度超级链还在今年推出了 BaaS 平台、开放网络、电子签约等一系列产品,联合浦发银行、徐家汇商圈等企业,推动区块链在金融、积分等领域落地,加速区块链的规范化应用落地。
与此同时,百度 AI 也正在成长为一名全能的「跨界者」。
此外,百度推出的全球首个 mRNA 疫苗基因序列设计算法 LinearDesign,能在16分钟内大大提升疫苗设计的稳定性和蛋白质表达水平,从而有效解决了 mRNA 疫苗研发中最重要的稳定性问题,加速疫苗研发速度。
在 12 月举办的 Wave Summit + 峰会上,百度飞桨完成了人工智能和生物计算的跨界行动:基于飞桨的生物计算平台「PaddleHelix 螺旋桨」正式发布,提供了包括 RNA 二级结构预测、大规模的分子预训练、药物 - 靶点亲和力预测、以及 ADMET 成药性预测等一系列算法和模型,重点满足生物医药,疫苗设计和精准医疗方面的 AI 需求。
中国 AI「头雁」:连续三年 AI 领域专利总申请量第一
截止 2020 年 10 月,中国人工智能专利申请共计达到 69.4 万件,同比增长 56.3 %,大大提升了中国在全球人工智能专利布局中的竞争实力。
这一年,百度继续领跑国内机构专利申请数量排行榜。
12 月国家工业信息安全发展研究中心、工信部电子知识产权中心发布的《2020 人工智能中国专利技术分析报告》显示,在人工智能专利申请量和授权量方面,百度分别以 9364 件专利申请和 2682 件专利授权处于第一位。这也是百度连续三年在人工智能领域专利分析报告中总申请量蝉联第一,充分展现出了中国 AI「头雁」的实力。
图左:中国人工智能专利申请数量排名;图右:中国人工智能专利授权数量排名。
不仅如此,百度更是在深度学习技术、自然语言处理、智能语音、自动驾驶、知识图谱、智能推荐、交通大数据多个领域位居专利申请量和授权量首位。
在深度学习领域,百度专利申请量和授权量均为第一名;
在自然语言处理领域,百度专利申请量以 1383 件位居第一;
在自动驾驶领域,百度公司专利申请数量 1928 件,超越各国外企业排名首位;
……
迎着新一代人工智能发展机遇,在人工智能技术标准和知识产权体系建设的赛道上,中国正不断加速。
30 余项冠军、260 多篇论文:百度 AI 前沿研究继续大放异彩
受到疫情影响,今年的大部分学术会议、技术竞赛等都改为线上举行。
距离不是真正的阻碍,2020 年,在 CVPR、ACL、ECCV、NeurIPS、INTERSPEECH 等全球顶级的人工智能学术会议和相关竞赛上,百度 AI 问鼎冠军 30 余次,论文收录 260 多篇,持续彰显了 AI 技术领军实力。
今年 3 月,在国际语义评测 SemEval 2020 竞赛中,百度基于飞桨平台自研的语义理解框架 ERNIE 一举斩获 5 项世界冠军。
6 月,在 CVPR 2020 的 AI CITY Challenge 和 MOTS Challenge 两大挑战赛中,百度击败阿里、滴滴、卡内基梅隆大学等参赛者,摘得 4 项世界冠军及 1 个榜单冠军,并成功卫冕 1 项冠军。
8 月,在 ECCV 2020 的 AIM 2020 Real Image Super-Resolution Challenge 挑战赛中,百度凭借自研的「图像超分辨率技术」赢得了全部 3 项冠军。
10 月,在第九届国际对话技术竞赛 DSTC9 四个赛道的角逐中,百度 NLP 开源 PLATO-2 斩获四项冠军。
11 月,在 NeurIPS 2020 新增的电网调度竞赛(Learning To Run a Power Network Challenge)中,百度 PARL 团队拿下了鲁棒能力赛道和泛化能力赛道的双料冠军。
12 月,在 NeurIPS 2020 SpaceNet-7 多时相城市发展挑战赛(Multi-Temporal Urban Development Challenge)中,百度凭借百度大脑先进的计算机视觉技术支撑,以最高得分和最快模型的成绩斩获冠军。
在人工智能学术顶会和相关竞赛中的卓越表现彰显了百度在前沿技术领域的雄厚实力,也为百度赢得了大量荣誉。
截至2020 年,百度获得了来自政府、行业协会、媒体等多方机构颁发的 100 多个奖项,如再次入选《麻省理工科技评论》「50 家聪明公司」、荣获 2020 世界人工智能大会最高奖项 SAIL 奖、中国电子学会科学技术奖科技进步奖一等奖、2020 第十五届「中国芯」优秀技术创新产品。
2020 年 7 月,百度文心(ERNIE)摘得世界人工智能大会 (WAIC) 最高奖项 SAIL 奖。
智能交通、智能汽车、自动驾驶三驾马车齐飞
从硬核技术到商业落地,百度 Apollo 正不断刷新智能出行领域的「高难度考题」。
2020 年,百度先后在长沙、沧州、北京开放 Apollo Go 自动驾驶出租车服务,越来越多的中国人乘坐了「人生中第一辆自动驾驶出租车」。
5 月 26 日,百度位于北京亦庄经济开发区的全球最大的自动驾驶和车路协同应用测试基地 Apollo Park 建造完成,加速推进 Apollo 自动驾驶、车路协同技术产品的成熟和应用。
8 月 21 日,百度在河北沧州开放 Apollo Go 自动驾驶出租车服务,沧州市民可通过百度地图享受一键呼叫免费搭乘体验。沧州成为中国首个可以在主城区打到 Robotaxi 的城市。
9 月 15 日,在「万物智能——百度世界 2020」大会上,百度完成全球首次全无人驾驶直播。全无人驾驶是百度 Apollo 历时 7 年的研发成果,其技术落地是 Robotaxi 实现商业闭环的必要条件,将加速中国自动驾驶大规模商业化部署。Apollo 已经获得全国首批智能网联汽车主驾无人测试许可,长沙的自动驾驶车队可正式去掉主驾安全员,在长沙开放道路上开展完全无人驾驶的路测。
2020 年 10 月 10 日,百度 Apollo 自动驾驶出租车正式在北京开启运营,测试区域总长度约 700 公里,覆盖海淀、亦庄、顺义生活圈和商业圈等数十个站点。10 月 12 日当天,北京地区呼单量突破 2600 单,百度也成为中国唯一一家在多城开启 Robotaxi 试运营的公司。
12 月 7 日,北京市自动驾驶测试管理联席工作小组向百度 Apollo 颁发了首批 5 张无人化路测(第一阶段)通知书。这是北京市首次允许测试主体在公开道路进行无人化自动驾驶测试。
与此同时,智能车联产品 Apollo 小度车载已进入上百万辆智能汽车,与全球 60 + 主流汽车品牌都有合作,上市的车型超过 500 款,每天为 1000 + 万用户提供导航服务,每年伴随用户行驶超过 10 亿公里,每个月语音交互达 1500 万次。据 IHS Markit 最近发布的《中国智能网联市场发展趋势报告》显示,2020 年小度车载在智能网联汽车领域搭载量行业领先。
百度以《Apollo 智能交通白皮书》形式,发布了国内外首个车路行融合的全栈式智能交通解决方案「ACE 交通引擎」。「ACE 交通引擎」扎根中国智能交通新基建,目前已获近 20 个城市的智能交通新基建订单。其中,百度 Apollo 中标的「广州市黄埔区广州开发区面向自动驾驶与车路协同的智慧交通『新基建』项目」,项目金额接近 4.6 亿元,或为今年国内智能交通领域的最大招标项目订单。
AI描绘万物智能
新冠肺炎疫情对全球经济带来巨大冲击,也让社会各界充分意识到人工智能等新兴科技的重要价值。百度AI通过搜索、地图、输入法、小度、Apollo等产品和平台服务大众,让生活更简单、更便捷。
基于自然语言处理、知识图谱、语音、视觉、深度学习等AI技术能力,百度搜索也在持续智能化。今年 9 月,百度基于百度大脑核心技术驱动,底层采用小度助手对话式人工智能操作系统,推出了虚拟助手「度晓晓」App,其拥有二次元虚拟人物形象和独特的情感交互系统,可以像真人一样跟用户沟通,提供更好的服务。
这一年,百度地图延续并坚守了「新一代人工智能地图」的 AI 优势和创新能力,上线熟路导航模式、车道级导航功能、AI 室内通和红绿灯倒计时功能,不断迭代更新基础服务。目前,百度地图的 90% 数据生产环节实现 AI 化,新一代人工智能地图进一步夯实数字底座,百度地图智能语音助手用户量已破 4 亿,智能语音交互场景持续迅速增长。此外,百度地图的全景新生态更加丰富,全景地图覆盖全国 95% 以上的城市,覆盖里程超过了 300 万公里。
2020 年,百度输入法依托于领先的 AI 实力与丰富的 AI 落地经验,进一步扩大了在市场份额、AI 功能、语音输入和内容生态等方面的领先优势。这一年,百度输入法市场份额与月活跃用户量增势迅猛,目前月活已突破 6 亿;语音输入能力持续突破,并成为业内首个日均语音请求量破 10 亿次大关的输入法产品,语音识别准确率达 98.6%、手写识别准确率提升至 96%,均实现行业领先。百度输入法 10.0 版本重磅发布了 AI 助聊功能,基于百度强大的自然语言处理算法能力和知识图谱积累,业界首次采用可控文本生成模型,是行业内唯一支持多种情绪自动撰写的产品。
2020 年,小度助手和小度智能硬件产品成绩依旧亮眼:今年 3 月,小度助手语音交互次数达到 65 亿次,达到去年同期近 3 倍;小度第一方设备语音交互次数达到 33 亿次,是去年同期的近 5 倍。截至 9 月,小度助手技能商店提供 4300 个技能,开发者数量也已达到 45000 人,使用场景也从家庭、酒店、汽车拓展到移动场景。据国际权威调研机构 Canalys 数据显示,2020 年上半年小度智能音箱全品类出货量位居国内第一;前三季度,小度智能屏出货量稳居全球第一。
此外,小度今年发布了搭载了百度自研鸿鹄芯片的小度智能音箱 2 红外版、小度教育智能屏、小度智能早教机、小度智能屏 Air 等产品,让小度在更多细分场景和人群实现了「破圈」,不断加速人工智能硬件的市场普及,拓宽智能助手的应用边界。
将「产业智能化」进行到底
在加码新基建的过程中,还有一个无法忽视的角色——「百度智能云」。作为百度 AI to B 的重要承载者和输出者,百度智能云为各行各业大规模输送百度 AI 的技术成果与平台能力。
百度智能云融合了云计算、百度大脑、大数据等百度核心技术,在 「以云计算为基础,以 AI 为抓手,聚焦重要赛道」的全新战略指引下,推动产业智能化发展,成为新基建大潮中加速 AI 工业化大生产的关键力量。
百度智能云战略。
百度智能云新架构分为三层,底层是百度核心技术引擎百度大脑。中间是平台,包括通用的基础云平台、AI 中台、知识中台,以及针对场景的平台和其他关键组件。在基础层和平台的支持下,上层的智能应用和解决方案将为各行各业赋能。
此外,百度智能云有 AI 端到端的全栈布局,拥有中国最大的 AI 开放平台和开发者社区,已经开放 270 多种 AI 能力,服务超过 265 万开发者,日调用量突破 1 万亿。与去年相比,使用百度 AI Cloud 的活跃用户增长了 65%。
在 IDC 中国 AI 云服务市场厂商评估中,百度智能云的 AI 能力连续三次在中国市场排名第一。百度智能云持续对外输出百度大脑的 AI 技术,其就像武侠小说里少林寺的藏经阁,将百度领先的 AI 技术融汇成无数「内功心法」和「武功技能」,输送给社会经济各领域,加速中国产业智能化步伐。
今年,为了让 AI 与云计算更紧密融合,加速 AI 应用落地,百度智能云在业内率先提出了 AI-Native 的云计算架构。在基础设施的 AI 计算集群、AI 芯片到工程平台的飞桨、云原生以及到应用平台的视频云、区块链等,通过云智一体,端到端的方式,便捷高效的支持产业的智能应用。在 AI-Native 框架下,百度智能云发布新一代基础架构百度「太行」,即弹性裸金属服务器 V2.0,其基于百度自研的硬件虚拟化技术,全新构建下一代云基础设施,在拥有弹性灵活的云计算基础上,实现物理服务器高性能的计算能力。
此外,百度智能云的混合 / 专有云平台 ABC Stack 已经拥有行业版本、企业版、敏捷版和超融合版四个版本,现已全部支持国产化服务器和操作系统,实现真正的国产化智能云。
在智慧金融、智慧医疗、智慧能源、智能制造等领域,百度AI硕果累累:
截至目前,百度智慧城市解决方案已在北京海淀、重庆、成都、苏州、宁波、丽江等10+省市落地应用,帮助城市提升智能化的水平;
在智慧金融领域,百度智能云以自主可控的金融云为底座,以AI中台和知识中台为支撑,服务了近200家金融客户,跻身中国金融云解决方案领域第一阵营;
在智慧医疗领域,百度「灵医智惠」, 依托百度大脑6.0、涵盖了医疗AI中台、医疗知识中台和医疗数据中台三大中台能力,能提供医学知识服务、临床辅助决策、智能随访服务和区域健康驾驶舱等四项核心应用,为基层留下「不走的AI医疗队」;
在智慧能源领域,百度智能云能源AI中台,为能源企业智能化升级提供从方法论、平台、服务在内的全套工具;
在智能制造领域,百度工业互联网助力企业及上下游产业实现数字化、网络化、智能化,在生产效率、安全、质量、消防、污染治理等方面实现全面提升;智能制造覆盖14大行业,100多家企业,30多个合作伙伴,触达50多类垂直场景,在3C、汽车、钢铁、能源等行业已规模落地。
为世界创造更多可能
人工智能产业的快速发展加剧了全球 AI 人才的紧缺,在人才培养领域,百度 AI 没有缺席。
2020 年,百度投入到 AI 人才培养的资源包括教学、实训、大数据、算力、算法、竞赛、工程师等,总价值达到数亿元。
CCF - 百度松果基金、百度奖学金等为青年 AI 人才提供多维度支持,与近百所高校联合 AI 人才培养,与教育部、工信部开展产学合作的协同育人模式,全国高校深度学习师资培训班等项目,培养了 400 余所高校的上千名 AI 专业教师,惠及数万学生。
与此同时,「一带一路」国际大数据竞赛、百度之星、百度大数据人工智能菁英班等项目,以赛代练,以赛促学,百度通过一次次竞赛,让 AI 变得触手可及。
在 WAVE SUMMIT+2020 深度学习开发者峰会上,百度飞桨发布了围绕高校人才培养的大航海计划:未来三年,飞桨将投入总价值 5 亿元的资金与资源,支持全国 500 所高校,重点培训 5000 位高校 AI 教师,联合培养 50 万 AI 未来人才。
AI,为更好
2020 年初,一场突如其来的疫情,改变了我们所有人的生活。百度 AI 也在第一时间加入了抗疫防疫的任务当中。
百度 AI 出现在中国疾控中心病毒所的应急技术中心,接收样本 10 个小时后就完成了北京四个病例样本的全基因组测序。
百度 AI 问诊每日调用达近万次,机器人战疫解决方案落地 30 多家医院、机构,百度地图迁徙大数据平台、实时路况平台为国家防控部署提供数据参考,发热门诊地图、疫情小区地图、核酸检测机构查询等功能,都成为抗疫防疫事业中的亮眼角色。
秉承着「科技为更好」的社会责任理念,百度始终坚持运用创新技术,联合「共益伙伴」,聚焦于解决社会问题,履行企业公民的社会责任。百度是最早将人工智能技术用于寻人的企业,截止到 2020 年 12 月,百度 AI 寻人已经累计帮助了近 12000 个家庭团聚。
在文化保护领域,百度正在和清华大学、中国古迹遗址保护协会等机构合作,利用人工智能技术,识别国宝级古建筑内外的微小变化,保证及时修缮。乐山大佛、广元千佛崖等重要文物管理和保护已经开始应用百度的 AI 技术。
此外,百度也在动物保护方面和国际爱护动物基金会 IFAW 合作,推出了全球第一个利用人工智能技术打击野生动物制品非法贸易的平台;并与国家地理达成合作,通过百度 AI 图像识别能力提高蝴蝶物种识别效率,为蝴蝶物种的保护和研究提供技术支持。
挑战总是与机会并存,提及未来的前行方向,百度 AI 用三个「始终」来总结:
始终关注国计民生,承担科技企业应有的社会责任感;
始终重视底层突破,积极探索技术无人区,让中国 AI 走向世界前沿;
始终保持产业敬畏,用服务心态、开源开放来支持千行百业智能化转型。
人工智能新的十年刚刚揭幕。在下一段航程中,百度 AI 仍将乘风破浪。