Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百度公布“新十大发明”:打造AI内容生产神器、升级无人车避障能力

9月20日,百度首次发布“2022十大科技前沿发明”,披露高价值专利成果,多项人工智能、自动驾驶专利技术全球领先。跨模态通用可控AIGC(基于人工智能的内容生成)发明,全球首次实现语言与视觉大一统的理解与生成,登顶多个国际权威榜单;无人车多传感器融合处理系统,有效支撑百度Robotaxi应对各种城市复杂道路;知识增强大模型鹏城-百度·文心是目前全球最大中文单体模型,具备超强的语言理解能力和文学创作能力。

北京市知识产权局副局长李钟表示,近年来,我国把科技创新作为引领发展的第一动力,深入实施创新驱动发展战略,开启了建设世界科技强国的新征程。关键核心技术专利是国之重器,“十大科技前沿发明”成果体现了百度多项国际前沿核心技术的实现与突破,对推动经济发展和技术进步有着十分重要的意义。

十大科技前沿发明”中的跨模态通用可控AIGC,在通用性上提出了跨模态、跨任务的统一建模技术,是全球首次实现语言与视觉大一统的理解与生成,登顶VQA、VCR、aNLI三大国际权威榜单。AIGC被认为是颠覆现有内容生产方式的新一代技术。AI作画就是AIGC的一种,它可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。

AIGC背后是预训练大模型创新的突破。早在2019年3月 百度发布了国内首个开源预训练模型文心ERNIE 1.0。目前,百度文心已经升级成为产业级知识增强大模型家族,涵盖以鹏城-百度·文心为代表的语言大模型、计算机视觉、跨模态、生物计算领域的大模型,以及电力、金融、航天等行业大模型,能够从大规模知识和海量数据中融合学习,效率更高、效果更好,具备领先的理解和生成能力。

百度CTO王海峰表示,百度是领先的AI公司,一方面要在科技前沿领域加紧创新和探索,攻关核心关键技术,把发展主动权掌握在自己手里;另一方面,将创新成果与产业融合,促进产业发展,助力高水平科技自立自强。经过二十多年的持续创新投入,百度产出了很多创新成果,引领技术和产业发展方向。百度人工智能技术,全面应用于搜索、信息流以及地图、翻译、输入法、小度智能硬件等产品,助力智能驾驶持续创新,并通过百度智能云输出给各行各业,推动千行百业的数字化转型和智能化升级。

资料显示,百度是中国最早布局自动驾驶的企业,技术、运营、产品等成绩世界领先。无人车多传感器融合处理系统专利组合的感知技术目前已经在自动驾驶车辆上得到大规模应用,实测效果漏检率总计减少60%,低矮障碍物漏检率减少83%,有效支撑百度Robotaxi在各种城市复杂道路和场景上无人驾驶能力的构建。

“十大科技前沿发明”是百度创新投入的一个缩影。截至2022年,百度已在人工智能领域深耕整十年,累计研发投入超1000亿元。百度连续四年在AI专利申请量和授权量方面蝉联中国第一。2021年,百度深度学习专利申请量、自动驾驶专利族数量均排名全球第一,并荣获人工智能交互领域的唯一中国专利金奖,成为人工智能领域获得中国专利奖奖项最多、获奖级别最高的高科技企业。

活动现场,百度还为众多高质量专利进行了嘉奖。其中,“基于人工智能人机交互方法和系统”,荣获第二十二届中国专利金奖,是迄今为止中国智能交互领域唯一的专利金奖。该专利技术运用知识图谱深度学习等技术,以深度语义理解为基础,实现了跨越语言、语音、图像等模态的智能人机交互。“基于弱监督的字符检测器训练方法”,荣获第二十三届中国专利银奖,这是目前OCR光学字符识别领域唯一的专利奖项,实现了全场景覆盖、超高精度的光学字符检测。

百度资深副总裁、总法律顾问梁志祥称,百度从成立之日起,就高度重视自主创新和专利保护,铢积寸累,建立了完备的知识产权保护机制,激励创新推动高质量知识产权创造。以技术创新为信仰,以专利保护为保障,百度积累了量、质领先的人工智能专利,构建了全新的人工智能产业知识产权运营生态。随着知识产权保护的全面加强,百度领先的人工智能专利正在持续释放价值,支撑公司的产品和业务发展,赋能千行百业,为中国人工智能产业发展提供自主可控的知识产权驱动力。百度发布科技前沿发明,希望与产业伙伴分享百度的前沿创新成果,共同推动中国数智产业高质量发展。

2022十大科技前沿发明,具体如下:

1.跨模态通用可控AIGC

该发明在业界首次提出语言与视觉统一的理解与生成模型,创新提出融合知识的生成,突破了通用可控内容生成技术瓶颈,实现了文本生成图像生成视频生成、数字人生成的实用化跨越。发明已落地业界首创的图文转视频、高精度数字人生成、文生图等创新产品,大幅提升了内容生产效率,开创了AI内容生成的新篇章。

2.无人车多传感器融合处理系统

该项发明以多传感器融合为核心,完善激光雷达感知能力,构建了环视视觉的独立闭环能力,已经在自动驾驶车辆上得到大规模应用,实测效果漏检率总计减少60%,低矮障碍物漏检率减少83%,有效支撑百度Robotaxi在各种城市复杂道路和场景上无人驾驶能力的构建。

3.知识增强大模型

该发明是百度文心大模型的核心技术,其从大规模知识和海量数据中融合学习,具备领先的理解和生成能力。包括了以全球首个千亿级知识增强大模型鹏城-百度·文心为代表的语言大模型、计算机视觉、跨模态等大模型,以及电力、金融、航天等行业大模型,在百余权威任务取得最好效果,目前已大规模应用于百度的各类产品,显著提升各类产品体验,并通过飞桨和百度智能云支持各行各业的产业智能化升级。

4.深度学习通用异构参数服务器架构

该项发明通过可扩展的架构设计,不仅可以支持基于CPU、GPU、XPU等不同类型硬件的参数服务器架构单独训练,还可以通过强化学习算法将同一深度学习模型训练任务分配到不同类型硬件的计算节点上进行混合硬件异构训练,实现计算资源最优搭配,从而可减少50%以上的深度学习模型训练成本,有效提升深度学习模型训练效率。

5.基于AI的生物计算平台PaddleHelix

该发明提出了一系列基于AI的生物计算创新技术,包括自主研发的高效mRNA疫苗设计LinearDesign算法,全球首个基于几何空间构象的化合物表征模型HelixGEM,端到端的单序列蛋白结构预测模型HelixFold-Single等,大幅提升了新药研发和疫苗设计效率,助力科技抗疫。

6.面向自动驾驶的车路协同关键技术

该项发明构建了车路协同自动驾驶的复杂技术体系与融合协同机制,通过协同感知,解决自动驾驶动静态盲区、超视距、遮挡等一系列感知长尾问题,通过协同决策规划和协同控制解决混行状态下的现实变更、博弈、阻塞和极端场景等问题,降低自动驾驶的接管次数和安全事故风险,保障自动驾驶安全连续运行。

7.全平台量子软硬一体

该发明围绕“量羲”布局,“量羲”是百度推出的基于“乾始”研发的全球首个全平台量子软硬一体化解决方案,提供私有化部署、云服务、硬件接入等一系列服务,最大程度上简化了量子硬件部署到量子服务的全流程。“量羲”具备适配超导、离子阱等多类型主流量子芯片,可实现量子芯片“即插即用”。

8.数字人智能化生产

该发明基于语音、语义和视觉等AI技术,以智能终端为载体,实现人机可视化语音交互服务。借助百度智能云曦灵平台,打通数字人生产、人设管理、内容创作到业务编排全流程。结合UNIT7.0跨模态对话引擎及AIGC技术,支持服务型和演艺型数字人多种人像(2D、3D、卡通)高效生产及运营。

9.智慧城市全要素双总线技术

该发明的全要素双总线包含智慧总线与知识总线,智慧总线构建城市服务的全资源协同开发与运行环境,统一纳管调度城市中的各类数据、算法、算力,为智能化应用开发提供综合技术供应;知识总线依托文心增强的城市多模态大模型及知识图谱、NLP等AI技术,搭建城市全要素融合知识图谱,支撑跨部门、跨应用、跨数据间的知识体系打通和资源共用。

10.自动驾驶多模态行人运动预测

该发明提出一种融合多模态输入特征以及多维度交互模式的深度学习模型,用于预测行人未来6s的运动轨迹,已在Robotaxi业务中落地应用,行人预测准召提升30%,VRU碰撞风险问题解决率95%。

产业百度
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~