Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

顶着压力,百度发布文心一言,邀请测试开启

发布会撞车又如何,百度也拿出了多模态。

在业内人们的认知中,能造出国产 ChatGPT 的公司里,百度排名前列,然而文心一言发布前夕,OpenAI 率先发布了功能更为强大的多模态大模型 GPT-4,巨大的压力给到了百度这一边。这一次,文心能否回应人们的期待?

距离 GPT-4 发布仅 37 个小时后,答案就被揭晓了:

图片

3 月 16 日下午,百度正式发布了知识增强大语言模型「文心一言」。

「这段时间不断有人问我:你们为什么现在发布,你们是不是真的 ready 了?」百度创始人、董事长兼首席执行官李彦宏说道。「其实自 2019 年起,每年文心大模型都要发布一个新的版本。文心一言的发布是我们过去多年努力的自然延续。」

文心一言当然是要对标 ChatGPT,甚至 GPT-4。李彦宏表示,在全球大厂中,这样的产品百度是第一个发布的。

既然文心一言正式登场了,那肯定要上手试试。在现场,百度展示了文心一言在文学创作、商业文案、数理逻辑、中文理解和多模态生成方面的能力。

续写《三体》,文字生成视频

今天下午,李彦宏总共展示了五个案例,介绍文心一言的能力:

首先来体验一下文学创作。关于知名科幻小说《三体》,李彦宏和文心一言进行了一番对话:

图片

具体来说,「总结三体的核心内容」体现了文心一言的总结与分析能力,而续写《三体》体现了内容创作生成能力,再到「于和伟和张鲁一有哪些共同点」、「于和伟和张鲁一谁更高」这类问题背后,体现的则是文心一言的推理能力 —— 它需要先知道两人的准确身高,才能得出正确答案。

图片

接下来,李彦宏还展示了文心一言的商业文案创作水平,包括给一家科技公司起名字、写 slogan、写新闻稿。

图片

AI 要写好一篇稿子,除了需要准确理解我们的意图,还要有清晰的表达能力。

「对于语言大模型来说,这背后需要庞大的数据规模作为基础。人类常说『读万卷书』,而 AI 是『读书破千亿卷』。文心一言大模型的训练数据就包括万亿级网页数据,数十亿的搜索数据和图片数据,百亿级的语音日均调用数据,以及 5500 亿事实的知识图谱等,这让百度在中文语言的处理上,能够处于独一无二的位置,」李彦宏说道。

越来越多的研究和实践表明,大模型在参数体量达到某个量级时,就可能发生「智能涌现」,即使在没有专门训练过的领域,也能涌现出知识理解和逻辑推理能力。

我们无法将所有能力一一教给 AI,但通过大量数据的训练、数十亿的搜索请求,大量图片和知识图谱中的事实,在不断的训练过程中,文心一言拥有了通用化的能力。不知道文心一言目前的参数达到了多少。

第三个案例,是大家喜闻乐见的「数理逻辑推断」—— 李彦宏向文心一言发起了一个鸡兔同笼的挑战。

图片文心一言可以告诉你题出错了。

对于第一道题目,文心一言经过演算,认为可能是题出错了。

对于第二道题目,文心一言不但给出了正确结果,还详细给出解题步骤。

也就是说,文心一言能理解题意,并产生正确的解题思路,进而像学生做题一样,按正确的步骤一步步演算出正确答案。同时,它也具备敢于质疑的品质:不是我错了,也许是题目错了呢?

可以看出文心一言已具备了一定的思维能力,能够学会数学推演及逻辑推理这类相对复杂任务。

「文心一言的数学能力在过去一个月的内部测试中不断进步。当然,现阶段准确率还不是 100%,我们还需要给它更多的时间来学习和成长。」李彦宏说道。

作为国产大模型,李彦宏展示的第四个案例,就是「中文理解」。

图片

这是一些其他大模型应该无法准确回答的问题:

图片

解释「洛阳纸贵」、写「藏头诗」,还要「答出其中蕴涵的经济学原理」,嗯,这很考验 AI 对中文和中国文化的理解。百度文心一言的中文水平优势也体现得淋漓尽致了。

李彦宏强调,作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力。同时他坦承,文心一言目前对英文语种、代码场景的训练还不够多,表现还不够好,接下来还要加紧训练,不断完善这些能力。

多模态是未来的方向,最后一个案例展示了文心一言的多模态生成能力:

图片

先是文生图和语音生成能力,然后有意思的来了,李彦宏说:「请将以上内容生成视频。」

图片

文心一言接连生成了文本、图片、音频和视频,展示了多模态生成能力。「视频的生成功能还没有完全开放,这是因为计算成本比较高。目前,每天已经有几万篇百家号文章的视频是通过这样的技术实现分发的。」李彦宏表示。

但需要注意的是,这和 GPT-4 上的多模态理解并不是同一个方向。

大模型是革新生产力的工具

无论是 ChatGPT、GPT-4 还是文心一言,大型语言模型还远未到发展完善的阶段,自然语言表达能力、逻辑推理能力在不断的发展过程当中。有时候会有很惊艳的表现,但不少场景下细究起来还有明显的 bug。

「但有一点是肯定的,它的技术会快速发展,未来一定会实现很强大的能力,」李彦宏做出判断。「文心一言会成为每个人必不可少的生产力工具。」

李彦宏认为,在人工智能时代,IT 技术栈发生了根本性变化,从「三层」变成「四层」:芯片层、框架层、模型层和应用层。

图片

文心一言处在模型层。AI 时代的应用,将基于预训练的基础大模型进行开发。而纵观全球,在芯片层、框架层、模型层和应用层四层都有产品积累的公司为数不多,百度是其中一家。

「未来在文心一言的迭代速度上,你们会有感受,」李彦宏说道。

目前,已有 650 家企业宣布接入文心一言的生态。「生成式 AI 代表了新的技术栈,创造市场需求的爆发式增长。超强的自然语言理解、表达和推理能力。大模型能让任何公司距离自己的客户更近,人们能创造更好的客户体验,建立更强的竞争优势。」

百度认为,未来脑力劳动者的工作效率可以提升四倍,人们的工作方式会发生不可逆转的改变。

李彦宏也展望了生成式大模型带来的新机会:

图片

第一,新型的云计算,未来的服务提供方式将成为 MaaS(模型即服务)。主流商业模式从 IaaS 变为 MaaS。文心一言将根本性地改变云计算行业的游戏规则。之前企业选择云厂商更多看算力、存储等基础云服务,未来更多会看框架好不好、模型好不好以及模型、框架、芯片、应用这四层之间的协同。

第二,行业模型精调。通用大模型和企业之间的中间层,具有行业 Konwhow,调用通用大模型能力,为行业客户提供解决方案。文心大模型,已经在电力、金融、媒体等领域,发布了 10 多个行业大模型。在各行各业都有机会。

第三,基于大模型底座进行应用开发,即应用服务提供商。当前,基于文本生成图像生成、音频生成、视频生成、数字人、3D 等场景,已经涌现出很多创业明星公司,这些公司很可能就是未来的新巨头。每一家企业在这个阶段都有机会。

在李彦宏展示完文心一言的 Demo 之后,百度 CTO 王海峰上台分享了背后的技术与百度多年的技术积累。

王海峰表示,文心一言是新一代知识增强大语言模型,是在 ERNIE 及 PLATO 系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,ERNIE 和 PLATO 中也已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。

在演讲的最后,王海峰说文心一言目前已经开放测试。即日起,首批用户可通过邀请测试码在官网体验产品。百度智能云即将面向企业客户开放文心一言 API 接口调用服务,在官网可申请加入文心一言云服务测试。

以上就是百度今天发布会的内容了。看完发布会,相信每个人都有自己的感受。有人也许对百度没做现场 Demo 不满,也有人愿意宽容看待。

我们不得不承认,百度至少迈出了一步。接下来,就是看国内在这方面能不能越走越快。

最后,机器之心也获得了文心一言的测试资格,我们会尽快带来体验报道。

产业百度
1
相关数据
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

纸贵机构

纸贵科技(zhigui.com)是一家以数据治理、区块链技术为特色,专注于服务政务、金融以及司法等场景的监管科技企业。

https://zhigui.com
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~