Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南编辑

百川发布530亿大模型,融入搜索能力:第一时间内测体验已来

参数量级提升,融入搜索引擎,目标服务 B 端。

连续三个月,王小川创立的百川智能就在昨天又发布了大模型。


8 月 8 日,百川智能在北京宣布新一代大模型 Baichuan-53B 正式上线。于此同时,王小川等公司高管接受了媒体采访。


「人们通常认为发布大模型至少需要半年时间,从数据积累准备、训练再到微调。我们推出首个模型仅用两个月,并且最终质量上也得到了外界的赞誉,」搜狗公司原 CEO、百川智能创始人王小川表示。「Baichuan-53B 和之前相比参数规模提升了很多,在写作能力上有了很大提高。」



从 6 月 15 日的 7B 模型,7 月 11 日的 13B 模型再到如今 530 亿,百川大模型的体量迅速提升。本次,百川智能还公布了大模型的网站,开放了内测申请。


链接:https://chat.baichuan-ai.com/home


在活动现场,王小川亲自演示了新一代大模型的部分能力。


发一个古龙文章风格的朋友圈:



完成一个短视频广告的脚本:



百川智能表示,在文本创作的创意性、风格模仿和实用性上,Baichuan-53B 都可以做到足够好,大部分任务上都能给出不错的回应。


在昨天的发布后,机器之心也获内测邀请进行了简单的测试,重点体验了百川智能所说的文本生成和搜索能力。



尝试一下 2023 年北京高考的作文题:



可见 Baichuan 53B 了解并能整合近期的一些热点消息:



但与此同时,大模型似乎并不认为自身具有获取实时消息的能力。



在 Baichuan-53B 上,搜狗强调大模型和搜索进行了很高程度的融合,希望能通过这种机制给未来的搜索模型打下了基础。


百川认为,搜索增强是解决模型时效性和幻觉的有效手段,将搜索技术与大语言模型能力结合实现了创新的模型优化,也提升了 AI 回答的可用性。


据介绍,百川大模型的搜索增强系统融合了多个模块,包括指令意图理解、智能搜索和结果增强等组件。该体系通过深入理解用户指令,精确驱动查询词的搜索,并结合大语言模型技术来优化模型结果生成的可靠性。通过这一系列协同作用,大模型实现了更精确、智能的模型结果回答,通过这种方式减少了模型的幻觉。



相比 ChatGPT 以插件形式链接必应搜索的方式,百川大模型对于搜索结合的更加深入,不过百川并未透露合作的搜索引擎。


另外在动态响应策略中,百川也有自己的独特之处,其将指令任务细化为 16 个独立的类别。这些类别涵盖了用户指令的包括精准问答、逻辑推理、头脑风暴等各种场景,对于每一个指令类别都进行了个性化的设计和优化。为了实现这个目标,新模型依赖于 Prompt 增强技术,即通过构造特定的输入提示来引导模型生成期望的输出。这种方式可以确保模型对不同类型的指令都能产生恰当的响应。


此外,百川智能讨论了动态超参数调整技术、智能化搜索词生成、高质量搜索结果筛选、RLHF 搜索结果增强等方法。在大模型预训练之外,百川强调了对齐调整(Alignment Tuning)对于提升回复内容质量的重要性。


「我觉得现在比当年做搜索引擎的时候成就感要大,」王小川表示。「在大模型时代以前,搜狗已很早应用了 transformer,但我们始终不能有效地把搜索改进成实用的问答模型。但是现在,我们可以更加容易地实现这样的能力。」


值得一提的是,在模型体量变大以后,百川没有继续此前的开源方式,Baichuan-53B 计划在下个月开放 API 和组件,进行业务对齐和专业领域方面的强化以推动落地。


「我们提供的大模型可以直接拿出来跑分测试,这在行业内是不多见的。这些产品没有为单独场景进行过优化,它们为成为 to B 基础模型做好了准备,」王小川表示。


2023 年 4 月 10 日,王小川官宣创办百川智能,致力于打造对标 OpenAI 的通用智能技术,构建基础大模型及颠覆性上层应用。在技术团队不断扩充的同时,百川也陆续推出了自研的大模型。



6 月 15 日,百川智能推出了 70 亿参数量的中英文语言模型 Baichuan-7B,并拿下多个世界权威 Benchmark 榜单同量级测试的榜首。7 月 11 日,百川智能又发布了参数量 130 亿的通用大语言模型 Baichuan-13B-Base、对话模型 Baichuan-13B-Chat 及其 INT4/INT8 两个量化版本。


而在融资方面,百川智能 5 月完成的天使轮融资获得了来自腾讯、小米、金山、慕华资本、清华大学资产管理有限公司等十余家机构的联合投资。


在商业模式上,百川智能希望远期能够在消费领域购建「超级应用」。而在目标相对明确的 to B 领域中,虽然进入市场的速度不算最快,但该公司也已通过开源等方式展现了自身的实力。


「从 to B 的角度来讲,开源和闭源的大模型都有发展空间,我们认为未来 80% 的公司需要基于开源模型构建智能化,」王小川表示。「目前已经有超过 150 家企业在申请使用我们的大模型。」


百川智能计划在今年的第三、四季度继续发布千亿、万亿级别大模型,构建出国内水平最高的,对标 GPT 系列的产品。

产业百川智能大模型
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。

http://corp.sogou.com/
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~