Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

幻觉率直降40%,中国电信千亿参数「星辰大模型」炸场,业界首提缓解多轮幻觉解决方案

经历了 2023 年「百模大战」的洗礼,不管是国内还是海外,不管是开源还是闭源,各家大模型都从追赶和超越中获得了实质的进步。

在语言、语音、视觉领域,大模型已经获得了强大的生成能力,不仅能在几秒钟之内生成非常合理的内容,甚至可以媲美拥有多年技能和知识储备的专家。这些进展似乎为「大模型超越人类智能」的说法提供了令人信服的证据,也具象化了大模型规模化落地的前景。

按照目前的进展情况,2024 年很可能会成为大模型部署元年。但同样需要注意的是,大模型在技术上仍然存在一些关键缺陷,这或许会导致应用之路并不一定如想象中顺利。

业界对此的担忧包括但不限于以下几点:

第一,幻觉仍是大模型难以克服的问题,这关乎生成内容的可靠性。比如模型会笃定地说出错误的答案,对于金融、法律等专业度要求较高的领域来说,这会导致大模型难以胜任实际场景中的任务。

第二,大模型的推理能力仍有不足,面对一些复杂的数学和逻辑推理任务,大模型的回答正确率普遍不高。

第三,大模型需要增强对长上下文的理解能力,这也决定了大模型在很多领域能否落地。在下半年,我们看到很多大模型公司已经将上下文窗口扩展到了 100k Token 以上。那么,这个窗口是不是越长越好?是否真能增加模型的理解能力?上下文窗口长度又会如何影响模型训练、部署的方式?

这引发了人们的种种疑问。如果希望在 2024 年实现大模型规模化落地,仍需先探索出这些问题的结论。

在近日举办的 2023 年数字科技生态大会人工智能与数据产业发展合作论坛论坛上,我们见到了中国电信星辰系列大模型的最新升级,以及针对上述问题所提出的一系列技术创新。

其中,星辰语义大模型正式发布了千亿参数版本,在推理和回答准确性方面都有显著提升,并将上下文窗口提到了 96K Token。特别是,中国电信首次提出了缓解多轮幻觉的解决方案,使得大模型的幻觉率降低了 40%。

图片

                               中电信人工智能科技有限公司总经理何忠江解读星辰 AI 大模型。

与此同时,中国电信还宣布将加入到开源开放的行列中,预计今年年底开源百亿级别的大模型,明年 4 月则会开源千亿级别的大模型,旨在让更多研究者和开发者从中受益。此外,中国电信还将根据星辰大模型构建各种工具链,以满足不同用户的需求。

「幻觉率」降低 40%,星辰语义大模型是如何做到的?

大模型的幻觉问题,是学界和业界都非常关心的问题,也是其落地应用面临的最难挑战之一。

在千亿参数大模型发布之前,星辰语义大模型已经具备了多版本稳定可用的大模型基座,覆盖 3B、7B、12B 和 130B 等参数量级。

在目前的大模型领域,百亿参数是一种非常主流的选择,这也是各家公司基于推理成本等因素的选择。至于为什么选择升级打造千亿参数版本的星辰语义大模型,何忠江也解释了背后的思考。

我们都知道,大模型的底层架构是「预测下一个 token」,导致其容易产生「幻觉」,给出事实上不正确的陈述。何忠江认为,从另外一个角度看,这恰恰反映了大模型像人一样,是因为并没有真正理解问题,才会回答出风马牛不相及的内容。解决办法可以是加强数据溯源,也可以是增加参数量,这些都能让大模型学到更多的东西,并真正地理解一个事物,而不是「胡说八道」。

让人最为关注的是,中国电信千亿参数星辰语义大模型在业界首次提出了缓解多轮幻觉的解决方案,将模型幻觉率降低了 40%。这一方案包括四项关键技术:

  • 关键信息注意力增强技术:通过对关键信息进行注意力增强,可以提升模型理解能力和答案回复一致性的能力,较大程度缓解模型幻觉问题;
  • 知识图谱强化:通过知识图谱确保训练数据集知识事实性,并通过知识图谱知识提示能力辅助模型知识问答能力提升,大幅降低模型幻觉,提高通用问答准确率
  • 多轮知识记忆和强化技术:通过采用更优模型知识记忆方案,以及关联信息的强化训练方案,增强了模型上下文记忆能力和关联知识理解能力,增强了上下文回复一致性,降低了模型幻觉问题;
  • 知识溯源能力:通过多种湖源方式,关联问题相关参考出处,生成答案更加可靠。

图片

另一方面,中国电信将此前的百亿参数增加到千亿级别,使得星辰语义大模型获得了很大的性能提升:

首先,星辰语义大模型在长文本生成和长文理解上提升尤其明显,分别有 30% 和 20% 的提升;其次,在知识问答方面提升 18%,在对内开放平台上回答正确率更可达 98%,可支持 96K Token 上下文理解;此外,逻辑推理、数学能力和代码能力等方面,也有 10-15% 不等的提升。

截止目前,电信大模型已在电信内外多个场景落地:对内可提升办公、生产协同效率,包括了行文写作、代码编程、网络故障分析以及经营分析等多场景;对外可赋能 2B 和 2G 业务场景,提质提效、优化体验。同时,中国电信也联合多样化的工具辅助,来提高大模型在不同领域下的使用体验,包括外挂知识、插件使用以及百余种预置 Prompts。

从对话框走向千行百业,大模型落地还需要什么?

人们都在期待着规模化的 AI 应用诞生,而这种成果必将来自于大模型的底层创新。

除了让大语言模型的本行 —— 文本的理解与生成能力不断进化之外,科技巨头也竞相推出多模态方面的更新,将更多 AI 驱动的工具直接集成到核心产品中。比如这几个月来,OpenAI 陆续赋予了 ChatGPT 看(GPT-4V)、听(Whisper)、说(最新 TTS 技术)、画(DALL・E)的能力。

前几天,OpenAI 召开了自家的首场开发者大会。全新升级后的 GPT-4 Turbo API ,将这些多模态能力开放给了每一位用户。当多模态能力被整合,必然会催生很多场景化应用。

何忠江指出,实际场景中的大模型应用不仅是一个简单的对话框,需要与多模态模型联动,才能真正去改变一些工作的流程和思路,提高其效率。而我们此前所熟悉的大模型 —— 语义大模型会是整个通用人工智能的核心,起到类似人类大脑的思考作用。

因此,在星辰语义大模型的打造过程中,中国电信同时开发了星辰多模态大模型和星辰语音大模型。

在这场论坛中,中国电信隆重介绍了星辰多模态大模型,该模型主要聚焦提升图文生成、图文理解能力,训练了超过 12 亿各种风格数据,支持近 20 种绘画风格,中文意象理解生成能力提升 30%,语义细粒度生成效果提升 25%。

图片

此外,星辰语音大模型也是一大亮点。据介绍,星辰语音大模型基于数十万小时语音数据进行训练,具备精准的多语种 / 方言语音识别、语音实时自定义敏感词检测、超自然多音色语音生成和编辑、声音匿名等多项语音能力,支持智能会议、智慧办公、智能客服、智能语音机器人等多场景解决方案。

图片

以「智能客服」为例,何忠江介绍说,此前 TTS 技术已经能够合成非常优美的声音,但还远远算不上自然,接电话的人很容易识别出声音是否由机器生成,这就是 TTS 技术在落地智能客服应用受到的最大阻碍。据统计,这类合成人声的挂断率甚至达到 70% 左右。

要想破解应用的问题,就要依靠技术创新,达到「高仿真」。星辰语音大模型目前已经实现「超自然人声合成」,比如下面这段声音,听起来和真人发音别无二致,语气词和停顿节奏都比较还原:
在通用模型之外,面向垂直领域的行业大模型也是各个厂商的「必争之地」。构建一个智能对话框不是最难的,让大模型融入具体的业务、成为新的生产工具更重要。对此,中国电信已早早布局。

本次论坛中,中国电信宣布了首批试商用 12 个行业大模型,包括星辰教育大模型、治理大模型、政务服务大模型、应急大模型、医保大模型、交通大模型、住建大模型、金融大模型、神农一号大模型、出行大模型、旅游导览大模型、矿山大模型。

比如星辰教育大模型,这是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15 秒就能完成一篇中英文作文的打分、点评和改进建议,目前已在河南 1.2 万师生教学中应用并取得良好的效果。再比如星辰基层治理大模型,主要应用场景包括矛盾调节助手、线上法律顾问和公文助手等,目前已在某些城市的多个基层社区上线应用。

通用人工智能,越来越近

转眼间,距离 ChatGPT 发布已经快过去一年,热度却丝毫未减。究其原因,是因为大模型终于清晰地指出了一条前往通用人工智能的路。

一直以来,中国电信都将通用人工智能的目标当成长期努力的方向。近年来,从视觉、语音、语义到集各种模态能力于一身的数字人,中国电信目前已完成了全面布局,很多技术成果也逐渐投入实际生产使用。

谈到对通用人工智能的理解,何忠江表示,这仍然是一条漫长的道路,包括「感知智能」、「认知智能」、「具身智能」、「群体智能」几种阶段。

理想中的人工智能是像人一样能看、能听、会思考。借助视觉和语音的技术,模型把信息采集到以后,核心是要对信息做出判断,给出下一步的决策思路,这其实就是大语言模型在目前阶段起到的作用。

当这种决策能力落在虚拟空间中的数字人或是现实空间中的机器人,就意味着「具身智能」的诞生,假如数字人和机器人能够相互协作、统筹和调度,这就意味着「群体智能」诞生了,通用人工智能在这个过程中离我们越来越近。

图片

比如在下方这个案例中,星辰语义大模型用来撰写宣传主题文案,星辰多模态大模型用来绘制产品海报,在这个过程中,数字人起到了下达指令的作用,也可视为人类的「数字分身」。

最开始,数字人将任务描述为:「中国电信有一款最新的产品是直连卫星的产品,我们假设要给这款产品做一些广告宣传的文案,我们应该通过大模型怎么来做?」短短两分钟,一张精美的海报就完成了。

图片

图片

图片

面向下一阶段的竞争,中国电信的万亿大模型已经开启训练计划,并预计将于明年 5 月份完成。据了解,电信万亿参数大模型是以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。 

可以想象的是,在不远的未来,融合语言、视觉和语音等多模态能力的大模型将会适应现实世界中不同模态的任务,逐渐接近甚至超越人类的水平。曾经只会出现在科幻作品的情节,终将走进现实。
产业星辰语义大模型
1
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

群体智能技术

集群智能(Swarm Intelligence),是指在某群体中,若存在众多无智能的个体,它们通过相互之间的简单合作所表现出来的智能行为,集群机器人便是集群智能一类。它由Gerardo Beni和Jing Wang于1989年在细胞机器人系统的背景下引入。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~