Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

央企第一家:中国电信开源星辰语义大模型,共享超1T 高质基础数据

2024 年伊始,中国电信开源星辰语义大模型- 7B,成为第一家开源大模型的央企。同时开源的还有超 1T 的高质量清洗基础数据。 

随着新一轮科技革命和产业变革加速演进,拥抱 AI 成为中国电信当下发展的核心战略之一。2019 年,中国电信在原数据中心基础上成立大数据和 AI 中心。2023 年11 月,中国电信注资 30 亿元成「中电信人工智能科技有限公司」(以下简称中电信 AI 、 AI 团队),牵头打造中国电信 AI 核心技术。同月,中国电信发布千亿级星辰语义大模型。 


开源项目链接地址 
  • https://gitee.com/Tele-AI/tele-chat 
  • https://github.com/Tele-AI/Telechat 
              
一、星辰语义大模型的开源方案 

在千亿参数大模型发布之前,星辰语义大模型已经具备了多版本稳定可用的大模型基座,覆盖 3B 、 7B 、12B 和 130B 等参数量级。大模型采用纯自研的方式,团队选用解码器架构( decoder-only )并在模型维度做了一些创新和改进,经过数十版模型训练与优化,模型的稳定性和推理速度都得到了明显提升。 

根据开源服务的对象不同,星辰语义大模型的开源方案也分两种——对内方案和对外方案。对外方案中,7B 模型在 Gitee 和 Github 同步开源,支持商用。对内方案中,开源对象包括 3B 、 7B 和 12B 模型。代码在研发云进行托管。模型使用二方包方式进行托管,权限采用项目申请关联方式。 

开源的模型数量和时间有所不同,但开源内容并无区别。比如,提供基础模型以及基于相应版本的对话模型、不仅支持传统的全量参数更新还支持 LoRA 等只更新部分参数的高效微调方法、支持 deepspeed 微调、支持 int8 、 int4 量化和昇腾卡训练推理。长文本处理是星辰语义大模型的一个亮点。开源模型支持外推长度达96K,有助于模型在训练与推理阶段捕获更多上下文信息,特别是在引入外部知识做搜索增强的应用场景。 

同时开放的还有超 1T 高质量清洗的基础数据,是由星辰大模型预训练语料中抽取出的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等媒介,数据集大约公开了 2.7 亿条数据,由纯中文文本构成。据电信 AI 透露,这些数据在 7B 、 12B 还有未来开源的千亿级大模型都会用到。 

图片

LoRA和全参数微调的训练能力的支持情况。

二、星辰语义大模型的能力展示 

这次最先开源的星辰语义大模型-7B 也是中国电信星辰大模型矩阵的重要组成部分。除了语义大模型,星辰大模型还包括星辰视觉大模型,星辰多模态大模型以及星辰语音大模型。 

星辰多模态大模型主要聚焦提升图文生成、图文理解能力,训练了超过 12 亿各种风格数据,支持近 20 种绘画风格,中文意象理解生成能力提升 30%,语义细粒度生成效果提升 25%。 

星辰语音大模型基于数十万小时语音数据进行训练,具备精准的多语种/方言语音识别、语音实时自定义敏感词检测、超自然多音色语音生成和编辑、声音匿名等多项语音能力,支持智能会议、智慧办公、智能客服、智能语音机器人等多场景解决方案。 

星辰视觉大模型基于亿级规模数据,通过多任务协同训练,获得工信部重点实验室评选的 2023 年大模型研发应用和工具平台优秀案例,通过星河平台在 20 省部署核心算法,算法日均调用量达 3.3 亿次。 

图片

星辰大模型矩阵

基础能力是否能达到客户预期是大模型落地的主要挑战,星辰语义大模型可以通过 zero/few-shot 低成本方式适配各种任务。星辰语义大模型还拥有内容创作、语言理解、逻辑推理、知识问答以及包括代码生成、代码翻译和测试用例生成等代码辅助能力。 

图片

星辰语义大模型通用能力展示

图片

星辰语义大模型通用能力展示

不过,大模型就像一个强大但没有说明书的机器,谁能驾驭好 prompt,谁就能激活大模型的巨大潜力。因此,星辰语义大模型支持超过 100 个 prompt 模版任务(还在持续增加),涉及文本生成、问答对话、编程、翻译等多个场景,企业既可以直接调用,也可以借鉴思路改写。 

图片prompt 模板展示。为帮助用户更好地激发模型潜力,星辰语义大模型支持超过100个 prompt 模版任务,而且数量还在持续增加中。

大模型在长文写作、逻辑推理、百科问答以及代码辅助等场景下均有优异表现。以长文写作为例,开源大模型不仅支持周报、申请材料、行业分析等近 20 类长文写作,还支持PPT大纲、总结、计划、调研等文本生成任务。长文写作也是中国电信内部比较有代表性的应用场景。星辰语义大模型比国内众多大模型表现更好。 

除了长文写作,星辰语义大模型正依托 5G 消息为政务客户提供政务短信智能化多轮问答服务。融合了大模型的新一代智能客服系统,能够提供基于文档知识的应答能力,使得问题覆盖率达到 95% 以上,相比传统的智能客服能够更准确地回答用户问题,提供接近人工客服的服务体验。另外,大模型还能进行准确的客户服务总结,针对多通会话做整体的业务洞察。 

值得一提的是,百亿级语义大模型商业化过程中面临的幻觉、外推窗口和多轮逻辑推理方面的挑战,在去年 11 月发布的千亿级星辰语义大模型身上得到了重点解决。其中,千亿级星辰语义大模型的长文本生成和长文理解性能分别提升了 30% 和 20% 。知识问答方面的性能提升了 18%。逻辑推理、数学和代码能力等方面也实现了10- 15% 不等的性能提升。 

除了通用能力,星辰语义大模型还有一套插件,增强自身落地场景的适应能力。 

要真正改变实践中的一些工作流程和思路,提高效率,单纯依靠文字交互并不够,行业场景应用需要与多模态模型联动。星辰语义大模型支持对 CV、语音能力的调用,从而实现文生图和个性化语音服务。 

鉴于企业用户都有自己的无形资产,包括作为知识工程积累的数据库知识库以及实际业务中研发的各类工具。透过调用数据库知识库,星辰语义大模型能增强自己的行业知识,让服务更专业、更精准。借助思维链能力,星辰语义大模型可以调用甚至排列「串联」各种业务工具接口,为客户提供更专业、更自动化的服务。 

图片

星辰语义大模型还有一套插件,增强自身落地场景的适应能力

除此之外,一些常见的插件调用也有支持。比如,借助思维链能力,星辰语义大模型支持用数学工具插件完成通常由多个推理步骤完成的复杂任务。为了让回答更具权威性和可信度,语义大模型可以通达对外知识的窗口——搜索引擎,检索外部信息,旁征博引。 

图片

支持搜索引擎插件问答及引用来源标识

三、三大关键因素,让语义大模型更接地气 

作为运营商,中国电信入局大模型的优势不仅在于目标客户群体的储备体量惊人,更在于能够为他们提供广泛服务。目前,星辰语义大模型在中国电信内部以及对外企事业单位客户的业务上有较多应用场景,并取得了实质性的效果。 

中国电信内部比较有代表性的两个大模型应用场景分别是长文写作以及网络故障分析。在对外部的项目中,星辰语义大模型提供的应用场景包括企业市场经营分析、政务公开咨询、医保民生诉求接待等。在这些场景下,星辰语义大模型强大的理解能力和意图理解能力,能够支撑更准确的业务决策。 

电信 AI 告诉我们,在模型维度,星辰语义大模型主要有三个方面的创新和改进,包括模型稳定性增强、创新位置编码以及创新激活函数。 

据研发人员介绍,他们改进了 RoPE 位置编码方式,预训练阶段上下文训练长度达到 16K ,结合 NTK-aware 外推和 attention scaling 外推方式,算法大幅提升了模型外推能力。还有初始不同数据权重。通过多个小参数模型在不同权重组合数据集上学习,预测出最佳数据配比超参阶段性数据调控:模型分阶段学习,每个阶段根据不同类型数据 loss 反馈,自动调控下阶段数据配比超参优点:模型可以更好学习不同难度数据集上的知识。另外,基于关键信息的多轮 mask loss 学习机制大幅提升模型问答效果基于 DPO/RRHF 模型偏好对齐调优策略。 

在面向产业应用过程中,为了增强模型的商用性,千亿级星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强技术、多轮知识记忆和强化技术等手段,幻觉率下降了 40%。 

在价值对齐上,星辰语义大模型也表现突出。《生成式人工智能服务管理办法(征求意见稿)》明确要求,利用生成式 AI 生成的内容应当体现社会主义核心价值观。为此,在对齐偏好方向上,我们一方面收集和构建「全面且具有代表性」的排序数据的任务上,对指令微调阶段收集的大量指令采用向量化+聚类的方式,将指令分为不同的簇类,并从各个簇类中按照一定比例抽取具有代表性的指令集,再由标注人员构建相似的指令。研究人员解释说,这种方式不仅可以较为全面地覆盖人类指令,还能保证与微调阶段数据具有相同的数据分布,更有利于模型在对齐阶段的训练。 

对于同一指令下的不同候选答案,AI 团队尝试分多次采集不同参数量,不同训练阶段的大模型的推理结果,再由标注人员进行标注,最终得到完整的基于人类偏好的排序数据。 

在训练阶段,团队尝试了 PPO,RRHF,DPO 等多种基于人类偏好排序数据的训练策略,最终使用 DPO 在指令微调后的模型上进行训练,完成人类偏好对齐,大幅提升了模型生成答案的安全性和规范性。 

除了算法层面的创新,数据和算力资源优势也成为星辰语义大模型优秀性能的重要支撑。 

就国内数据市场而言,政府数据资源占全国数据资源比重超过 3/4,开放规模不足美国的 10%,个人和企业可资利用的规模更是不及美国的 7% 。因此,具有私域属性的行业数据重要性就更为凸显。拥有庞大政企客户资源池的中国电信拥有这方面的先天优势。 

为训练语义大模型,电信 AI 共收集了 25T tokens 数据,选取了 1.5T tokens 到真实的训练,包含百科、书籍、司法、医药等多维度高质量数据。除了合作与采购的获取方式,超大数据集也离不开电信集团的业务优势。星辰语义大模型能更好地理解和满足用户需求,发挥实际应用价值。比如,基于星辰语义大模型的星辰教育大模型,是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15 秒就能完成一篇中英文作文的打分、点评和改进建议。目前已在河南 1.2 万师生教学中应用并取得良好的效果。 

不过,并非只要是金矿就可以练出高纯度金子,想要获得高质量数据集并不容易。为此,AI 团队也使用了不少「提纯」手段。他们通过 Knesey-Ney 技术进行困惑度计算,过滤低质量数据。使用 Minihash+Jaccard 技术对语料进行严格全局排重,并通过定制规则过滤广告、色情等无意义数据。经过严格清洗获得了 25T tokens 数据后,再结合小参数验证方法进行数据采样调整与配比优化,最后迁移大模型进行模型训练,有效提升了大模型基础语言理解能力。 

据电信 AI 透露,他们还有一支几百人专业标注团队,人工标注出超千万级高质量问答数据集,涵盖了例如司法、代码、数学题、医药问答等各个任务、多个领域的数据集作为大模型的微调数据。 

再来看看算力。过去 AI 应用里,很多训练的任务都是单卡或单机就能完成,在大模型时代,需要千卡、万卡来完成一个任务。这就需要构建智算集群,支持万卡级别的高速互联,并且支持各种异构算力,包括 CPU、GPU 等算力的高速互联。 

谈算力,不能简单唯算力论。训练大模型类似火箭发射,都属于大规模系统构成,在算力效率、存储和网络等方面存在许多工程挑战。比如,高性能 GPU 卡多了,大量卡并行训练过程中很容易出现各种状况导致重启,拉低训练效率。如何在现有工程条件下保证大量的卡长时间稳定运行就极富挑战性。 

电信 AI 不仅筹集了 A100、A800 和 910B 三个千卡集群,用于通用基础大模型训练,同时也是国内最早完成910B大模型适配的企业,已完成国内外主流显卡在大模型训练场景下的算子加速。 

星辰语义大模型实际的预训练和微调是使用的微软 Megatron-Deepspeed 框架,综合了DeepSpeed框架中的ZeRO sharding、pipeline并行等技术,与  Megatron-LM 中的 Tensor 并行等技术。综合使用流水线并行、张量并行、数据并行的 3D 并行训练策略,配合混合精度训练、算子融合、后向重计算、零冗余优化器等训练加速和显存优化技巧,在千卡 A100 集群上达到 170+TFLOPS,为理论巅峰算力的 54%。 

大模型的炼丹步骤虽然都是公开一致的,但其中涉及很多算法及工程技巧都离不开优秀的研发团队。截至目前,电信 AI 员工人数约 800 人,研发人员占比达到 75% ,平均年龄 31 岁,均为来自一线科技公司的资深工程师和来自国内外一流高校的应届生。 

四、开源与播种 

面对市场竞争,开源软件的免费使用不仅是有力的获客手段,低成本试错也有助于加速技术创新和产业落地。语义大模型涉及许多技术问题,单靠一家企业很难解决,可以通过开放技术,依靠社区力量共同解决,共享 IP,互惠互利。 

未来,中国电信也将重点围绕开源来做建设,通过持续开源基础大模型,尽可能广泛地赋能更多的用户场景,扩展基础模型的能力边界。4 月,中国电信还将开源千亿级星辰语义大模型。面向下一阶段的竞争,中国电信在自研百亿和千亿基础大模型之外,还联合了北京智源人工智能研究院研发万亿级大模型,预计今年年中完成训练。据了解,电信万亿参数大模型以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。 

作为可能是迄今为止最为复杂的系统性软硬件工程,大模型落地也面临不少挑战。数据采集成本很高,尤其是高质量数学、代码等数据更难获取。在 GPU 短缺的大背景下,如何有效地将算力用好是每家企业都要面临的挑战。还有高昂的维护成本,无论是硬件和软件环境都需要专业领域内的人士的支撑。 

不少人说,2024 年会是开源大模型爆发之年。也有数据显示,开源 AI 模型正走在超越专有模型的路上。开源种子已在年初播下,接下来便是平整土地,静候百花齐放。
产业星辰语义大模型中国电信
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~