2024/04/26 14:47

为什么要做长文本、长图文、长语音的大模型？深度解读讯飞星火V3.5春季上新

讯飞的持续高投入，换来了大模型能力的迅速提升。

4 月 26 日，科大讯飞发布讯飞星火大模型 V3.5 的功能上新，其中一个重点就是面向用户各种场景中高效获取信息需求，发布首个长文本、长图文、长语音的大模型，能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习，还能够结合各种行业场景知识给出专业、准确回答。

效果到底如何？

今年人形机器人发展火热，我们将一份长达 70 多页的人形机器人报告，丢给了讯飞星火。只见星火很快上传解析了文件，我们先让星火总结这份报告的重点信息，星火条理清晰的给出了答案。

然后又让它给出报告中特斯拉机器人的概括提炼，讯飞星火也结合报告中特斯拉机器人的信息从技术迭代、核心技术和部件、学习能力等进行了总结提炼。

整体看下来，讯飞星火已经能作为一个知识助手，帮助我们在海量的信息中快速的获取知识，大幅提升我们获取信息的能力，并且效果也很不错。

值得关注的是，据七麦数据显示，讯飞星火 APP 在安卓端的下载量已经超过 9600 万次，在国内工具类通用大模型 APP 中排名第一。持续用技术进步解决真实刚需下，讯飞星火也在获得越来越多用户的认可。

为何要做长文本、长图文、长语音大模型？

知识高效获取一直都是职场、学生和科研人士的痛点问题。不同于行业单 “卷” 长文本，科大讯飞此次推出了首个长文本、长图文、长语音的大模型，背后是如何考虑的？

科大讯飞分析发现，在知识获取和学习的过程中，广大用户能拿到的资料往往不仅是现成的文本，还有随手可见的报刊书籍内容、各种研讨会的 PPT 内容，老师黑板上的板书、同学的笔记，以及各种会议录音、访谈，各种网上的发布会、培训教育视频等，能不能把这些文本、图片、语音等都上传到讯飞星火中，快速获取知识？

正是这一考虑，科大讯飞推出首个支持长文本、长图文、长语音的大模型，希望以此来解决用户真实场景中多元信息的获取需求，提供高效便捷的知识管理体验。

场景问题之外，用户高效获取知识的痛点还有效率问题和专业度问题。

比如面对上百万甚至上千万文字，长文本大模型消耗的运算资源非常大，业界大模型往往处理一半或者更少就无法处理了，长文本功能的落地，需要解决高效处理。

为了解决这一问题，科大讯飞用业内领先的讯飞星火 V3.5 提升对长文本的理解、学习、回答能力，在此基础上使用稀疏剪枝技术，裁剪出小模型来处理长文本任务，同时使用了大模型知识蒸馏技术，极大提升了小模型的通用能力。从而推出业界最优的 130 亿参数的大模型，在效果损失仅 3% 以内的情况下，使得星火在文档上传解析处理、问答首响时间以及文字生成效率方面都获得了极大的效率提升。

在长文本能力上，讯飞星火具备长文档信息抽取、长文档知识问答、长文档总结、长文档文本生成等能力，总体已经达到 GPT-4 Turbo 4 月最新长文本版本的 97% 水平，而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上，讯飞星火大模型长文本总体水平已经超过 GPT-4 Turbo。

在长图文能力上，科大讯飞面向复杂的图文场景推出星火图文识别大模型，以星火通用大模型为基座，结合视觉编码器和多粒度图文任务等构成。

从效果来看，它能够直接处理非常复杂的版面分析，已经覆盖 31 个典型场景，比如书刊、学术论文、专利、报纸、海报、PPT 等，同时能自动识别标注出 18 类不同的版面要素，比如页眉、页脚、标题、段落、表格、公式、印章、手写等；融合篇章上下文语义进行文字识别，识别更精准；面向教育、金融、医疗、科研等专业领域深度优化，能自动实现更多领域的专业符号识别。

根据国际公开的权威英文测试集来看，讯飞星火的图文识别效果超过微软和谷歌。从典型应用场景来看，效果在科研、金融以及企业产品技术文档等识别效果都处于业界领先地位。

此外，面对广泛的音视频中信息高效获取需求，科大讯飞也推出长语音功能，将多年储备的语音识别和翻译技术结合起来，可以实现会议录音、学习视频等的一键研读，这个对于音视频场景的高效信息获取非常有用。

通过此次上新的长文本、长图文、长语音功能，我们在日常的学习、工作中，无论是长文本素材，随手拍的图文信息，亦或是会议录音，高效知识获取都可以通过一个大模型搞定。

AI 能 “情感共鸣”，还能一句话声音复刻

年初讯飞星火 V3.5 发布会上，科大讯飞推出了超拟人对话功能，AI 的声音更自然更真实，拟人度达到了 83%，广受用户欢迎。结合体验看，无论是语音可懂度、流畅度还是表现力，讯飞星火效果都超过 OpenAI、微软。

此次科大讯飞发布多情感超拟人合成，进一步提升了情绪表达的可感知度，对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到 85% 以上，AI 语音更加生动、真实。

它是如何做到的呢？概括来说，通用大模型 + 语音大模型，让语音合成更逼真。首先，基于星火通用大模型的能力，来预测文本中的口语化现象、情感、停顿等细节信息，这对于传达说话者的真实感受非常重要；然后，星火语音大模型学习人类的口语化表达方式后，对通用大模型预测的口语化信息进行还原，从而极大提高了合成的拟人化效果。

目前，昊铂 HT 2024 款车型行业率先搭载科大讯飞超拟人合成技术，已在 4 月 25 日正式全球上市。超拟人在车载、家电等行业的应用将会出现越来越多的落地成果。

除了超拟人对话，科大讯飞还推出 “一句话声音复刻” 功能，用户只用在讯飞星火 APP 中跟读一句话，就可以复刻你的声音。

基于大模型在通用任务上的出色表现，在学习海量的人声数据之后，现在大模型能够实现在很少的声音数据情况之下，就能模仿出和原人声极为相近的声音效果。

以前想要模拟一个人的声音，需要这个人录制很长时间，随着技术的不断进步，从需要录制一周、到录制一天，再到现在基于大模型加持之下，只需要录制一句话，就能复刻出你的声音。比如模仿小朋友的声音，每天给爷爷奶奶读书读报；在我们出差的时候，模仿我们的声音给孩子讲故事。大家可以在讯飞星火 APP 上体验。

做真正解决实际刚需的大模型

国内大模型市场经过一年发展，已呈现出各自的差异化落地路线，比如字节豆包主打娱乐，而讯飞星火则更加注重实际刚需场景，这一点从其技术落地就可以看出。结合本次升级，科大讯飞董事长刘庆峰重点介绍了讯飞星火在招投标、合同、教育、科研等场景下的应用。

比如日常生活中，我们在租房、装修或者商务合作中经常会遇到各种各样的合同，看不懂不想看存在风险怎么办？科大讯飞推出星火合同助手，它可以对我们的合同进行风险审核、合同比对，摘要总结以及合同生成，迅速识别潜在风险漏洞，它像个 “AI 法务” 一样帮你更好的应对合同场景。

在教育场景，大模型进一步升级了讯飞 AI 学习机产品，不仅对作文的批改、对理科的批改更加精准，也让智能化辅学更有针对性更高效，还升级了百科问答功能，更好解答孩子的十万个为什么。智慧黑板中也升级了实录功能和星火教师助手，后者融入长文本能力后，可以把优质教辅内容融入，教师在备课的过程中就可以直接融入教辅教参中的内容，进一步丰富备课资源，提升备课效率。

此外，在科研场景，此前星火科研助手目前已在中国科学院、三亚崖州湾科技城、北京邮电大学、哈尔滨工业大学等机构高校铺开应用。多模态能力升级下，讯飞星火科研助手也进一步提升了论文问答、综述生成、实验解读等的效果，可以解析的学术资料更加丰富，进一步赋能高校和科研院所的科研工作。

面向用户场景之外，这一次科大讯飞也面向企业场景中知识管理与高效获取需求，推出智能体平台，敏捷触达大模型企业落地的最后一公里。

企业构建智能体的关键环节可以概括为任务理解、任务规划、任务执行。刘庆峰介绍，针对用户的输入，首先，基于讯飞星火大模型聪明的底座能力，会自动实现用户输入的精准理解和任务规划。其次，解析完了相关的任务和对应的工具之后，讯飞星火也构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接；

同时，星火智能体平台还通过互认证的机制，实现了往往是独立的、隔离的 OA 系统、CRM 系统以及 ERP 系统的打通，完成相应操作；最后，通过私域知识融入机制，智能体平台很容易实现企业所属行业以及企业私域知识的融入。此外，星火智能体平台还可以通过拖拽方式即可实现的新智能体的创建和多智能体的协作。可以看到，讯飞星火这次升级更务实，都是为了解决用户真实场景下的刚需。刘庆峰也透露，科大讯飞将在 6 月 27 日发布讯飞星火大模型 V4.0，进一步实现对 GPT-4 Turbo 的对标。

产业讯飞星火 V3.5科大讯飞

相关技术

语音合成自然语言处理语音处理语音助理语音增强神经语言模型语音识别

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

剪枝技术

剪枝顾名思义，就是删去一些不重要的节点，来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用，如：决策树，神经网络，搜索算法,数据库的设计等。在决策树和神经网络中，剪枝可以有效缓解过拟合问题并减小计算复杂度；在搜索算法中，可以减小搜索范围，提高搜索效率。

来源：Wikipedia

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架，即通过遵循“学生-教师”的范式减少深度网络的训练量，这种“学生-教师”的范式，即通过软化“教师”的输出而惩罚“学生”。为了完成这一点，学生学要训练以预测教师的输出，即真实的分类标签。这种方法十分简单，但它同样在各种图像分类任务中表现出较好的结果。

来源：机器之心

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心

文本生成技术

文本生成是生成文本的任务，其目的是使人类书写文本难以区分。

来源：paperswithcode

企查查机构

企查查科技有限公司于2014年03月12日成立。法定代表人陈德强，公司经营范围包括：计算机软件开发、计算机信息技术服务；通信系统自动化软硬件的开发，并提供技术咨询、技术服务；计算机软硬件的销售及维护；软件设计及技术转让，并提供相关技术服务；企业管理咨询；市场调查；企业征信业务；企业信用评估；信用管理咨询等。

http://www.greatld.com/