Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

今年,中国AI大模型产业发展看这些

现在的人工智能,已不是「可以用」,而是「非常好用」了。

上个星期,谷歌与李世石一次久违的对话,唤起了人们的回忆:

仔细想来,自 2016 年 AlphaGo 在围棋上打败人类起已过去八年。如今人工智能技术的发展却丝毫没有减速,正在给我们创造更大的震撼。

生成式 AI 技术从引领技术爆发的 GPT-4 开始,已经席卷了各个领域。不论是自动写文章,还是生成图片和视频,大模型等技术正随着 Copilot、AI 手机等产品逐步落地。在可见的未来,向我们招手的还有具身智能 —— 通过软硬件结合,机器人正在变得更聪明,即将代替我们的部分劳动。

图片

最近,「新质生产力」理论正成为科技领域的热门话题。新质生产力是以新产业为主导的生产力,它相对传统生产力呈现出颠覆性创新驱动,具有产业链条新、发展质量高等特征,对新旧动能转换发挥着引领性作用。

而 AI 大模型技术的突破,正是驱动科技创新,构建未来产业的强大动力。人工智能带来的科技革命可能会像工业革命、信息革命一样,给每个人的生活带来巨大的改变。

3 月 26 日,博鳌亚洲论坛上,人民网正式发布了《2024 年中国 AI 大模型产业发展报告》,阐述了中国 AI 大模型的发展现状和典型案例,深入探讨国内 AI 大模型产业发展所面临的挑战,同时也对未来趋势进行了展望。

图片

报告下载链接:http://download.people.com.cn/jiankang/nineteen17114578641.pdf

其中有关「下半场」竞争态势、端侧应用爆发等判断,尤为值得关注。

AI 大模型技术落地,将是大浪淘沙

人工智能在持续发展的过程中,已在很多地方实现了落地,包括但不限于语音识别人脸识别机器翻译目标检测图像生成、辅助驾驶等等方面。很大程度上,新技术已经在帮助千行百业提高生产力了。

随着生成式 AI 技术的发展,智能化升级的范围还将扩大,程度还会更高。作为拥有 AI 完整产业体系的国家,新一代 AI 方案正在中国深入各行各业。

不过,要实现真正的技术变革,我们还面临着一系列挑战。

第一个挑战是算力短缺。随着大模型规模呈现指数级增长,算法越来越依赖高性能 AI 芯片。有市场研究公司报告称,去年仅 Meta 和微软两家公司就从英伟达处分别购买了 15 万块 H100 GPU,各花去约 45 亿美元,但这还远远不够:基于 H100 的服务器的交付周期已经长达 52 周。

在国内,高性能 AI 芯片市场还因为进出口限制和技术瓶颈的双重影响,大模型产业发展正在受到算力层面的制约。

第二个挑战是大模型架构的局限性。如今的 AI 预训练大模型均采用自注意力机制的 Transformer 神经网络结构,它在自然语言处理等领域具有诸多优势,包括可实现完全并行计算、捕捉长距离依赖关系、模块化设计、处理不定长序列、结构扩展以及预训练效果好等等。

但随着人们的不断开发与扩展,transformer 固有的算力消耗资源大、内存占用多、泛化能力有局限性等问题也逐渐显现。

就连 Transformer 论文《Attention Is All You Need》的七位原作者在最近 GTC 大会的圆桌讨论上也表示,这个世界需要比 Transformer 更好的东西,才能将我们带到新的性能高原。

图片

对数据的运用,是制约大模型落地的另一个重要因素。对于从头开始训练的大模型,语料数据的质量很大程度上会影响模型能力。大模型对数据供给的要求极高,比如 OpenAI 在训练 GPT-4 时,就在大约 13T token 的数据上进行了训练,其中包括基于文本和基于代码的数据,以及来自 ScaleAI 和内部的一些微调数据。

相对而言,国内的 AI 大模型数据面临着数据类型不全面、信息可信度不高等问题。整体来看,可用于大模型训练的中文数据库相比英文数据,体量严重不足。

最后,我们还在期待更多爆款应用。ChatGPT 自发布以来迅速成为史上增速最快消费级应用,提供支持的微软也将大模型技术引入到了 Office、Teams 甚至 Windows 操作系统中。而在国内科技公司的生态中,至今仍没有出现类似的爆款级应用,原因可能在于尚未找到商业化思路,技术、个性化程度仍未满足用户需求。

可以说,在生成式 AI「百模大战」后,算法创新优化、生态构建和应用落地等任务,为正在构建 AI 技术体系的公司提出了更高的要求。只有少数脱颖而出者,才会进入未来的大规模应用阶段。

新方向已出现:走向端侧,端云结合

毫无疑问,在 AI 新技术上,国内科技公司一直在坚持投入,已经收获了不小的成果。

通过大规模数据训练,数百亿甚至千亿参数量级的通用大模型能够学习捕捉复杂规律和特征,对前所未见的数据做出预测。通用大模型能理解学习多种任务,得益于大规模预训练和微调范式,可完成多领域任务,并具备多模态的理解和生成能力。

以百度文心一言、阿里通义千问、科大讯飞星火、腾讯混元大模型等为代表,一批高参数体量的云端大语言模型充分利用了算力和海量训练数据,已经能提供语言理解、知识问答、数学推理、代码生成等能力。

它们一边面向 C 端个人用户提供智能问答、文本摘要与生成、图片生成、视频生成等功能。另一方面面向 B 端企业用户,正在改变企业的传统业务模式,正在提供智能化营销、客服、自动会议记录、文本翻译、预算管理等前所未有的能力。

基于通用大模型基础,我们看到了面向特定行业和领域的专用大模型,已开始进入金融、政务、医疗等领域。

而在端侧方向上,接连出现了 AI 手机和 AI PC 两个新概念,大模型展现了广泛的应用前景。

基于端侧深度优化的「小体量」预训练模型能力,个人设备的使用方式和习惯正在被重塑。AI 已经能提供文档搜索、智能识屏、图像创作、生活助手、出行助手等个性化服务。随着大模型的极致优化,人们甚至在展望智能穿戴设备上的大模型应用。

图片

端侧大模型一方面可以为人们带来更加个性化的 AI 能力,对用户意图进行更深度、精准、细腻的理解,提供更加个性化的复杂场景服务。同时也能够保证数据位于端侧,保护了人们的隐私信息。

另一方面,一部分云端计算任务转移给终端处理,还会大幅降低算力成本;一些复杂的工作和在端侧处理后的内容,也可以通过网络交由云端千亿级,甚至万亿级的 AI 大模型来进行处理,这就是「端云协同的 AI」。

端云协同进化的大模型体系有望解决当前大模型范式面临的一些问题与挑战:

  • 在计算资源方面,端云协同能够充分利用云端、终端的碎片化计算资源,并与通信以及存储资源进行联合优化;

  • 在模型架构方面,端云大小体量不同的模型以及聚合的新模式,同时获得了大模型的涌现能力与小模型的功耗优势;

  • 在数据方面,快速发展的大、小模型和各类应用正在催生规范化、行业细分的数据治理体系;

  • 在应用方面,端侧大模型在理解用户意图后,可以高效调用其他大模型、服务和硬件能力,实现极高的可用性。

这或许会是新一轮人工智能的变革方向所在。

AI 手机落地引领趋势

正是因为端侧 AI 大模型和「端云协同」的前景,率先把大模型落地到消费级领域的,是各大手机厂商。

去年末到今年初,国内众多厂商陆续推出了新一代旗舰手机,生成式 AI 能力不约而同地成为了发布的重点。

这些手机厂商提出的「AI 手机」有的发力意图理解,通过端侧 AI 技术,以人为中心,利用个性化信息、传感器能力大幅提升手机的情境感知水平,带来各种高效的智慧服务。

有的通过平台化 AI,以端侧 + 云侧模型连接各类服务,实现了高效的推理决策。而利用大模型「智能体」将复杂任务分解,并在每个子步骤实现自主决策,手机不仅对人发出的指令和需求实现了深度理解,还可以进一步简化操作,自主实现多种复杂目标。

在这其中,vivo 在大模型端侧化、矩阵化的表现尤为突出,在新发布的报告中作为企业案例获得了详细介绍。

去年 11 月,vivo 正式发布了自研 AI 大模型「蓝心 BlueLM」,并搭载于新一代旗舰手机 vivo X100 系列上率先落地。

这是行业内首个在手机端运行的开源自研大模型,其覆盖十亿、百亿、千亿三个参数量级,共计五款模型。基于蓝心大模型能力,vivo 在端侧提供了蓝心小 V 和蓝心千询两款应用,并为手机提供了全局智能辅助功能。

图片

vivo 的技术创新,已经让很多人享受到大模型带来的便利。官方给到我们一组数字:蓝心大模型目前已经覆盖了超过 2000 万用户,实现了 2761 万次高质量问答、生成了 1757 万张画,写了 649 万份报告,「AI 修图」功能还消除了 85 万个路人。

在这背后既有端侧大模型能力和优化带来的优势,还有 vivo 大模型矩阵化的功劳:不同参数量级的大模型可以通过多种部署方式应用于不同场景,在满足用户手机端侧体验的同时,优化了推理性能以及端侧部署时占用的内存和功耗。

其中,蓝心大模型的 1B 和 7B 版本可在手机端运行,既实现了面向端侧硬件能力的优化,又提供了良好的 AI 生成能力,使得一些应用可以全天候正常运行。

70B 版本的蓝心大模型则是面向云端服务的主力模型,提供角色扮演、知识问答等能力,既有智能涌现,也能兼顾成本和性能。面向复杂任务,vivo 也通过 1300 亿和 1750 亿两款大模型,依靠更丰富的知识量,带来了更加专业的智能体验。

图片

随着参数量的提升,蓝心大模型逐渐具备了文本总结、语言理解、文本创作、知识问答、角色扮演、复杂逻辑推理、复杂任务编排等能力。结合新一代手机的 AI 算力,蓝心大模型实现了端侧部署与端云结合的能力。

博鳌亚洲论坛期间,vivo 介绍了蓝心大模型的最新落地进展:目前手机用户们获得的 AI 能力已升级到「端侧 7B」+「云侧 70B」的组合,充分利用到了端云结合的优势。

图片

vivo 在人工智能技术的四大维度 —— 数据、人力、算法、算力上都做到了领先:自 2017 年起,vivo 组建了人工智能研究团队,并建设知识图谱积累数据,多年来已在顶级期刊发表了一系列高水平论文。vivo 的研究成果正在不断转化为工程应用,目前其自研大模型已位居大语言模型综合性考试评测集 C-Eval 中文榜单前列。

图片

                           C-Eval 排行榜:https://cevalbenchmark.com/static/leaderboard_zh.html

通过对手机生态和用户使用特征的深度思考,端侧智能助理通过大模型的加持获得了前所未有的能力,已不仅仅是「能够与人自然对话」,而是在大量用户学习、生活、工作等场景上都带来了颠覆性的体验。

2024 年,AI 大模型应用落地爆发?

AI 手机还有很大的发展空间。随着 AI 算法迭代优化、芯片性能提升和应用场景拓展,新生产力将日益普及,满足人们不断增长的多元化需求。

AI 大模型将深刻影响人们与设备交互的方式,今年或许就将发生质变。

在博鳌论坛上人们表示,2024 年随着从政府到开发者各个层面的支持、用户需求的激增,再加上科技公司投入力度的推动,大模型将进入快速发展的阶段。如果具体到手机上,结合 AI 大模型端侧化、矩阵化的技术演进,大模型技术的落地将颠覆一系列我们眼中一成不变的功能。

我们可以期待未来手中的设备,能够呈现出完全不同的形态。

产业2024 年中国 AI 大模型产业发展报告
相关数据
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市。

http://www.iflytek.com
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

长距离依赖技术

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~