Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑

目前,通义千问开源全家桶已经有了 18 亿、70 亿、140 亿、720 亿参数量的 4 款基础开源模型,以及跨语言、图像、语音等多种模态的多款开源模型。
「Qwen-72B 模型将于 11 月 30 日发布。」前几天,X 平台上的一位网友发布了这样一则消息,消息来源是一段对话。他还说,「如果(新模型)像他们的 14B 模型一样,那将是惊人的。」
图片有位网友转发了帖子并配文「千问模型最近表现不错」。

这句话里的 14B 模型指的是阿里云在 9 月份开源的通义千问 140 亿参数模型 Qwen-14B。当时,这个模型在多个权威评测中超越同等规模模型,部分指标甚至接近 Llama2-70B,在国内外开发者社区中非常受欢迎。在之后的两个月里,用过 Qwen-14B 的开发者自然也会对更大的模型产生好奇和期盼。
图片
看来,日本的开发者也在期待。

正如消息中所说的,11 月 30 日,Qwen-72B 开源了。它以一己之力让追开源动态的国外开发者也过上了杭州时间。

图片

阿里云还在今天的发布会上公布了很多细节。

图片

从性能数据来看,Qwen-72B 没有辜负大家的期盼。在 MMLU、AGIEval 等 10 个权威基准测评中,Qwen-72B 都拿到了开源模型的最优成绩,成为性能最强的开源模型甚至超越了开源标杆 Llama 2-70B 和大部分商用闭源模型(部分成绩超越 GPT-3.5 和 GPT-4)。

要知道,在此之前,中国大模型市场还没有出现足以对抗 Llama 2-70B 的优质开源大模型,Qwen-72B 填补了这一空白。之后,国内大中型企业可基于它的强大推理能力开发商业应用,高校、科研院所可基于它开展 AI for Science 等科研工作

图片

图片

此外,一起发布的还有一个小模型 ——Qwen-1.8B,以及一个音频模型 Qwen-Audio。Qwen-1.8B 和 Qwen-72B 一小一大,加上之前已经开源的 7B、14B 模型,组成了一个完整的开源光谱,适配各种应用场景。Qwen-Audio 和之前开源的视觉理解模型 Qwen-VL 以及基础文本模型则组成了一个多模态光谱,可以帮助开发者把大模型的能力扩展到更多真实环境。

图片

通义千问最小开源模型Qwen-1.8B,推理2K长度文本内容仅需3G显存。看来,希望在手机等端侧部署语言模型的开发者可以上手一试。

这种「全尺寸、全模态」的开源力度,业界无出其右。Qwen-72B 更是抬升了开源模型尺寸和性能的天花板。为了验证这一开源模型的能力,机器之心阿里云魔搭社区上手体验了一番,并讨论了通义千问开源模型对于开发者的吸引力所在。

第一手体验:
推理更强,还能自定义角色

下图是 Qwen-72B 的用户界面。你可以在下方「Input」框输入想要问的问题或其他交互内容,中间框会输出答案。目前,Qwen-72B 支持中文和英文输入,这也是通义千问和 Llama2 差别比较大的一点。此前,Llama2 中文支持不佳让很多国内开发者很头疼
图片
体验地址:https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

我们了解到,在中文任务上,Qwen-72B 霸榜了 CEVAL、CMMLU、Gaokao 等测评,尤其在复杂语义理解、逻辑推理方面颇为拿手。先来一个包含中国武侠小说人物元素的易混淆句子分析,Qwen-72B 显然 get 到了几个「过」的不同意思。

图片

类似容易绕晕人的另一个句子也解释得很清楚。
图片
再来一个经典的「农夫、狐狸、兔子和萝卜」安全过河游戏,Qwen-72B 也能应答如流。
图片
既然 Qwen-72B 支持英文输入,我们也要来考一考它的双语交互能力怎么样?简单诗歌的翻译当然不在话下。
图片
Qwen-72B 还很懂地道的美式俚语。
图片
数学小能手上线

数学一直是考验大模型的重要一关。数据显示,Qwen-72B 在 MATH 等测试中相较于其他开源模型取得了断层式的领先优势,那实测效果怎么样呢?首先考它一道经典的掷骰子概率题,显然,它没有被难倒。
图片
鸡兔同笼问题也来一道,回答无误,只是解题过程有点特别。
图片
两个瓶子装水问题也能迎刃而解。
图片
化身林黛玉、孔老夫子

赋予大模型个性化角色是此次 Qwen-72B 的一大特色。得益于其强大的系统指令能力,你只需要设置提示词就可以定制自己的 AI 助手,让它拥有独特的角色、性格、腔调等

我们先让它以林黛玉的语气回复。
图片
再让它化身孔老夫子,谆谆教诲扑面而来。
图片
东北、天津等各地方言腔调也能脱口而出。
图片
图片
这么好的效果是怎么实现的呢?根据阿里云公布的技术资料,Qwen-72B 的推理性能提升其实离不开数据、训练等几个层面的优化。

在数据层面,目前通义利用了高达 3T tokens 的数据,词表高达十五万。据通义千问团队的人透露,模型还在持续训练,未来还会吃更多高质量数据。

在模型训练上,他们综合利用了 dp、tp、pp、sp 等方法进行大规模分布式并行训练,引入 Flash Attention v2 等高效算子提升训练速度。借助阿里云人工智能平台 PAI 的拓扑感知调度机制,有效降低了大规模训练时的通信成本,将训练速度提高 30%。

累计超150万的下载量是怎么来的?

从上面的测评结果来看,以 Qwen-72B 为代表的通义千问系列开源模型的确给了开发者很多选择它们的理由,比如比 Llama 2 更强的中文能力

有鹿机器人创始人、CEO 陈俊波就提到,他们在做产品时把市面上能找到的大模型都做过实验,最后选择了通义千问,因为「它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一」。

那为什么不用闭源模型呢?中国能源建设集团浙江省电力设计院有限公司系统室专工陶佳提到,国外的模型(比如 GPT-4)能力很强,但是 API 调用不便,而且 B 端用户更喜欢自己上手定制,API 能做的事还是太少。

图片

模型的可定制性也是陈俊波比较在意的一个点。他说,他们需要的不是一个智能性水平一成不变的大语言模型,而是随着企业数据的积累能变得越来越聪明的大语言模型,「闭源大模型显然做不到这一点,所以在我们的业态里面,终局一定是开源模型。」

在谈到利用通义千问开源模型搭建应用的感受时,陶佳描述说,「在我试过的几款开源模型中,通义千问是最好的,不仅回答准确,而且『手感』很好。『手感』这个东西比较主观,总的来说就是用起来最符合我的需求,没有那些稀奇古怪的 bug。」

其实说到「需求」,几乎每一个 B 端用户的需求都离不开「降本增效」,这是开源模型的另一个优势。一份 9 月份的统计显示,Llama2 -70B 大约比 GPT-4 便宜 30 倍,即使在 OpenAI 宣布降价后,Llama2 -70B 依然保留了数倍的成本优势,体量小于 70B 的衍生开源模型就更不用说了。这对企业来说是非常有吸引力的。
图片
图源:https://promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

例如数据企服品牌瓴羊 Quick BI 产品负责人王兆天就提到,千问的一大优势是轻量,「较低成本硬件环境即可部署使用」,这让 Quick BI 依托通义千问大模型开发的智能数据助手「智能小Q」可以抢占先机,比竞争对手更早推出,抢占用户心智。

图片

未来速度联合创始人、CEO 秦续业的一句话可能能让很多企业找到共鸣。他说,企业级用户更在意的是能不能解决问题,而非要求模型能力面面面俱到。企业「问题」有难有易,可调用的资金、算力和面临的部署要求也存在很大差异,因此对模型的灵活度、性价比要求都非常高。比如有的企业可能希望让大模型跑在手机等端侧设备上,而有的企业算力相对充裕,但需要推理能力更强的模型。通义千问刚好为开发者提供了这些选择 —— 从 1.8B 到 72B,从文字到语音再到图像,这是一个丰富的开源套餐,总有一款更符合需求。

图片

在多个权威测试集上,通义千问 18 亿参数开源模型 Qwen-1.8B 的性能远超此前的 SOTA 模型。

不过,这还不是全部。对于选择开源用户的开发者、企业来说,模型是否可持续、生态是否丰富也同样重要。

「我们没有资源从头训练一个基座模型,选模型的第一个考量就是,它背后的机构能不能给模型很好的背书,能不能持续投入基座模型及其生态建设?为跟风、吃红利而生的大模型不可持续。」这是华东理工大学 X-D Lab 核心成员颜鑫判断模型是否可持续的一些标准。

显然,在看过上半年的「百模大战」之后,他也担心自己选的模型会在这场竞争中沦为弃子。为了避免这种情况,他选择了阿里云,因为这是国内大厂里唯一开源大模型的组织。而且,除了通义千问,国内一半以上的头部大模型都跑在阿里云,基础设施建设的投入和可持续性毋庸置疑。

再加上,阿里云做大模型其实已经有些年头了,2018 年就开始进行大模型研究,2023 年更是释放出了「all in 大模型」的信号。这些信号对于关心大模型可持续性的开发者来说是一颗定心丸。颜鑫评价说,「阿里云能把通义千问 72B 这么大尺寸的模型都开源出来,说明在开源上是有决心、能持续投入的。」

在生态方面,颜鑫也说出了自己的考量,「我们希望选择主流的、稳定的模型架构,它能最大限度发挥生态的力量,匹配上下游的环境。」

这其实也是通义千问开源模型的优势所在。由于开源比较早,阿里云的开源生态其实已经初具规模,通义千问开源模型累计下载量已经超过 150 万,催生出了几十款新模型、新应用。这些开发者给通义千问提供了来自应用场景的充沛反馈,使得开发团队能够不断优化开源基础模型。

此外,社区内相关的配套服务也是一个有吸引力的点。陈俊波提到,「通义千问提供了非常方便的工具链,可以让我们在自己的数据上快速去做 finetune 和各种各样的实验。而且通义千问的服务非常好,我们有任何需求都能快速响应。」这是当前大部分开源模型提供者所做不到的。

Yann LeCun:
开源对 AI 发展和社会发展都有好处

不知不觉,ChatGPT 已经发布一周年了,这也是开源模型奋力追赶的一年。在此期间,关于大模型应该开源还是闭源的争论也一直不绝于耳。

在前段时间的一个采访中,Meta 首席科学家、图灵奖获得者 Yann LeCun 透露了他一直以来致力于开源的理由。他认为,未来的 AI 将成为所有人类知识的存储库。而这个存储库需要所有人为其做贡献,这是开源才能做到的事情。此外,他之前还表示,开源模型有助于让更多的人和企业有能力利用最先进的技术,并弥补潜在的弱点,减少社会差距并改善竞争。

在发布会现场,阿里云 CTO 周靖人重申了他们对开源的重视,称通义千问将坚持开源开放,希望打造「AI 时代最开放的大模型」。看来,更大的开源模型可以期待一波了。
产业阿里云Qwen-72B通义千问
相关数据
周靖人人物

中国科学技术大学毕业,获哥伦比亚大学计算机博士学位,前微软研发合伙人。2016年07月06日,周靖人已证实加盟阿里巴巴集团,任职阿里云首席科学家,将带领阿里云中美两地的研发团队,总体负责阿里云大数据平台和人工智能研究机构iDST的科研工作。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
推荐文章
暂无评论
暂无评论~