Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

2024年AI趋势看这张图,LeCun:开源大模型要超越闭源

能感受到其中的趋势吗?

2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。

开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来经验的表现,让我们刮目相看。

开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展,给专有模型带来了强有力的挑战,能够改变大型科技公司的竞争格局。

不过此前人们的想法大多只是来自于「感觉」。今天早上,Meta 首席 AI 科学家、图灵奖获得者 Yann LeCun 突然发出了这样的感叹:「开源人工智能模型正走在超越专有模型的路上。」

图片

这张由方舟投资(ARK Invest)团队制作的趋势图,被认为很有可能是对 2024 年 AI 发展做出了预测。它描绘了开源社区与专有模型在生成式 AI 上的发展。

图片
随着像 OpenAI 和 Google 这样的公司变得越来越封闭,越来越少地公开他们的最新模型信息,开源社区及其企业支持者 Meta 似乎正紧随其后,使得生成式 AI 的访问更为民主化,这可能对专有模型的商业模式构成挑战。

在这个散点图中显示了各种 AI 模型的性能百分比。专有模型用蓝色表示,开源模型用黑色表示。我们可以看到不同的 AI 模型如 GPT-3、Chinchilla 70B(谷歌)、PaLM(谷歌)、GPT-4(OpenAI)和 Llama65B(Meta)等在不同时间点的性能。

Meta 最初发布 LLaMA 时,参数从 70 亿到 650 亿不等。这些模型的性能非常优异:具有 130 亿参数的 Llama 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 Llama 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。

Falcon-40B 刚发布就冲上了 Huggingface 的 OpenLLM 排行榜首位,改变了 Llama 一枝独秀的场面。

图片

Llama 2 开源,再一次使大模型格局发生巨变。相比于 Llama 1,Llama 2 的训练数据多了 40%,上下文长度也翻倍,并采用了分组查询注意力机制

最近,开源大模型宇宙又有了新的重量级成员 ——Yi 模型。它能一次处理 40 万汉字、中英均霸榜。Yi-34B 也成为迄今为止唯一成功登顶 Hugging Face 开源模型排行榜的国产模型。

如散点图所示,开源模型的性能在不断追赶专有模型。这可能意味着在不久的将来,开源模型有望在性能上与专有模型平起平坐,甚至超越。

就在上周末,Mistral 8x7B 用最朴素的发布方式以及强大的性能,让研究者评价道:「闭源大模型走到结局了。」

图片

有网友已经开始预祝 「2024 年成为开源 Al 年」,「我们正在接近一个临界点。以目前开源社区项目的发展速度,我们将在未来 12 个月内达到 GPT-4 的水平。」

图片

接下来开源模型的未来是否坦途一片,又会有怎样的表现,我们拭目以待。

图片

参考内容:
https://twitter.com/ylecun/status/1734377019608014956
产业Yann LeCun开源模型
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

推荐文章
暂无评论
暂无评论~