Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

零一万物自研全导航图向量数据库,横扫权威榜单6项第一

3 月 11 日,零一万物宣布推出基于全导航图的新型向量数据库 「笛卡尔(Descartes)」,其搜索内核已包揽权威榜单 ANN-Benchmarks 6 项数据集评测第一名。

向量数据库,又被称为 AI 时代的信息检索技术,是检索增强生成(Retrieval-Augmented Generation, RAG)内核技术之一。对大模型应用开发者来说,向量数据库是非常重要的基础设施,在一定程度上影响着大模型的性能表现。

在国际权威评测平台 ANN-Benchmarks 离线测试中,零一万物笛卡尔(Descartes)向量数据库搜索内核登顶 6 份数据集评测第一名,比之前榜单上同业第一名有显著性能提升,部分数据集上的性能提升甚至超过 2 倍以上。

零一万物表示,笛卡尔向量数据库将用在近期即将正式亮相的 AI 产品中,未来也将结合工具提供给开发者。

向量数据库成 AI 2.0 基础设施
获资本市场青睐

随着大模型为代表的 AI 2.0 时代到来,图片、视频、自然语言等多模态的非结构化数据量陡增,区别于用来处理结构化数据的传统数据库。向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据;它就像一块外接的记忆盘,可供大模型随时调用,以形成「长期记忆」,也被昵称为大模型记忆的「海马体」。

大模型天然有四个缺陷,向量数据库就像是量身定制的「特效药」,能精准解决每个痛点。

  • 实时信息:大模型训练时间长,更新慢,无法反应最新的信息,其知识存在「截止期」的挑战。向量数据库采用轻量化更新机制,可以快速补充最新信息。
  • 隐私保护:用户的安全隐私数据不宜直接提供给大模型训练,否则会有泄密风险,向量数据通过在推理阶段扮演信息传递的中间载体,破解了隐私保护的难关。
  • 幻觉矫正:大模型常表现出的推理失真或产生幻觉的现象,可以通过向量数据库提供的丰富知识参照,有效矫正和减轻此类问题。
  • 推理效率:大模型推理成本高,向量数据库能够作为一种缓存机制,避免每一次查询请求都需要重新执行复杂的推理计算,大大节省了计算资源。

AI 2.0 掀起的科技变革和平台变革,进一步强化了向量数据库的作用。Google、微软、Meta 等大厂的相关产品先后问世,Zilliz、Pinecone、Weaviate、Qdrant 等创业公司也异军突起。2023 年,OpenAI 的向量数据库合作方 Pinecone 完成了 B 轮 1.38 亿美元融资,国内初创企业 Fabarta ArcNeural 也完成了上亿元 Pre-A 轮融资。
 
挑战权威榜单
包揽评测六项第一

ANN-Benchmarks 是当下业界最权威的向量数据库搜索内核性能测试工具,它可以展示不同算法在不同真实数据集下的表现。

在以下 6 份评测数据集涵盖 glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean 六大数据集,横坐标代表召回、纵坐标代表 QPS (每秒内处理的请求数),曲线位置越偏右上角意味着算法性能越好,零一万物笛卡尔向量数据库在 6 项数据集评测中都处于最高位。

图片

图片

图片

图片

图片

图片

                                      截至 3 月 10 日,ANN-Benchmarks6 项评测中,零一万物笛卡尔(Descartes)向量数据库均居第一

「吞吐量 QPS」 是衡量信息检索系统(例如搜索引擎或数据库查询处理能力的重要指标。在原榜单 TOP1 基础上,零一万物笛卡尔向量数据库搜索内核实现了显著性能提升,部分数据集上的性能提升超过 2 倍以上,在 gist-960-euclidean 数据集维度更大幅领先榜单原 TOP1 286%。

图片

                               零一万物笛卡尔向量数据库与原榜单 TOP1 QPS 性能对比

技术揭秘

令人好奇的是,笛卡尔如何实现上述优秀性能?

众所周知,RAG 是一种结合了检索和生成的技术,它通过从海量数据中检索查询到的信息,来增强语言模型的生成能力。和传统检索方法类似,从本质上讲,RAG 向量检索主要解决两大问题:

1. 通过建立某种索引结构,减少检索考察的候选集;
2. 降低单个向量计算的复杂度。

零一万物笛卡尔向量数据库在处理复杂查询、提高检索效率以及优化数据存储方面相比业界拥有显著的比较优势。针对第 1 个问题,零一万物团队有两大杀手锏:

图片

  • 领先的全导航图技术。目前业内现状主要通过哈希、KD-Tree、VP-Tree 等方式,导航效果不够精确,裁剪力度不够,零一万物研发的全局多层缩略图导航技术,图上坐标系导航,既能保证精度,又能裁剪大量无关向量。
  • 首创自适应邻居选择策略,填补业界空白。零一万物自研的自适应邻居选择策略,突破了以往仅依赖真实 topk 或固定边选择策略的局限,新策略使每个节点可以根据自身及邻居的分布特征动态地选取最佳邻居边,更快收敛接近目标向量,从而让 RAG 向量检索性能提高 15%-30%。

针对第 2 个问题,零一万物采用了两级量化方案增强 RAG。零一万物用两级量化降低计算复杂度,同时列式存储充分利用 SIMD 的并发能力,进一步发挥硬件能力,相比传统 PQ 查表,性能得到大幅提升到 2-3 倍。

除此之外,零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

全栈向量技术:精度更高、性能更强

通过上述全栈向量技术的加持,让零一万物笛卡尔向量数据库搜索内核不仅登顶权威榜单 ANN-Benchmarks6 项评测第一名。更在实际应用场景中具有精度更高、性能更强等核心优势。

零一万物笛卡尔向量数据库目前聚焦于高性能向量数据库。通常而言,高性能向量数据库可以轻松应对百分之八九十的日常场景,比如帮助企业客户构建私域知识库、智能客服系统;在自动驾驶领域,使用高性能向量数据库可来加速自动驾驶模型训练等。

零一万物高性能向量数据库具有以下优点:

  • 超高精度:基于多层缩略图和坐标系实现层间导航和图上方位导航,以及图连通性保障,实现精度大于 99%,相同性能下,精度大幅领先业内水平。
  • 超高性能:高效的边选择和裁剪技术,千万数据库 ms 响应。

以电商推荐场景为例,上架商品数量可能千万级,每个商品可以由一个向量表达。即使库中向量数不算很大,如果电商用户基数非常庞大,高峰时每秒用户请求数非常大,可能达到几十万甚至上百万的 QPS。使用高性能向量数据库可以有效提升电商场景里面搜索、广告业务的推荐效果,让大家忍不住一直买买买。

零一万物表示,笛卡尔向量数据库是团队基于 RAG 的初步尝试,将在近期发布的 AI 生产力产品中得到有效应用。未来各家大模型优化到一定程度后,向量数据库的能力可能决定各家大模型的天花板。零一万物后续会持续专注研发和分享,为用户带来更好的技术和体验。
产业笛卡尔(Descartes)向量数据库零一万物
1
相关数据
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~