Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蚂蚁「大图模型」研究,为图智能迈向AGI铺了一条新通途

2021 年 3 月,知名 IT 咨询公司 Gartner 在《2021 年十大数据和分析技术趋势》报告中表示,图技术已经成为很多现代数据和分析能力的基础,并预测到 2025 年,图技术将应用于 80% 的数据和分析创新。

同时,2021-2023 世界人工智能大会连续三年举办了图技术相关分论坛,引起了学界和业界的广泛关注和热烈反响。

不难看出,近年来图技术非常被看好。图技术一般指图数据管理和分析技术,研究客观世界实体之间的关系,涉及大量异构数据、存储和分析。包括图计算、图学习、图数据库等一系列与图技术原理相关的技术更汇聚形成图智能,并被认为是人工智能领域下一个前沿高地。

进入到了 2023 年,随着大模型成为人工智能发展的主流趋势,它们与图计算等图智能技术的融合成为全新的研究命题。近期,一些学者也开始关注大图模型概念,如清华朱文武教授团队最新论文《Large Graph Models: A Perspective》,介绍了大型图模型面临的挑战、机遇和应用前景。

我们不禁要问,图智能与大模型之间的关系如何处理呢?二者的融合最终会往哪个方向发展?这些问题或许只有经过学界与业界共同研究、探讨之后才能得到更全面、更可信、更有操作性的答案。

在上周由蚂蚁技术研究院和中国计算机学会数据库专委主办的 2023 外滩大会「新一代数据底座 —— 探索图智能的应用与发展」分论坛上,海内外顶尖专家、学者和从业者聚焦图智能领域的最新进展,对人工智能、大语言模型(以下简称大模型)与图智能技术的融合展开了深度解构。

图片                      蚂蚁技术研究院院长陈文光

推出大图模型,蚂蚁图智能先人一步

在这场论坛上,我们见证了图智能与大模型融合研究的一项重要成果。那就是蚂蚁推出的大图模型(Large Graph Model, LGM),它将图计算、图学习等图智能技术与大模型相结合,同时释放大模型的生成能力和图计算的关联关系分析能力,通过更直观、全面的信息呈现和更精准的洞察,更好地解决海量复杂的数字化应用难题。

在谈到为何会将图计算这一强大的数据处理技术与大模型这一最有可能走向通用人工智能的技术相互驱动、融合利用时,蚂蚁集团图学习高级技术专家刘永超表示,大模型虽可以推理出隐性关联关系,但无法绘制关系图,而使用图结构表示数据关系更便于理解。如果给大模型「配上」图计算,则先从海量信息中逻辑推理,再利用超级计算算出关系。「这类似于给人脑外接了一台超级计算机,能力更强了。」

他进一步解释称,大模型在本质上完成了对文字、图像、视频等数据的信息压缩。因此他们开始思考这种将高维空间数据压缩到低维空间的信息编码方式对研究图智能的启发。结果显而易见,蚂蚁将信息更丰富的图数据压缩到大模型中,打造出了大图模型。简单来讲,大图模型以图为核心,融合了预训练、LLM 和提示等技术构建的压缩图信息。

至于大图模型能解决哪些核心问题?刘永超总结了以下几点,一是解决数据稀少、多样性缺失、数据分布不均甚至数据隐私、安全、保密等问题,提升数据质量、多样性、公平性、安全性;二是通过快速的图样本生成,减少对耗时耗钱数据采集和标注的依赖;三是基于提示词能够发现和解释数据特性。

图片

                      刘永超

在大图模型研究中,蚂蚁一方面完成了第一阶段「生成式异质图增强」工作,也是业界首个,可以根据现有数据生成新的数据点。相关论文《Multi-Aspect Heterogeneous Graph Augmentation》被计算机顶会 WWW 2023 收录。另一方面通过 Prompt(指令或提示)引导模型学习和发现特定数据特性,加速数据分析和特性发现的过程。

蚂蚁内部也就 LGM 能做什么展开深层次业务实践探索,目前至少可以用作商业场景通用风险模型、全网账户画像基座模型和大规模图策略推荐。除了大图模型,刘永超还分享了图计算赋能大模型的工作,主要是图向量数据库和图增强的大模型。其中图增强的大模型使用图数据尤其是知识图谱,来辅助解决大模型遇到的幻觉、行为不对齐、有毒等难题。

大图模型的出现为大模型和图计算两个领域都带来了新的机遇,为两个领域携手发展提供了一条路径。一方面利用图计算补足大模型在图生成、推理、理解等方面的不足,提升解决图任务的效果。另一方面融入大模型更高效地助力破解图领域难题,为图智能走向通用人工智能提供一条可行性方案。可以说,蚂蚁率先开始大图模型的研究,充分体现了其在大模型时代把握技术潮流方面的前瞻性,也必将为图智能的进一步应用与发展带来助益。

其实在图计算领域,蚂蚁一直是引领者。作为国内最早研究图计算技术的企业之一,蚂蚁不仅构建了世界规模领先的图计算集群,还形成了一套以图数据库为底座、包含流式图计算、离线图学习的大规模图计算平台 TuGraph。TuGraph 曾三次打破图数据库权威测评 LDBC SNB 世界纪录,2021 年获得世界互联网大会「领先科技成果」奖,2023 年入选 IDC MarketScape 中国图数据库市场「领导者」象限。

蚂蚁积极把图计算能力向外开放。其中 TuGraph 平台中的图数据库 TuGraph DB 3.3 于 2022 年 9 月正式开源。此次论坛蚂蚁集团数据库开源负责人林恒分享了最新的 TuGraph-DB 4.0 版本以及蚂蚁全栈图智能计算架构。自开源以来,TuGraph-DB 经历了云上一键部署、Python 算法接口、POG 支持、图学习引擎、高可用等阶段,最终形成了 4.0 版本,并计划于 2024 年 1 月推出下一代存储引擎。

图片

                       林恒

那么,TuGraph-DB 4.0 具备哪些核心功能呢?第一点是支持标准化图查询语言 ISO GQL,它的定位可以类比 SQL 查询语言,极大地降低图的使用门槛;其次是高可用性,基于 RAFT 协议实现多活热备、一写多读,提供企业级的能力;接着是强大的图学习能力,和数据库结合后能够实时采样,兼容 DGL、PyG 等常见图学习框架;最后丰富了易用的接口,存储过程支持 Python、C++、Rust 等多语言。一切为了更简单易用、功能完备,并选择将一些企业级功能开放,完善生态建设。

回到蚂蚁内部,林恒表示正根据各业务的多样化需求来升级图数据库,对图的使用从以往的「散点式」发展为了「体系式」。升级后可以同时具备多源数据融合能力、HTAP 型图融合能力以及图智能、图挖掘能力,实现一库多能,提升交互体验。此外它作为蚂蚁图智能计算全栈解决方案的底层部分,连同图计算和统一 API 接口、一站式研发平台为实现丰富的图应用提供数据、算力和平台支撑。

目前,蚂蚁更多关注成熟的金融场景,比如风控、审计等。不过林恒也认为,图数据库具备的通用性可以在智能制造、CRM 等其他场景大显身手。同时持续关注图生态、行业标准等,其主导发起的全球首个金融图数据库测试基准 LDBC FinBench 已于今年 6 月正式发布,为金融行业提供了一个量化基准测试工具。

图技术一直在进步,并正在思考大模型时代如何演进

蚂蚁集团等业界探索图智能与大模型融合创新的同时,学界和科研机构也在推进图技术向前发展,寻找与大模型的契合点。

我们知道,任何数据都绕不开数据库管理系统(DBMS),图数据亦然。根据知名数据库流行度排行网站 DB-Engines 的统计,自 2013 至 2022 年,图数据库管理系统的受欢迎程度增长比任何其他数据库类别都快。图已经无处不在,但面临扩展性、可视化和查询语言等方面的挑战,学界研究的图与实际使用中的也存在脱节。这些都是流图(Straming Graph)类型兴起的原因。

对于图而言,加拿大滑铁卢大学教授 M. Tamer Ozsu 解释称,流意味着无界和高速度,流图也不等同于动态图。流数据不是静止的,而是流入一个系统,比如流音乐或流视频,这类系统被称为数据流系统(DSS)。DSS 与传统 DBMS 的最大区别在于瞬态数据可以通过持续查询生成连续的结果。数据流处理系统(DSPS)可能无法提供全部的 DBMS 功能,但几乎都具备扩展功能。

图片

                      M. Tamer Ozsu

对于流图,目前可以应用在电子商务欺诈检测(如信用卡欺诈)和网络入侵检测(如 DOS 攻击)。流图计算模型一方面是连续的,需要处理每条边以及线性空间;另一方面呈窗口化,使用窗口来批处理边缘。流图工作负载表现在两个方面,一是图查询,每个查询访问图的一部分。二是图分析,每个查询访问整个图。

如 M. Tamer Ozsu 教授最后所言,流图真实存在于现实生活的应用中,如实时决策。不过他也认为,我们并没有对流图面临的挑战(比如流的无界性)给予足够的重视。因此可以说,从静态图到流图,整个领域目前是开放的。

除了图自身的演进之外,在图发挥重要作用的知识图谱(KG)领域也迎来新的技术变革时刻。那就是在大模型时代,知识图谱如何把握新机遇并迎战新挑战。

对此,浙江大学计算机学院教授陈华钧指出,知识图谱是图智能的重要支撑技术。随着 ChatGPT 的兴起,人们开始关心知识图谱与大模型的关系。二者都是表示和处理知识的方法,只是在可解释性、知识类型和可计算性上存在差异。自然语言可以被人类理解,但不易于计算,催生了较容易计算处理的知识图谱。大模型虽易于计算处理,但完全不可理解,导致它们面临知识谬误、幻觉等问题。

这时出现一个值得深思的问题,大模型为了易于计算所付出的代价能不能通过知识图谱来弥补?陈华钧认为二者可以融合共同发挥作用。

一方面是大模型知识栈中的知识图谱,它通过知识增强和结构增强(引入不同类型的结构信号、从外部知识库检索)、知识图谱结合提示学习、知识编辑、思维链结构化、工具调用与增强、可控内容生成等方式,分别在大模型的预训练、适应与调整、应用与交互三个阶段发挥作用,有效提升模型训练以及对下游任务的泛化能力。

另一方面是知识图谱栈中的大模型,它有助于解决传统的知识图谱问题。GPT 等大模型具备较强的指令驱动型图谱构建和泛化抽取能力,对比传统图谱构建优势明显。此外利用结构化知识大模型可以执行知识图谱等结构化知识的逻辑查询、问答等操作。在推理时,大模型既可以作为知识图谱推理的自然语言交互接口以增强后者,也能将自身具备的推理与知识图谱推理实现交互增强。

图片

                      陈华钧

在陈华钧看来,大模型技术的发展代表了 AI 表示和处理知识能力的大幅提升。虽然会对知识图谱带来冲击,但随着其与语言模型的深层次融合,未来可能演进出一个全新的知识图谱技术方向。相较于表示知识有限的序列结构的自然语言,包含图的结构化描述更易于描述客观世界。因此,相对于大模型(LLM)而言,他认为我们更需要可以处理各种知识表示结构的大型知识模型(LKM)。

知识图谱与大模型的「互补共进」之外,聚焦于某个领域的图预训练大模型已经开始崭露头角。之江实验室图计算中心副主任陈红阳展示了面向生物制药领域的朱雀图预训练大模型,其潜在应用方向包括药物分子生成、药物性质预测、药物结构预测等。

不过想做生物制药 GPT 谈何容易,面临着很多挑战,比如如何应对生物领域的非欧结构数据、如何解决图神经网络过平滑和数据标签稀疏问题。图计算中心见招拆招,一一解决对应的问题,最终完成模型训练。整个大模型的训练很难,需要不断尝试。他们采取并行策略,已经进行了 128 张 DCU 卡的稳定性试验。目前正在扩展至 1024 张 DCU 卡,相应的端到端平台也将开源。

同时,之江朱雀图计算平台面向科学计算领域,尤其是天然拥有与图关联数据的计算育种、生物制药和量子化学。作为一站式平台,它在计算引擎、图存储、软硬件适配、计算资源等多方面都做了优化。陈红阳重点介绍了一些前沿图学习算法,其中自研孪生图神经网络 PSG 算法刷新国际顶级图学习榜单 OGB 挑战赛记录。此外基于平台在药物知识图谱、计算制药、高能物理、量子图机器学习等领域均有应用与创新。

图片

                      陈红阳

展望未来,陈红阳希望围绕图与科学计算(即 Graph4SCI)进一步探索,通过深入优化把软硬件协同和异构系统计算做得更好,争取实现更多的国产软硬件适配和算力加速。同时继续深耕图计算技术及气候、地理、生物和量子化学等领域应用,通过与更多企业、高校和科研机构共享数据、平台和算力,推动图智能在科学研究中进一步发展。

以上种种,我们可以看到,无论是知识图谱还是图计算,图技术一直在更迭变化之中,以适应不同科研领域及多样化应用场景的需求。更显著的一点是,人们已经开始思考如何将图与大模型融合,并付诸行动,从而能够把握住大模型引领的这股 AI 技术浪潮。

图智能 + 大模型:未来的路还很长

此次论坛出现了很多新的概念,比如大图模型、图预训练大模型以及大型知识模型等。我们从中可以看到这样一种趋势,自 ChatGPT 以来,包括图计算在内的很多技术领域或许都无法回避与大模型的融合研究。只有把握住这一技术奇点,才更有可能在原有技术范畴内进行革新,更高效地赋能业务实践。

可以预见,未来大模型和图智能技术结合的更多可能性将会被逐渐挖掘出来。正如陈文光所言,二者之间的关系是当前最重要的问题。在这个非常值得探索的发展方向上,需要包括蚂蚁在内的更多业界先行者持续创新图与大模型融合技术、构建平台、建设更广泛的生态。

未来的路虽然漫长,但对于蚂蚁来说,已经走出了领先的一步。相信未来大图模型应用的场景会越来越多,图智能领域也将一步步迈向自己的 AGI 时刻。

参考文献:

https://arxiv.org/pdf/2308.14522.pdf

https://www.gartner.com/cn/newsroom/press-releases/gartner_2021_

工程大图模型
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。 查询语言必须要能表达所有关系代数所能表达的查询,这样才被称为关系完整的。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

图生成技术

根据给定信息信息生成图表。

网络入侵检测技术

入侵检测是防火墙的合理补充,帮助系统对付网络攻击,扩展了系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应),提高了信息安全基础结构的完整性。网络入侵检测即基于网络的入侵检测,其他还有基于主机的入侵检测和基于混合的入侵检测。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~