Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

国内百模大战正盛,海致科技推出首个知识图谱融合大模型应用平台

从 ChatGPT 引发的大众追捧到 “百模大战”,大语言模型和生成式 AI 正在以前所未有的速度改变人类的生活和生产方式。全球用户很快发现,在与大语言模型交互的过程中,会碰到它 “一本正经的胡说八道”,输出似是而非甚至荒谬的结果,这也在不断引发 C 端用户 “调侃” 大模型的 “狂欢”。然而,这种被称作 “大模型幻觉” 的技术特点却阻碍了它在 B 端和工业界的应用与发展。

9 月 8 日下午,中国工程院院士、清华大学计算机系教授、海致科技首席科学家郑纬民在北京演示发布了由海致科技与高性能图计算院士工作站共同开发的 “Atlas LLM 知识图谱与大模型融合应用平台”,该平台面向广大 B 端用户,运用知识图谱这项人工智能基础技术,帮助大模型在企业级和工业界应用中克服 “幻觉”,实现基于行业与场景的精准推演。

海致科技知识图谱与大模型融合应用平台正式发布

该产品目前已经在能源、金融、政务等领域的场景中进行部署和应用,力图打通通用人工智能进入 B 端和工业应用的 “最后一公里”。

日前,由中国电子技术标准化研究院、全国信标委等单位发起,海致科技全程参与的《知识图谱与大模型融合实践报告》也已经正式发布,上述成果以及部分应用案例也将为业界共享,推动更多市场主体和技术力量参与到通用人工智能的多技术融合之中。

大模型有 “幻觉” 知识图谱开药方

海致科技首席科学家郑纬民院士致辞

“当大模型从 C 端走向 B 端,它就像从玩具走向工具,而工具的精确性至关重要。写文章时查询爱因斯坦提出相对论的时间错了不太要紧,但是如果大模型对电网故障的维修提出了错误的选项,结果可能是一场灾难。” 海致科技首席科学家郑纬民院士在接受记者采访时表示:” 短期来看,单纯依靠大模型自身的迭代,‘幻觉’问题难以解决,在这方面,知识图谱作为更加类脑的人工智能工具,其精确的知识推导能力就可以跟大模型构成非常好的相互补充,反过来,大模型的快速学习能力,对于知识图谱的知识生成也产生了很好的促进。“

语言模型(LLM)所表现出的跨领域通用性、快速自主学习和自我改进的能力无疑是革命性的,也已经为人们广泛认知。但由于它的基本工作方式是分析文本中的词汇、句法结构、语义信息等,并捕捉它们之间的模式和概率分布,因此,它更倾向于基于统计规律生成回答,而非进行深入的逻辑推理或形成高级的认知能力。另外,它在生成文本时可能会受限于训练数据中存在的偏见和误导性信息,在某些情况下可能会产生不准确或不合理的回答。对于这种基于技术特征产生的瑕疵,人们将其形象比喻为 “大模型幻觉”。这种不期而遇的 “幻觉” 正是以大模型为代表的通用人工智能进入严谨 B 端应用的最后、也是最大的挑战。

在这一背景下,另一种被广泛应用的人工智能基础技术 —— 知识图谱,开始展现出它与大模型天然的互补能力。知识图谱作为公认 “类脑” 的知识表达方式,通过对语义网络进行建模,以结构化的形式描述客观世界中实体及关系,被广泛应用于知识推理。基于知识图谱的知识推理在离散符号表示的基础上,通过推理路径、逻辑规则等辅助手段,对推理过程进行解释,为实现 “可解释人工智能” 提供了重要途径。

由郑纬民院士担任首席科学家的海致科技,创业已有十年历程,是国内目前规模最大、应用客户范围最广的知识图谱和图计算公司。在金融、政务、能源、交通等领域拥有丰富而广阔的知识图谱应用经验,并推出了全球领先的国产分布式云原生图数据库 Atlas Graph,作为中国数据库代表入选 Gartner《全球图数据库管理系统市场指南》,填补了国产分布式图数据库的空白。

2022 年 10 月,郑纬民院士带领设立在海致科技的 “高性能图计算院士工作站” 的年轻科学家,开始跟踪全球各种大模型研发动态,致力于将知识图谱与大模型在技术上进行深度结合,并将其在一些金融、能源、政务企事业单位部署试用。瞄准 B 端行业客户长期积累起来的庞大结构化数据体系、计算分析应用体系,郑院士和海致创新性地将知识图谱作为中介桥梁,打通既有数据体系与大模型的连接,全面提升大模型在行业落地的可解释性、可交互性和可验证性。

人工智能发展的一个标尺是对人脑智能的学习。我们看来,知识图谱的严谨推演类似人类的左脑,而大模型快速学习的认知跟右脑的灵动颇为类似。” 郑纬民表示:“我们的产品就是要用一套知识映射、校验、优化的架构打通左右脑,推动通用人工智能深入企业级场景应用。”

实现大模型应用质量与效率的平衡

海致科技 CTO 杨娟发布知识图谱与大模型应用产品

“我们不生产大模型,我们致力于将大模型应用于生产。” 海致科技 CTO 杨娟博士介绍说,海致 Atlas LLM 大模型融合应用平台有三个非常独特的定位:一是在全过程实现了知识图谱与大模型的交互,有效克服大模型幻觉对工业应用的干扰;二是更好管理了客户已有的丰富的数据资产,将其与大模型成果统一整理,避免重复造轮子,使得计算更高效,应用更精确;三是能够帮助客户切换和灵活应用不同的开源大模型,实现更高性价比的场景应用。

海致科技副总裁瞿珂展示知识图谱与大模型应用产品

海致科技高级副总裁瞿珂为我们列举了该上述平台已经验证的一个工业场景:在工业制造设备运检领域中,复杂生产系统的故障识别因其故障组合类型复杂、数据异构、以及要求反应速度很快,一直是人们对人工智能寄予厚望的领域。“过去我们通过利用知识图谱技术,可以将设备间关系以及关联设备量测信号构建成故障知识特征子图来帮助机器自动实现故障识别,但是这一过程需要业务专家配合技术人员开展大量的实体构建和配置工作为先决条件,才能实现知识生成。但是今天我们可以通过大模型极大地提高这一知识抽取和融合的过程效率,一方面,通过大模型对故障设备及关联量测值的快速提取,帮助知识图谱完成特征图的快速构建,提高效率;另一方面,也可以通过业务专家对大模型自动生成的特征图进行更为高效的校验,固化和校准故障特征的经验知识,确保质量。”

企业 “大模型” 入门 “三步走”

在大模型时代,行业企业客户关心的另外一个重点,是未来的发展到底要用大模型彻底推翻旧的计算分析体系?还是基于已有计算分析体系的一次升级?海致科技立足客户业已建立的庞大计算分析应用和业务小模型,按照 “基础场景识别 + 综合场景编排 + 场景固化发布” 的逻辑,实现了大模型应用的 “三步走”:

第一步:将客户已有计算分析和业务小模型的基础场景服务通过大模型微调,对场景语义进行标注识别,并形成基础服务场景库。

第二步:基于多个基础服务的综合应用高阶场景,结合对应 Prompt 语义,运用大模型推理能力,对计算调用和计算逻辑进行智能化编排。

第三步:通过大模型编排,生成场景编排知识图谱,并基于知识图谱的可观测解释性和可交互操作性,实现对复杂场景大模型编排结果的观测和人工校验调优,形成对应语义的场景知识稳定固化和对外发布能力。

目前,海致已经实现了基于行业客户已有计算分析多能力的基础场景识别,复杂场景编排和基于知识图谱的知识可观测、固化校验及发布能力,使大模型能够在已有计算分析知识和图谱固化场景两个 “准确性控制” 下,达成以大模型推理生成为核心的精准计算问答。

入门海致科技
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

场景识别技术

场景识别是一类很常见的图像处理任务。就是给一张地标图像,快速准确地识别出这张图像的场景,识别的结果既可以是具体的地理位置,也可以是该场景的名称,还可以是数据库中的某个同样的场景。

推荐文章
暂无评论
暂无评论~