柯基数据来源

企业知识图谱落地案例分享

从一开始的Google搜索,到现在的聊天机器人、大数据风控、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文通过分享企业知识图谱落地案例,以通俗易懂的方式来讲解知识图谱是如何帮助企业快速解决问题的。

1、什么是知识图谱

知识图谱,如下图所示,每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系。

这样,2019新型冠状病毒感染肺炎的相关知识就以结构化的形式记录下来。

数据角度:是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是”实体-属性-关系”,构成网状的知识结构,融合碎片化的信息,建立领域知识模型,挖掘复杂的关联关系和传递影响,辅助智能决策

技术角度:是一套工程技术,包括知识抽取、知识表示、知识存储、知识推理、知识检索、知识问答等一系列技术

(营养健康知识图谱2、知识抽取

知识抽取是实现自动化构建大规模知识图谱的重要技术,其目的在于从不同来源、不同结构的数据中进行知识提取并存入知识图谱中。

知识抽取的概念最早在 20 世纪 70 年代后期出现于 NLP 研究领域,是指自动化地从文本中发现和抽取相关信息,并将多个文本碎片中的信息进行合并,将非结构化数据转换为结构化数据。(如图1)

(图1)知识抽取子任务(如图2):

1、命名实体识别: 发现实体名称,并将其进行分类

2、实体关系抽取:识别抽取实体及实体之间的关系

(图2)知识图谱的数据抽取包括面向结构化数据的知识抽取、面向半结构化数据的知识抽取、面向非结构化数据的知识抽取。(如图3)

(图3)面向结构化数据的知识抽,垂直领域的知识往往来源于支撑企业内部系统的关系数据库

面向半结构化数据的知识抽取,是从百科数据中抽取知识。

面向非结构化数据的知识抽取,是从文本中抽取实体信息元素,包括人名、组织机构名、地理位置、时间、日期、 字符值和金额值等。

3、新冠肺炎知识图谱智能防控解决方案

2020年,一场猝不及防的新冠肺炎病毒疫情袭来。

对于疫情防控来说,面对传播速度如此快速的病毒,“早发现、早隔离”是最简单有效的疫情防控手段。而知识图谱技术可以在疫情期间,帮助各企事业单位有效的做好疫情防控工作。

案例背景:

对于疫情防控来说,尤其是像新冠病毒这样新发病毒,疫情传播速度快,“早发现、早隔离”是最简单有效的疫情防控手段。理论上来讲,只要找到确诊病例和该病例接触的所有人员,并对他们采取合理的治疗和隔离措施,就能阻断疫情扩散,最终随着所有病人治愈或者死亡,疫情就可以结束。但是现实情况是,病毒有潜伏期,在确诊之前病人因为正常的工作生活需求,会接触大量的人,这其中除了家人、同事、朋友等熟人之外,也会通过乘坐公共交通工具、购物、游玩等和陌生人产生交集,加大了病毒传播的风险,而被感染的人又会在确诊前有可能传染给更多人,“人传人”的扩散很容易让感染人数呈指数级增长。因此快速准确的找到确诊病例的密切接触人员,圈定可能的扩散群体和小区,对这些人群和小区采取必要的隔离消毒措施是关键。

但是从国家和地方政府的角度,既要打赢疫情阻击战,也要考虑对经济发展、百姓就业的冲击程度,这也是在疫情还没有结束的情况下各地也开始积极复工的原因,经济行为需要人的活动,人的活动是疫情传播的前提,两个相互制约因素的平衡,让各级部门的疫情防控工作更加依赖科学的决策和有力的执行。国家在疫情防控方面也提出了要充分利用大数据、人工智能技术,加强疫情溯源和监测。在人工智能技术中,知识图谱作为认知智能的关键技术可以发现数据中的关联关系并构建网络,基于图结构进行分析计算的特长,为疫情防控的政府、疾控中心提供防控措施的分析提供辅助。

应用场景:

通过病人的LBS数据,同时结合政府调研的病例的家庭数据、外出、乘车、购物等数据,以确诊病例为中心,结合疑似病例数据,辅助防疫人员

1、快速筛查可能的直接和间接接触人群列表,通过电话机器人进行自动确认,分级隔离

2、查找患者传播链,找到超级传播者进行重点关注

(疫情防控知识图谱实现精准防控业务架构)基于知识图谱的分析:

利用知识图谱认知智能技术实现疫情精准防控,提高疫情防控的及时有效性,降低疫情对经济、生活的影响。

1. 超级传播者识别:按照世卫组织标准,将病毒传染给十人以上的病人是超级传播者,早期发现、及时诊断和严格管理超级传播者对于传染病的防控非常重要,所以这个分析将有助于疾病防控人员及早发现并处理。

2. 确诊病例之间传播特征分析:通过知识图谱直观展示确诊病例之间的接触关系,例如同住(多为家人或者酒店)、同行(公共交通工具)、购物(购物场所)、游玩(公园等游乐场所)、就医(医院)等。方便流行病学调查人员研判疫情传播途径、传播能力,为疫情的隔离措施、公众防护提供指导。

3. 确诊病例传播方向冲突检测:在确诊病例中,传播途径只能是从一个病例传给另一个病例,不存在一个病例从两个病例传入的情况,即如果图谱中发现一个病人有两个及两个以上入度,即可认为这个确诊病例图谱中该病人的相关传播时序有错误,可以提醒流行病学调查人员进行补充调查,直到图谱中不存在冲突的错误为止。

4. 疫情传播的本地扩散分析:在疫情传播中,可以把传播超过2度(例如由病例1传给病例2,由病例2传给病例3,由病例3传给病例4,则传播为3度)的情况突出显示出来,因为传播链条长,显示本地的疫情防控措施薄弱,需要本地防控部门及早发现问题,堵住漏洞。(早发现、早隔离)

5. 隔离人群和区域分析:以确诊病例为中心,可以把所有接触的人进行划分,1度的密切接触人,密切接触人的2度接触人,以及其它更多度的接触人,可以根据疫情防控的需要对不同级别的人群采取不同的隔离措施,同时对于确认病例及1、2度接触人所在的小区进行不同等级的消毒、防护措施。有助于精准施策,降低疫情防控对老百姓生活的影响。

基于知识图谱的智能问答:

柯基数据联合中国疾控中心的权威专家们联合开发了新冠肺炎智能问答小助手。

为了提供准确可靠的智能问答服务,我们的技术人员根据一些行业相关知识进行了初步语料训练。同时确定了可靠的新冠肺炎防控的知识来源,主要是中国疾控中心官网、中国疾控中心公众号、健康中国公众号、公众防护指南、官方的诊疗方案等专业机构的权威发布渠道。对这些来源的知识基于专家认可的知识分类和模型,对内容进行切分,同时借助标注以及分类,形成便于运维的标准问答对,以及知识来源的原始文章访问或者附件形式。经过初步的知识覆盖以后,进行模型训练和测试,根据测试结果进行调优、语料扩充、同义词补充、缩写的覆盖、标注知识的完善等。经过多轮训练以后,达到满意测试准确率以后,实现发布上线。

问答系统前端通过H5页面接入到中国疾控慢病中心的公众号,提供肺炎疫情问答的服务,可以方便向普通人群、患者、医生各类用户提供服务。

对上线后问答系统的运行情况进行监控,收集所有问答过程数据,对于用户反馈不满意以及系统无法给出答案的提问情况重点关注,通过不断补充知识内容、优化问题答案查找,提升系统提供的问答准确度。

(新冠肺炎智能问答小助手业务架构)
(新冠肺炎智能问答小助手界面)

4、基于知识图谱的智能客服机器人

南京柯基数据科技有限公司是一家致力于通过知识图谱技术构建大数据关联挖掘平台,已帮助赛诺菲、勃林格、九阳等数十家医药大健康企业打通内部数据孤岛,接入海量公开非结构化数据,建立关联知识库,将数据的价值最大化。

其中九阳集团,通过一段时间对知识图谱平台的应用,已从企业自身内部使用,逐渐变为商用。

(九阳健康管家界面)
(健康管家知识图谱
面向用户的九阳产品知识图谱,支持了智能客服机器人全年无休,秒级精准应答,还支持了人工坐席服务效率提升数倍,有效帮助九阳客服部门减员增效,提升用户满意度。

未来,九阳产品知识服务中台,还将扩展产品食谱,产品短视频等内容服务,更好的服务于用户,同时助力市场导购,电商客服等一线销售岗位提高服务效率,提升成交转化率。

(基于知识图谱的智能客服)

5、结语

知识图谱是一个既充满挑战而且非常有趣的领域。只要有正确的应用场景,对于知识图谱所能发挥的价值还是可以期待的。我相信在未来不到2,3年时间里,知识图谱技术会普及到各个领域当中。

产业知识图谱
2
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~