哈工大SCIR正式对外发布金融事理图谱Demo V1.0

知识图谱等现有知识库普遍以名词性实体为核心,聚焦于实体及其关系的挖掘,无法很好地表示事件之间的事理逻辑关系。针对知识图谱的这一局限性,哈工大社会计算与信息检索研究中心提出了事理图谱的概念,并基于大规模财经新闻文本构建了一个金融领域事理图谱。本文中我中心正式对外发布该金融事理图谱Demo(http://eeg.8wss.com)。

一、事理图谱相关概念介绍

知识图谱为代表,现有的大型公开知识库普遍是以“实体及实体间的关系”为核心,缺乏对“事理逻辑”知识的挖掘。我们认为事理逻辑(抽象事件之间的演化规律和模式)是一种非常有价值的常识知识,挖掘这种知识对我们认识人类行为和社会发展变化规律非常有意义。基于此背景,我中心提出了事理图谱(Event Evolutionary Graph)的概念。结构上,事理图谱是一个有向有环图,节点代表抽象事件,有向边代表事件之间的顺承、因果等事理逻辑关系。本质上,事理图谱是一个事理逻辑知识库,描述了抽象事件之间的演化规律和模式。图1中总结了事理图谱和知识图谱的区别与联系。

图1. 事理图谱和知识图谱的区别与联系

二、金融事理图谱的构建

基于上述对事理图谱概念的定义,我们在金融领域语料上进行了探索与实践,经过多次迭代与完善,构建了一个金融领域的事理图谱。构建该金融事理图谱所用的语料为腾讯、网易、和讯等网站的财经新闻文本,以及人民日报、中国青年报等多家报纸的开放领域新闻文本。构建该图谱用到了事件抽取、因果关系抽取、相似事件识别等关键技术。目前该金融事理图谱中含有约134万事件节点(用一个短语或句子来表示事件)以及约140万的因果关系。从该图谱中随机选取1000条因果关系对进行人工评价,因果事件关系抽取准确率达到了72.5%。

三、金融事理图谱Demo使用说明

基于上述构建的金融领域事理图谱,我们开发、搭建了相应的前端展示平台,供用户浏览和使用。我中心在此正式发布该Demo,地址为http://eeg.8wss.com。鉴于该Demo的展示特点,建议大家在电脑网页端进行浏览,效果较好。用户可以点击页面右上方的“使用说明”来了解Demo的使用方法。下面对该Demo的使用进行简要说明,主要有以下功能:

1. 输入事件进行搜索查询

用户在搜索框中输入,或者从候选事件列表中选择一个事件(例如“通胀”,“粮食减产”,“人民币升值”等),并点击提交按钮后,系统会自动在数据库中进行精确匹配,如果没有精确匹配结果则会进行模糊匹配。如果有匹配结果,则会在网页灰色区域呈现一个围绕输入事件扩展开的事理图谱子图。默认情况下,该子图围绕输入事件向外扩展3层。该子图可以用鼠标拖动灰色区域移动位置,用鼠标滚轮实现缩放。如图2所示,是提交“人民币升值”事件后显示的结果,图中用不同的颜色区分了不同的显示元素:红色节点为输入的核心事件,黄色节点和绿色节点表示围绕核心事件展开的事件节点;蓝色箭头有向边连线从原因事件节点指向结果事件节点,橙色无向边连接两个相似事件。

图2:金融事理图谱页面结构

2. 点击事件节点向外扩展

除默认显示的事件节点和关系以外,用户可以用鼠标双击任一事件节点,来向外扩展默认显示的子图。如果能够继续向外扩展,双击后则会显示扩展后的结果。如图3所示,在“通胀”事件扩展出的子图中,双击“货币贬值”事件,则“货币贬值”事件节点会变为红色,并以其为中心向外扩展一层。

图3:鼠标双击事件节点继续向外扩展

3. 查看因果事件关系所在的上下文

用户可以将鼠标移动到某条蓝色因果关系边上时,右侧会显示出抽取该因果关系时的上下文。如图3所示,将鼠标移动到“生产成本上涨”à“生猪价格猛涨”的蓝色有向边上时,会在右侧深灰色区域显示该条因果事件对所在的上下文。

图4:查看因果上下文

四、总结     

本文中我中心正式对外发布金融事理图谱Demo,地址为:

http://eeg.8wss.com

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

产业金融事理图谱
3
相关数据
网易机构

网易成立于1997年6月24日,是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

https://www.163.com/
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

推荐文章
暂无评论
暂无评论~