真实信息发现任务及方法介绍

1 引言

人们在日常生活中会遇到这样的问题,爱地理的同学搜索“珠穆朗玛峰的高度”时,会面临“8848.13米”、“8844.43米”和“8848米”等多条信息;操心娱乐圈的同学搜索“晓明的身高”,也会困惑于“1.79米”、“1.81米”及“1.72米”等多个答案。面对同一个对象(object),多个信息源可能提供相互矛盾的信息或陈述(statement)。如何从多信息源的矛盾信息中识别真实信息,是一个有实用价值的研究问题。学术界将该问题称为真实信息发现,英文名称为Truth Discovery或者Truth Finding。该研究任务的输入是对物体或事件的描述信息,系统对信息进行可信度评估、从而筛选出真实信息。

由于数据融合的应用需求,真实信息发现的研究多集中于结构化数据,重点关注信息源可靠性与信息可信度之间的相互作用及信息自身难易程度等。近些年对非结构化数据如自然文本的真实性评估的研究也日益增多[1,2]。这类研究往往面对更丰富的证据信息,比如原文中表示肯定程度的语气词、上下文相关信息及文中包含的URL等。然而更丰富的背景信息也会引入更多地噪声及不确定性,如何在具体研究场景(如社交媒体)下对众多因素进行分析利用,是有意义的研究方向,如社交媒体上的谣言检测[3]。以下内容主要针对结构化数据的研究进行总结,包括信息可信度的影响因素及相关模型算法、我们在此任务上的研究进展及目前公开的常用数据集。


2 信息可信度的影响因素及相关模型算法

我们引用Li等人的综述论文[4]中的表格对信息可信度的相关影响因素及模型算法进行分析介绍。

表1 真实信息发现方法对比(输入数据及信息源方面)

表2 真实信息发现方法对比(陈述对象、信息及输出方面)

输入数据:多数方法均能够处理类别型数据(如性别),少数方法同时能够处理连续型数据(如身高)。当结构化数据来源于信息抽取系统或其他具有不确定性的获取方式时,对输入数据的不确定性[5]给予考虑是有必要的。在该任务上大量有标注数据的获取十分困难,绝大多数方法采用半监督及无监督方法进行预测。

信息源:信息源的可靠性是影响信息可信度最重要的因素。在其相应的研究中,Dong等人提出了信息源之间相互拷贝行为也影响着信息源的可靠度,进而提出了AccuCopy方法。

    

陈述对象:陈述对象包含实体及属性,如“晓明的身高”。陈述信息的对象有两个因素影响着信息的可信度,陈述对象的难易程度和陈述对象之间相关性。如果一个信息源对较难回答的问题(陈述对象)给出了正确的信息,则应该比正确回答一个简单问题赋予更高的可靠度增量。这一思想在算法3-Estimates中有所体现。不同陈述对象之间存在语义相关性,如“珠穆朗玛峰的海拔”与“珠穆朗玛峰的高度”的相关信息的可信度应具有一致性。这一思想在算法Investment及PoolInvestment中有所体现。

    

陈述信息:在只包含单一属性信息的数据中,研究者认为一个信息源提供了一个属性值,意味着不支持其他属性值,在信息可信度计算过程中对其他信息具有抑制作用。

    

输出数据:对包含多属性的信息的可信度评估方法还未得到展开,目前LTM算法对该问题有所研究。

3 我们最新研究进展

图1 基于记忆网络机制的反馈神经网络框架图

由于神经网络模型对数据潜在的规律有很好的抽象学习能力,我们提出了针对真实信息发现任务的基于记忆网络机制的反馈神经网络模型(如上图)。记忆网络的优势是对长期记忆进行存储和寻址更新。由于该任务上,信息源可靠度与所发布信息的可信度之间存在相互影响,信息源的可靠度对所发布的所有信息均有影响。本模型将信息源的可靠度进行向量化表示,并作为记忆进行长期存储。当信息的可信度发生变化时,记忆单元中的信息源的可靠度也随之修正。本模型中采用LSTM完成对信息的表示和真实值的预测。LSTM通过输入门i、遗忘门f及输出门o控制前序信息的隐含层对当前信息的抽象表示的影响。由于本任务中对同一对象的不同陈述信息的可信度是相互影响的,其影响的具体机制及程度,我们希望通过数据驱动的方式自动学习。LSTM模型的特点与本任务的需求相契合,我们采用基于记忆网络的LSTM模型完成对真实值的预测。

记忆网络(MemoryNetwork)由记忆存储单元(M)及四个模块构成,包括输入模块(I)、生成模块(G)、输出模块(O)及反馈模块(R)。

●记忆存储单元存储长期记忆,能够被生成模块进行改写。本模型中用于存储信息源的可靠度。

    

●输入模块对输入的样本进行抽象的向量表示。本模型中一轮输入(x1, x2,… , xt, …, xk)一组信息源关于同一个对象的不同陈述信息,其中向量xk表示信息源t的陈述信息。实验中陈述信息的数据为结构化数据<对象,属性,属性值>,形式如<珠穆朗玛峰,高度,8848>。模型运行中,xt由对象、属性及属性值对应的词向量连接起来。

    

●生成模块基于新的输入,对记忆单元进行更新。

●输出模块基于输入及记忆单元产生模型内部向量空间的表示。该模型中,输出为隐含层向量。应用于该任务,每个隐含层向量的物理意义为该条陈述信息的可信度的向量化表示。

●反馈模块将输出的内部向量空间表示转化为特定的模型输出,可以理解为将理解后的抽象记忆转化为具象的表示[6]。

模型中三类门向量及LSTM特有的记忆单元c及隐含层变量h的计算公式如下:

实验数据集:在两个公开数据集(股票数据集和航班数据集)上进行了模型的有效性验证。股票数据集有来自55个信息源的120余万股票信息;航班数据集有来自38个信息源的27万航班信息。

评价指标:具体包括错误率和MNAD两项指标。错误率指对类别型数据进行预测的错误率,值越低说明实验效果越好。MNAD(Mean Normalized Absolute Distance),平均正则化绝对值距离,用于评价连续型数据预测值与真实值的差距,值越低越好。

实验结果:我们将反馈式记忆网络模型(Feedback Memory Network, FBMN)与包含目前最好方法CRH的多个经典基线方法进行了对比。由于神经网络模型以往未被用于该任务,我们将FBMN与基本的神经网络模型LSTM及Bi-LSTM也进行了对比。实验结果如下表所示,能够看到我们的方法FBMN好于CRH及其他经典基线方法。细致分析,首先基本的神经网络方法在航班数据集上均好于包括CRH在内的非,在股票数据集上对连续型数据的预测效果好于CRH。这说明神经网络方法适用于解决真实信息发现任务。FBMN好于其它方法,说明运用记忆网络机制能够更好的将信息源可靠度与信息可信度相结合,对真实值进行预测。

表3 真实信息发现实验结果

4 常用数据集[7]

作者: 哈工大SCIR博士生 李璐旸

References

[1] X. Dong, E. Gabrilovich, G. Heitz, W. Horn, N. Lao, K.Murphy, T. Strohmann, S. Sun, and W. Zhang. Knowledge vault: A web-scaleapproach to probabilistic knowledge fusion. In Proc. of the ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining (KDD'14), pages 601{610, 2014.

[2] D. Yu, H. Huang, T. Cassidy, H. Ji, C. Wang, S. Zhi,J. Han, C. Voss, and M. Magdon-Ismail. The wisdom of minority: Unsupervisedslot _lling validation based on multi-dimensional truth-fnding. In Proc. of the International Conference onComputational Linguistics (COLING'14), 2014.

[3] Qazvinian V, Rosengren E, Radev D R, et al.Rumor has it: identifying misinformation in microblogs[C]// Conference onEmpirical Methods in Natural Language Processing, EMNLP 2011, 27-31 July 2011,John Mcintyre Conference Centre, Edinburgh, Uk, A Meeting of Sigdat, A SpecialInterest Group of the ACL. 2011:1589-1599.

[4] Li Y, Gao J, Meng C, et al. A Survey onTruth Discovery[J]. Acm Sigkdd Explorations Newsletter, 2016, 17(2):1-16.

[5] J. Pasternack and D. Roth. Making better informed trustdecisions with generalized fact-finding. In Proc.of the International JontConference on Artificial Intelligence (IJCAI'11), pages 2324{2329, 2011.

[6] http://www.ccraft.cc/news/2016/10/29/318735.html

[7] Li Y, Gao J, Meng C,et al. Truth Discovery Algorithms: An Experimental Evaluation[J]. Acm SigkddExplorations Newsletter, 2015, 17(2):1-16.

本文来源于哈工大SCIR

原文链接点击即可跳转

入门理论综述数据挖掘真实信息发现
哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

推荐文章
返回顶部