在上周以计算语言协会主办的自然语言处理实证方法大会(EMNLP)上,来自 MIT 的计算机科学与人工智能实验室研究者们凭借一个颠覆传统机器学习的信息提取新方法获得了最佳论文奖。点击这里下载此论文。
互联网上有大量有价值的信息是开放的,大部分都是纯文本形式的。回答无数问题所需要的数据——包括,特定化学物质的工业使用与疾病事件之间的关联,或者新闻报道模式与选民投票结果之间的关联——或许全都在网上。但是要从纯文本中提取并组织这些数据然后进行分析可能会非常耗时。
信息提取——或者自动分类数据项以纯文本储存起来——是人工智能研究的一个主要课题。在上周以计算语言协会主办的自然语言处理实证方法大会(EMNLP)上,来自 MIT 的计算机科学与人工智能实验室研究者们凭借一个颠覆传统机器学习的信息提取新方法获得了最佳论文奖。大多数机器学习系统依靠结合训练样本和对应的人类注解者提供的分类运行。例如人类可能为一组文本中的部分语音打上标签,机器学习系统会尝试识别解决歧义的模式——例如,当「her」是一个直接宾语以及当「her」是一个形容词时。
一般来说,计算机科学家会尝试用尽可能多的数据来训练机器学习系统。这通常会更有可能得到一个能处理棘手问题的系统。
相比之下,MIT 的研究者们在数据不足的情况下训练系统——因为在他们正在调查的这种情况下,这些已经他们可用的所有数据了。他们发现信息有限这个问题很容易解决。「在信息提取中,通常是在自然语言处理中,你有了一篇文章,你需要对这篇文章做任何能从中提取正确内容的事情,」该论文的另一个作者 Regina Barzilay 说。「这与你或我会做的事情都不同。当你阅读一篇你无法理解的文章时,你会上网搜一篇你能理解的」
基本上,这些研究者的新系统做的是同样的事情。一个机器学习系统会大概会为每一个分类分配一个置信度得分,这是统计学上的一个度量,用于测量分类正确的可能性,因为模式是从数据中得出的。用了这些研究者的新系统,如果信度得分太低,该系统自动生成一个网络搜索查询,然后从这些新文本中的一个文本提取相关数据,随后调和结果与最初的提取内容。如果置信度依然很低,它会移到下一个由搜索字符串抓取的文本。这个过程会一直持续下去。「这个基础提取器是不变的,」MIT 电子工程与计算机科学系的研究生 Adam Yala 说到,他也是这篇论文的合作者。「你会发现对于这个提取器来说,有些文本比较容易理解。所以如果你有一个非常弱的提取器,你就只管让它自己适应着从网络上找数据好了。」论文的第一作者 Karthik Narasimhan 补充道,他和 Yala 来自同一个系。
值得一提的是,该系统做的每一个决定都是机器学习的结果。该系统学习如何生成搜索查询,测量一个新文本与其提取任务相关的可能性,并确定出用于融合多次尝试提取的结果的最佳策略。
在实验中,研究者将他们的系统应用到两个提取任务,一个是搜集美国群众枪击事件数据,这是研究枪支管制影响的基本资料。另外一个是收集食品污染实例数据的任务。这两个任务是独立地训练其机器学习系统。
在第一个案例中,群众枪击事件的数据库是要求将枪手的名字、枪击事件发生地点、受伤及死亡人数都提取出来。在食品污染案例中,需要提取出来食品类型、污染类型和污染地点。每一个系统大约都是由 300 个文档训练出来。而对于这些文档,系统通过学习检索项目集群从而倾向于连接那些想要提取出来的数据条目。例如,群众枪击事件的枪手姓名总是和「警察」、「指认」、「被捕」和「被控」等词汇相关。在训练的过程中,系统要分析每一篇文章,平均来说它从每个网页提取 9 到 10 篇新闻文章。
研究者比较了他们的系统与用更传统的机器学习技术训练出来的几个提取器的表现。在这两个任务提取出来的每个数据条目中,新的系统要比以前的好得多,通常情况下效果要好 10%。宾夕法尼亚大学计算机科学助理教授 Chris Callison-Burch 说:「自然语言困难之处在于你能通过很多不同的方式表达相同的意思,建立语义理解模型的困难也在于要捕捉到所有这些变化。Barzilay 和她同事们的模型已经有这种超级智能的部分,它能够自己去查询可以让学习过程变得更加简单的信息。这非常智能并能得到充分地执行。
Callison-Burch 的团队正在使用结合了自然语言处理和人类评论的系统建立一个枪支暴力信息数据库,这一点很像 MIT 所训练的系统。「我们已经爬取了数百万新闻文章,然后通过分类器提取出和枪支暴力相关联的文本文章,随后我们再手工进行信息提取,如果能有一个像 Regina 那样的模型,我们就可以通过它预测已经标注的文章是否与之相关,这将节省我们非常多的时间,这也就是未来我很兴奋去做的一件事情。」
摘要:大部分成功的机器学习提取系统在运行时都可以访问一个大型文件集。在这项研究中,我们探索了获取并结合外部证据来提升多个训练数据稀少的域中的提取精确度。这个过程需要发布搜索查询,从新的来源中提取数据,并对提取的值进行调和,这一过程一直重复到收集到足够的证据为止。我们使用了一个强化学习框架,在这个框架中我们的模型会基于情境信息学习去选择最优的行动。我们还应用了一个 Q-network,训练它来优化一个奖励函数,这个奖励函数反映了提取精确度的同时还会惩罚额外的工作。我们在两个数据集上做了试验,一个是枪击案件,一个是食品掺假情况,证明了我们系统的表现显著优于传统的提取器,以及一个极具竞争力的元分类基线。