自然语言处理领域的进展(四)机器阅读

本文译自:Julia Hirschberg, Christopher D. Manning. Advances in Natural Language Processing. Science Magazine 2015. vol. 349 no. 6245 (261-266). 译者:朱海潮(哈工大SCIR硕士生)。


文字对智慧有很大的启迪作用。所谓机器阅读,即是使机器变得聪明,并且可以通过阅读和理解大量文字来有效地整理和总结人类所需要的信息。


在人工智能发展的早期阶段,研究人员倾向于通过以形式逻辑语言来手工构建大规模结构化知识库并开发自动推理方法的方式从知识中获取事实,进而实现智能机器。然而,随着现代化互联网络的出现,我们所面对的是大量的以人类语言编码的巨大在线信息库。其中一个典型的例子就是科技文献,在那里研究成果以文本语言的形式被完整的报道(通常附带图表)。对于宽泛的知识也同样如此,现实中有很多类似于维基百科26样式的知识库。科技文献的数量正在快速增长:例如,美国国家医学图书馆Medline系统中的索引规模呈指数级增长27。即使在狭小的专业领域,科学家们也无法跟上这样的增长速度。因此,为了理解和总结文献,以及从这些文献中提取事实和假设,针对机器阅读的需求逐步提升。

机器阅读最初的目标是提取基本事实,最常见的是获取两个实体之间的关系,例如“哪两个实体具有子女关系”(例子:比尔·克林顿和切尔西·克林顿)。此问题通常被称为关系抽取。针对特定领域关系,已经构建了大量的成功系统。其中一种技术即是使用符合语言学表达的手写规则来描述实体关系(例如,一条规则为:<人>的女儿,<人>)。通过使用机器学习能够获得更好的结果,例如,结构化的预测分类器能够通过从词序列和句子的语法结构中提取特征来获取具有类似关系的样例28,29。这类系统是诸如生物医学等领域中应用的文献事实提取工具的支柱30,31。

在许多科学领域,人们把大量的精力放在从文本形式的科学记录中构建结构化的信息知识库,比如生物医疗领域的基因本体数据库32和存储化石记录的古生物学数据库33。通常,这些数据库都是由经过训练的专业人士相互协作手工构建的。使用人工智能软件从这些数据库中抽取信息,同时进行后续的推理和假设生成,已经成为了一个主要的研究目标。在基因组药理学领域中,研究人员非常积极的跟进研究这些问题34。比如,佩尔卡等人35基于从文献中抽取出来的药物与基因互作用(基因如何影响身体对药物的反应)的描述,训练了一个药物间互作用模型,并且能够预测新的药物间的互作用。

如一个像Freebase36,Dbpedia37,Wikidata38或者基因本体数据库32一样的部分知识库已经从生物医学研究文章中被抽取出来,那么就有机会自动地把知识库中的已知事实和这些事实在文本中的表达对齐。之后,映射中的类别标签就像有监督的数据一样可用在基于机器学习的信息抽取系统中(图4)。这种方法被称为远距离监督关系抽取。早期系统将实体对齐并且做出朴素的假设,即包含实体对的句子覆盖了数据库中这两个实体的已知所有关系39。更多的近期系统已经使用了更加复杂的基于概率的推理来区分哪些从句对应是知识库中的哪些事实,或一些其它的外部信息40,41。DeepDive系统是该方法近期的一个激动人心的应用42,该系统的目的在于通过提供大规模学习和推理机制,将上述系统的构建过程自动化。这样一来,用户只需要将精力放在提取领域相关的特征上即可。最近的结果表明,应用于化石记录的PaleoDeepDive系统能够比维护PaleoBiology数据库的科学志愿者们更好的从期刊文章中抽取事实43。



图4. 远距离监督学习 

在这个方法中,以结构化知识表示的事实被映射为提及知识库条目表中的人物、地点和日期等的文本片段。这种映射虽然是有噪声的,但在文本规模非常时能够提供足够的信号来学习一个好的文本关系抽取分类器。[图片来源:澳大利亚国家图书馆, http://nla.gov.au/nla.pic-an12267621]

如果不要求语义的精确性,这种以从任意文本片段中提取所有关系为目标的方法更加有通用性。此种关系抽取方法被定义为开放域信息抽取(Open IE) 44。早期的工作强调开发简单、可大规模进行事实抽取同时不需要任何手工标注数据的技术45。随着计算能力的提升,第二代工作更加强调仔细的运用通过精细的NLP技术抽取得到的可靠的语言学结构46。

当前,还有一些尝试是探索进一步增强机器建立和使用来源于文本信息的知识库的能力。在47中,一个令人振奋的通用方案被发布出来,它能够将推理和知识补全同步进行。推理和知识补全既可以用于存在于开放域信息抽取任务中的开放集文本关系(例如“出生于”)上也可应用于数据库中的精确模式(例如“城市_出生”)上。即使使用所有的文本挖掘技术,所得到的知识库也是片面的和不完整的。一些近期的工作探讨了如何以概率的形式去补全知识库,它们提供了一种常识推理的方式来对知识库进行补全48。当然,最后,我们希望能够超越对关系、事件和事实的简单抽取,进而跨越到理解事件(例如因果)和复杂的多步过程之间的联系。在49中,Berant等人探索了如何理解生物过程中的多个步骤,并表明通过提取显式流程结构可以提高问答的准确性。机器阅读的另一个目的就是为问答系统提供支撑,使人们从已构造的知识库中获取答案。通过学习语义分析器,对这种系统的构建取得了重大进展50。

REFERENCES AND NOTES

26. Wikipedia, www.wikipedia.org/.

27. L. Hunter, K. B. Cohen, Mol. Cell 21, 589–594 (2006).

28. A. Culotta, J. Sorensen, “Dependency tree kernels for relation extraction,” in Proceedings of the 42ndAnnual Meeting of the Association for Computational Linguistics (Associationfor Computational Linguistics, Stroudsburg, PA, 2004), pp. 423–429.

29. K. Fundel, R. Küffner, R. Zimmer,Bioinformatics 23, 365–371 (2007).

30. J. Björne et al., Comput. Intell.27, 541–557 (2011).

31. S. Van Landeghemet al., PLOS ONE 8, e55814 (2013).

32. M.Ashburner et al. The Gene Ontology Consortium, Nat. Genet.25, 25–29 (2000).

33. PaleoBiology Database, https://paleobiodb.org/.

34. A. Coulet, K. B. Cohen, R. B. Altman, J. Biomed. Inform. 45,825–826 (2012).

35. B. Percha, Y. Garten, R. B. Altman, Pac. Symp. Biocomput.2012, 410–421 (2012).

36. Freebase, www.freebase.com/.

37. dbpedia, http://dbpedia.org/.

38. Wikidata, www.wikidata.org/.

39. M. Mintz, S. Bills, R. Snow, D. Jurafsky, “Distant supervisionfor relation extractionwithout labeleddata,” in Proceedings of the Joint Conference of the 47th Annual Meeting of theACL and the 4th International Joint Conference on Natural Language Processingof the AFNLP (Association for Computational Linguistics, Stroudsburg, PA,2009), vol. 2, pp. 1003–1011.

40. M. Surdeanu, J. Tibshirani, R.Nallapati, C. D. Manning, “Multi-instance multi-label learning for relationextraction,”in Proceedings of the 2012 Conference onEmpirical Methods in Natural Language Processing and Natural Language Learning(EMNLP-CoNLL), Jeju Island, South Korea, 12 to 14 July 2012 (Association forComputational Linguistics, Stroudsburg,PA, 2012), pp. 455–465.

41. B. Min, R. Grishman, L. Wan, C.Wang, D. Gondek, “Distant supervision for relation extraction with anincomplete knowledge base,” in Proceedings of NAACL-HLT 2013, Atlanta, GA, 9 to14 June 2013 (Association for Computational Linguistics, Stroudsburg, PA,2013), pp. 777–782.

42. DeepDive,http://deepdive.stanford.edu/.

43. S. E. Peters, C.Zhang, M. Livny, C. Ré, PLOS ONE 9, e113523 (2014). 

44. E. Etzioni, M. Banko,M. J. Cafarella, “Machine reading,” in Proceedings of the 21st NationalConference on Artificial Intelligence (AAAI 2006), Boston, MA, 16 to 20 July2006 (AAAI Press, Menlo Park, CA, 2006), vol. 2, pp. 1517–1519.

45. M. Banko, M. J. Cafarella, S.Soderland, M. Broadhead,O. Etzioni, “Openinformation extraction from the web,” in Proceedings of the 20th InternationalJoint Conferenceon ArtificalIntelligence (IJCAI 2007) (Morgan Kaufmann, San Francisco, 2007), pp.2670–2676.

46. O. Etzioni, A. Fader, J.Christensen, S. Soderland, Mausam, “Open information extraction: The secondgeneration,” in Proceedings of the 22nd International Joint Conference onArtificial Intelligence, Barcelona, Spain, 16 to 22 July 2011 (AAAI Press,Menlo Park, CA, 2011), pp. 3–10.

47. S. Riedel, L. Yao, A. McCallum, B.M. Marlin, “Relation extraction with matrix factorization and universalschemas,” in Proceedings of the 2013 Conference of the North American Chapterof the Association for Computational Linguistics(HLT NAACL 2013) (Stroudsburg, PA, 2013), pp. 74–84.

48. G. Angeli, C. D. Manning,“NaturalLI: Natural logic inference for common sense reasoning,” in Proceedingsof the 2014 Conference on Emprical Methods in Natural Language Processing,Doha, Qatar, 25 to 29 October 2014 (Association for Computational Linguistics,Stroudsburg, PA, 2014), pp. 534–545.

49. J. Berant, V. Srikumar, P.-C. Chen,A. Vander Linden, B. Harding, B. Huang, P. Clark, C. D. Manning, “Modelingbiological processes for reading comprehension,” in Proceedings of the 2014Conference on Emprical Methods in Natural Language Processing, Doha, Qatar, 25to 29 October 2014 (Association for Computational Linguistics, Stroudsburg, PA,2014), pp. 1499–1510.

50. A. Fader, L. Zettlemoyer, O.Etzioni, “Open question answering over curated and extracted knowledge bases,”in Proceedings of the Conference on Knowledge Discovery and Data Mining (KDD)(Association for Computing Machinery, New York, 2014), pp. 1156–1165. 


本文来源于哈工大SCIR

原文链接点击即可跳转

入门理论NLP知识图谱文本抽取
返回顶部