无监督的单词嵌入从材料科学文献中捕获潜在的知识
绝大多数科学知识以文本形式出版,难以通过传统的统计分析或现代机器学习方法进行分析。相比之下,材料研究界机器可解释数据的主要来源是结构化属性数据库,它只包含研究文献中的一小部分知识。除了属性值之外,出版物还包含有关作者解释的数据项之间的联系和关系的宝贵知识。为了改进对这些知识的识别和使用,一些研究侧重于使用有监督的自然语言处理从科学文献中检索信息,这需要大的手工标记数据集训练。一篇来自劳伦斯伯克利国家实验室的最新论文研究表明,出版文献中存在的材料科学知识可以被有效地编码为信息密集的词嵌入,而无需人工标记或监督。在没有任何明确的化学知识插入的情况下,这些嵌入捕获了复杂的材料科学概念,例如元素周期表的基本结构和材料中的结构 - 性质关系。此外,科学家还证明无监督方法可以在发现之前几年推荐用于功能性应用的材料。这表明关于未来发现的潜在知识在很大程度上嵌入过去的出版物中。此项研究结果强调了以集体方式从大量科学文献中提取知识和关系的可能性,并指出了科学文献挖掘的一般方法。