Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

方尹、张强、陈华钧等机器之心专栏

AAAI 2022 | 浙大提出KCL: 化学元素知识图谱指导下的分子图对比学习

来自浙江大学的研究者通过领域知识来指导分子图对比学习。

近年来,生物医学领域开始将分子图表示学习应用于生物医药相关的多种下游任务,例如分子属性预测和药物设计。图对比学习方法无需设计复杂的预训练任务,通过从大规模无监督数据中挖掘自身监督信息来学习图的表示。与图像不同,分子图上的对比学习方法面临独特的挑战。首先,图的结构和语义信息在不同领域中差异显著,因此难以设计通用的图增强方案。尤其是对于分子图,化学键或官能团的添加或删除将在很大程度上改变分子的身份和特性。目前图对比学习的大多数方法主要关注图的拓扑结构,很少考虑图中蕴含的领域知识。另一个易被忽略的问题在于,分子图中的原子通常被建模为只有彼此之间存在化学键时才会产生联系的个体,未能考虑原子之间隐含的关联性(例如,具有相同性质的原子之间的共性)。

为解决以上问题,来自浙江大学的研究者通过领域知识来指导分子图对比学习

首先,为了建立元素之间的微观联系及各元素的基本领域知识,该研究基于化学元素周期表,构建了化学元素知识图谱 (Chemical Element Knowledge Graph)。如下图所示,化学元素知识图谱描述了元素(图中绿色部分)之间的关系及其基本的化学性质(例如,周期性、金属性,图中红色部分)。

图片

化学元素知识图谱建立了未通过化学键相连但化学性质有所关联的原子之间的联系

然后,该研究通过化学元素知识图谱指导原始分子图的图增强过程,有助于在不相邻但具有相同性质的原子之间建立联系。通过这种方法,增强的分子图既包含拓扑结构知识,又具备元素基本的化学领域知识。基于该化学元素知识图谱,本文创新性地提出一种知识增强的分子图对比学习框架 Knowledge-enhancedContrastive Learning (KCL)。KCL 利用化学元素知识图谱指导原始分子图的增强过程,并针对分子增强图设计了知识感知的消息传递网络 KMPNN,通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失以优化模型。实验结果表明,KCL 在涵盖不同分子属性的 8 个数据集上获得了 SOTA 性能。

图片

  • 论文地址:https://arxiv.org/pdf/2112.00544.pdf

  • 数据集及代码:_https://github.com/ZJU-Fangyin/KCL_


方法

图片

KCL 框架图

具体来说,KCL 框架分为三个模块。

(1)知识指导的图增强 

知识指导的图增强模块利用化学元素知识图谱指导原始分子图的增强过程,使分子增强图不仅包含拓扑结构知识,还包含元素的基本领域知识。

Chemical Element KG Construction: 该研究从化学元素周期表中获取所有化学元素及其基本化学性质。每个元素具有 15 个以上的性质,包括金属性、周期性、状态、重量、电负性、电子亲和力、熔点、沸点、电离、半径、硬度、模量、密度、导电、热量和丰度。提取出的三元组以 (Gas, isStateOf, Cl) 的形式存在于 KG 中,代表元素和性质之间存在指定的关系。

图片

化学元素知识图谱的统计信息

Graph Augmentation: 对于原始分子图中的每一个原子,找出在化学元素知识图谱中将该原子作为尾实体的三元组。将这些三元组中的头实体作为新节点,关系作为头实体(性质)和尾实体(元素 / 原子)之间的边,获得分子增强图。分子增强图作为原始分子图的正样本,包含更丰富复杂的信息,能够捕捉原子之间的微观联系。

(2)知识感知的图表示 

知识感知的图表示模块针对分子增强图设计了知识感知的消息传递网络 KMPNN,以更好的传递和融合增强图中两种不同类型的知识。

Knowledge Feature Initialization: 该研究采用常用的 KGE 方法,RotateE,对分子增强图中性质和关系节点进行初始化。

KMPNN Encoder: KMPNN 针对不同类型的邻居,提供了两种不同类型的消息传递,并根据邻居的重要性程度为其分配不同的注意力。通过 KMPNN,可获得分子增强图的表示。算法 1 描述了 KMPNN 的编码过程:

图片

知识感知的消息传递网络 KMPNN 的编码过程

GNN based Encoder: 对于原始分子图,采用 GNN 模型学习其表示。

(3)对比目标 

对比目标模块通过最大化正样本对之间的一致性和难负样本对之间的差异性构建对比损失,以优化表示模型。

Projection Head: 将原始分子图和分子增强图的表示映射到同一潜在特征空间,以便计算对比损失。

Negative Mining: 利用难负样本挖掘技术,选择在分子指纹空间中距离相近的分子图及其分子增强图作为负样本。

Contrastive Loss: 一个训练批次中某分子及其分子增强图所构成的正样本对的损失函数可表示为:

图片


实验 

(1)数据集

为了验证 KCL 的效果,该研究在 MoleculeNet 的 8 个基准数据集上进行评测,数据集具体信息如下所示:
图片
数据集信息

(2)实验结果 

该研究分别在 fine-tune protocol 和 linear protocol 两种设定下进行了实验。实验表明,KCL 在两种设定下均比以往分子图表示学习方法效果更佳。
图片
Fine-tune protocol 效果
图片
Linear protocol 效果

总结与展望

本文旨在将基本化学领域知识融入分子图表示学习中。该研究构建了化学元素知识图谱以建立元素之间的微观联系,并提出一种知识指导的分子图对比学习框架—KCL。实验证明了 KCL 在 fine-tune protocol 和 linear protocol 两种设定下的有效性,并表明 KCL 相对以前的方法具有更好的可解释性和表达能力。

该研究将在以下几个方面扩展此工作。将引入不同粒度的领域知识以丰富化学元素知识图谱;将使用更深层次的知识表达手段,如 OWL2,为化学元素知识图谱加入描述逻辑;将发布多语言版本的开放数据集,持续更新化学元素知识图谱
理论浙江大学分子图对比学习
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

推荐文章
暂无评论
暂无评论~