Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离

编辑 | 绿萝

手性分子的对映体分离在化学领域至关重要且具有挑战性,通常需要在不同的实验环境下进行大量的反复试验。

为了克服这一挑战,北京大学莫凡洋研究团队提出一个研究框架,该框架采用机器学习技术来预测对映异构体的保留时间并促进色谱对映体分离。建立了高效液相色谱中手性分子保留时间的文献数据集(CMRT 数据集)以应对数据采集的挑战。提出了一种分位数几何增强图神经网络(Quantile Geometry-enhanced Graph Neural Network,QGeoGNN)来学习分子结构-保留时间关系,对于对映异构体有较好的预测能力。

将色谱领域知识融入机器学习模型,实现多柱预测,为通过计算分离概率进行色谱对映分离预测铺平了道路。

研究表明,该研究提出的研究框架在保留时间预测和色谱分离条件预测方面表现良好,为机器学习技术在化学实验场景中的应用带来了新的视角,并提高了实验效率,从而加快科学发现的速度。

该研究以「Retention time prediction for chromatographic enantioseparation by quantile geometry-enhanced graph neural network」为题,于 2023 年 5 月 29 日发布在《Nature Communications》上。


化学机器学习面临的挑战

近年来,机器学习智能的快速发展为「化学机器学习」领域带来了繁荣,催生了分子特性预测、药物发现、逆合成分析等一系列应用。尽管已经发明了多样化的机器学习模型来满足许多研究场景的要求,但数据集生成和分子表示方面仍存在基本限制,这阻碍了机器学习和化学的整合。

数据集是机器学习的基础。不幸的是,由于化学中的实验属性,化学数据的生成通常既费时又费力。因此,科学家开发了结合自动化的高通量技术,以有效地积累标准化实验数据。然而,高通量系统通常价格昂贵且针对特定场景,难以推广到更广泛的领域。另一种方法是从已发表的文章中收集数据,但质量通常因客观因素而异。这意味着需要考虑数据的不确定性。

分子表示是另一个需要妥善处理的问题。化学分子通常有多种经典的表示方式,包括 SMILES、指纹和描述符。尽管这些方法在构建定量构效关系 (QSAR) 方面取得了令人满意的性能,但它们难以表示 3D 构象异构体相关的特性,如手性,这限制了它们的进一步应用。

手性分离是合成化学、材料科学和生物制药等领域中的一个重要问题。手性分离技术可以将一种化学物质中的多种手性异构体分离出来,从而获得高纯度的手性异构体,在制药、生物化学、农业化学等领域具有广泛应用。目前主流的手性分离方法之一是高效液相色谱(HPLC)。在色谱对映体分离中,实验条件的选择,包括 HPLC 柱类型、流速和展开剂比例,目前仍然是由经验和试错得出的。这是一个繁琐且耗时的过程,导致了实验效率低下与资源浪费。


图 1:色谱对映分离方案。(来源:论文)

幸运的是,图神经网络 (GNN) 的衍生物,包括几何增强图神经网络 (GeoGNN) 和 Uni-mol,试图结合 3D 信息来增强分子图表示。然而,训练需要海量数据,这在数据通常稀缺且昂贵的实验场景中是无法承受的。

机器学习辅助对映体色谱分离

针对上述痛点,研究团队采用机器学习技术来预测手性分子在高效液相色谱中的保留时间,并提出分离概率这一指标以辅助预测色谱手性分离条件。

为了解决数据采集的问题,该研究从 644 篇不对称催化文献中自动提取实验结果,建立了手性分子保留时间数据集(CMRT 数据集)。同时,该研究提出一种分位数几何增强图神经网络(QGeoGNN),用于学习分子结构与保留时间的关系。

为了拓展模型的实用性,色谱的领域知识被融入到机器学习模型中,实现了多柱预测。在此基础上,该研究进一步提出了分离概率指标,以衡量手性分子在给定条件下的分离概率,从而快速准确地预测最优的手性分离实验条件。


图 2:QGeoGNN 的构建。(来源:论文)

实验证明,QGeoGNN 在单柱和多柱预测中都具有较好的手性分子保留时间预测能力。


图 3:QGeoGNN 的单柱预测性能。(来源:论文)


图 4:在多柱预测中结合柱特征。(来源:论文)

此外,QeoGNN 可以快速灵活地预测多种条件下的分离概率,并通过比较推荐合适的条件,这将提高色谱对映体分离的效率。


图 5:色谱对映体分离概率评估的定义和应用。(来源:论文)

不足之处

目前,该研究还存在一些不足之处,有待进一步完善。

首先,由于数据是从现有文献中提取的,因此数据的代表性和质量不受控制,有时甚至存在偏差,这将影响机器学习模型的预测性能。

其次,由于缺乏文献中对同一分子报告的重复测试数据,从相似分子中学习数据不确定性。

第三,面对相似度低的陌生分子时,预测精度仍有待提高。

最后,可以进一步优化特征提取过程以更好地表示手性相关信息。

尽管存在这些局限性,但该框架极具潜力,可以通过更有效地确定色谱对映体分离中的适当实验条件来促进实验过程。

论文链接:https://www.nature.com/articles/s41467-023-38853-3

参考内容:https://www.eias.ac.cn/?p=1346

理论
暂无评论
暂无评论~