Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

解开化学语言模型中的「黑匣子」,Transformer可快速学习分子的部分结构,但手性学习困难

图片

编辑 | X

近年来,自然语言处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的分子结构的文字表示。然而,关于这些模型如何理解化学结构的研究很少。

为了解决这个黑匣子,东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明,虽然 Transformer 可以快速学习分子的部分结构,但它需要扩展训练才能理解整体结构。

一致的是,从训练开始到结束,使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相似的。此外,发现 Transformer 需要特别长时间的训练来学习手性,并且有时会因对映体的误解而停滞不前,性能低下。这些发现有望加深对化学领域 NLP 模型的理解。

该研究以「Difficulty in chirality recognition for Transformer architectures learning chemical structures from string representations」为题,于 2024 年 2 月 16 日发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-45102-8

机器学习的最新进展影响了化学领域的各种研究,例如分子性质预测、能量计算和结构生成。

要在化学中利用机器学习方法,我们首先需要让计算机识别化学结构。最流行的方法之一是使用化学语言模型,这是一种自然语言处理 (NLP) 模型,其中包含表示化学结构的字符串,例如 SMILES。

很少有人研究化学语言模型如何理解极其多样化的分子结构,以及如何将化学结构和描述符联系起来。

在此,东京大学的研究人员通过比较模型及其描述符在训练的各个步骤中的性能来解决这个黑匣子,这阐明了哪些类型的分子特征可以轻松地纳入描述符中,哪些类型则不能。特别是,专注于最流行的 NLP 模型 Transformer,这是当今用于描述符生成和其他化学语言任务的良好利用的架构。

具体来说,研究人员训练一个 Transformer 模型来翻译 SMILES 字符串,然后比较不同训练步骤中预测与目标之间分子指纹的完美一致性和相似性。还利用模型在训练的不同步骤生成的描述符进行了 6 个分子性质预测任务,并研究了哪些类型的任务容易解决。

研究进一步发现,Transformer 的翻译准确率有时会在较低水平上停滞一段时间,然后突然飙升。为了弄清楚其原因,研究人员比较了 SMILES 每个字符的翻译准确性。最后,寻找并找到了防止停滞和稳定学习的方法。

主要研究结果如下:

1、为了了解 Transformer 模型如何学习不同的化学结构,研究人员首先通过比较不同训练步骤的模型来研究学习过程与模型性能之间的关系。在 Transformer 模型中,在训练的早期阶段就可以识别分子的部分结构,而识别整体结构则需要更多的训练。结合之前关于 RNN 模型的研究,这一发现可以推广到使用 SMILES 字符串的各种 NLP 模型。因此,使 Transformer 模型能够将整体结构信息作为其结构中的辅助任务来引用,将有助于改进描述符生成模型

图片

图 1:学习过程中 Transformer 的部分/整体结构识别。(来源:论文)

2、对于分子性质预测,Transformer 模型生成的描述符的性能在训练之前可能已经饱和,并且在后续的训练中没有得到改善。这表明初始模型的描述符已经包含了足够的下游任务信息,这可能是分子的部分结构。另一方面,也有可能下游任务,如分子的性质预测,对于 Transformer 来说太容易了,不适合评估基于 Transformer 的描述符生成方法。

图片

图 2:描述符在分子性质预测中的性能。(来源:论文)

3、与其他因素(例如整体结构或其他部分结构)相比,Transformer 在手性方面的翻译性能提升相对较慢,并且模型有时会长时间对手性产生混淆,导致整体结构识别持续停滞。这表明,向模型「教授」手性的额外结构或任务可以改善模型及其描述符的性能。

图片

图 3:不同初始权重下完美精度的停滞。(来源:论文)

图片

图 4:Transformer 的手性学习困难。(来源:论文)

4、引入pre-LN 结构可以加速并稳定学习,包括手性。

图片

图 5:通过引入 pre-LN 改善停滞和手性识别。(来源:论文)

最后,为了阐明关于 Transformer 的研究结果的普遍性,研究人员使用另一种分子表达来训练模型。使用 InChI 代替 SMILES,这是一些化学语言模型化学信息学研究中采用的分子的替代文字表示。

图片

图 6:通过 InChI-to-SMILES 翻译训练的 Transformer 模型的实验。(来源:论文)

结果显示,与完全精度和损失函数相比,部分精度和指纹相似度早期饱和,表明在 InChI 到 SMILES 翻译中,部分结构的识别比整体结构更容易。下游任务的性能并没有通过训练得到改善。

结果还表明,InChI 到 SMILES 的翻译确实出现了停滞,区分对映体的混乱导致了停滞。此外,pre-LN 的引入缓解了停滞现象。

这些发现有助于澄清化学语言模型中的黑箱,并有望激活这一领域。研究这些发现是否适用于具有监督性质的其他应用(例如结构生成和端到端属性预测)的化学语言模型是一项有趣的未来任务。

由于 NLP 是深度学习中最先进的领域之一,化学语言模型将得到越来越多的发展。另一方面,与化学领域流行的神经网络模型(如图神经网络)相比,语言模型与化学结构之间的关系存在许多未知因素。

对 NLP 模型与化学结构之间关系的进一步基础研究,有望进一步澄清 NLP 模型如何进化和识别化学结构的黑盒子,从而促进化学中各种任务的化学语言模型的发展和性能的提高。

理论Transformer语言模型AI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~