Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟编译

给几句话就能生成分子,看见分子也能生成描述,UIUC把多模态AI做成了黑科技

AI+science 领域近来有了诸多进展。

设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展,未来很有可能成为现实。传统意义上讲,药物创造通常依靠人工设计和构建分子结构,然后将一种新药推向市场可能需要花费超过 10 亿美元并需要十年以上的时间(Gaudelet et al., 2021)。

近来,人们对使用深度学习工具来改进计算机药物设计产生了相当大的兴趣,该领域通常被称为化学信息学(Rifaioglu et al., 2018)。然而,其中大多数实验仍然只关注分子及其低级特性,例如 logP,辛醇 / 水分配系数等。未来我们需要对分子设计进行更高级别的控制,并通过自然语言轻松实现控制。

来自伊利诺伊大学厄巴纳-香槟分校和 Google X 的研究者通过提出两项新任务来实现分子与自然语言转换的研究目标:1)为分子生成描述;2)在文本指导下从头生成分子。

图片

论文地址:http://blender.cs.illinois.edu/paper/molt5.pdf

图片

如下图所示,文本指导分子生成任务是创建一个与给定自然语言描述相匹配的分子,这将有助于加速多个科学领域的研究。

图片

在多模态模型领域,自然语言处理计算机视觉 (V+L) 的交叉点已被广泛研究。通过自然语言实现对图像的语义级控制已取得一些进展,人们对多模态数据和模型越来越感兴趣。

该研究提出的分子 - 语言任务与 V+L 任务有一些相似之处,但也有几个特殊的难点:1)为分子创建注释需要大量的专业知识,2)因此,很难获得大量的分子 - 描述对,3) 同一个分子可以具有许多功能,需要多种不同的描述方式,这导致 4) 现有评估指标(例如 BLEU)无法充分评估这些任务。

为了解决数据稀缺的问题,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其灵感来源于预训练多语言模型的最新进展(Devlin et al., 2019; Liu et al., 2020)。MolT5 首先使用简单的去噪目标在大量未标记的自然语言文本和分子字符串上预训练模型。之后,预训练模型在有限的黄金标准注释上进行微调。

此外,为了充分评估分子描述或生成模型,该研究提出了一个名为 Text2Mol 的新指标(Edwards et al., 2021)。Text2Mol 重新调整了检索模型的用途,以分别评估实际分子 / 描述和生成的描述 / 分子之间的相似性。

多模态文本 - 分子表示模型 MolT5 

研究人员可以从互联网上抓取大量的自然语言文本。例如,Raffel et al. (2019) 构建了一个 Common Crawl-based 数据集,该数据集包含超过 700GB、比较干净的自然英语文本。另一方面,我们也可以从 ZINC-15 等公共数据库中获取超过 10 亿个分子的数据集。受近期大规模预训练进展的启发,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其可以利用大量未标记的自然语言文本和分子字符串。

图 3 为 MolT5 架构图。该研究首先使用 T5.1.1(T5 的改进版本)的公共检查点(public checkpoints)之一初始化编码器 - 解码器 Transformer 模型。之后,他们使用「replace corrupted spans」目标对模型进行预训练。具体而言,在每个预训练 step 中,该研究都会采样一个包含自然语言序列和 SMILES 序列的 minibatch。对于每个序列来说,研究者将随机选择序列中的一些单词进行修改。每个连续 span 中的 corrupted token 都被一个 sentinel token 替换(如图 3 中的 [X] 和 [Y] 所示)。接下来的任务是预测 dropped-out span。

图片

分子(例如,用 SMILES 字符串表示)可以被认为是一种具有非常独特语法的语言。直观地说,该研究的预训练阶段本质上是在来自两种不同语言的两个单语语料库上训练一个语言模型,并且两个语料库之间没有明确的对齐方式。这种方法类似于 mBERT 和 mBART 等多语言语言模型的预训练方式。由于 mBERT 等模型表现出出色的跨语言能力,该研究还期望使用 MolT5 预训练的模型对文本 - 分子翻译任务有用。

预训练之后,可以对预训练模型进行微调,以用于分子描述(molecule captioning)或生成(如图 3 的下半部分所示)。在分子生成中,输入是一个描述,输出是目标分子的 SMILES 表示。另一方面,在分子描述中,输入是某个分子的 SMILES 字符串,输出是描述输入分子的文字。

实验结果

下表 1 为分子描述测试结果,研究发现,大的预训练模型在生成逼真语言来描述分子方面,T5 或 MolT5 比 Transformer 或 RNN 要好得多。

图片

下图 5 显示了几个不同模型输出示例。

图片

不同模型的生成结果示例(节选)。

通常 RNN 模型在分子生成方面优于 Transformer 模型,而在分子描述任务中,大型预训练模型比 RNN 和 Transformer 模型表现得更好。众所周知,扩展模型大小和预训练数据会导致性能显着提高,但该研究的结果仍然令人惊讶。

例如,一个默认的 T5 模型,它只在文本数据上进行了预训练,能够生成比 RNN 更接近真值的分子,而且通常是有效的。并且随着语言模型规模的扩展,这种趋势持续存在,因为具有 770M 参数的 T5-large 优于具有 60M 参数的专门预训练的 MolT5-small。尽管如此,MolT5 中的预训练还是略微改善了一些分子生成结果,尤其是在有效性方面的大幅提升。

下图 4 显示了模型的结果,并且按输入描述对其进行编号。实验发现,与 T5 相比,MolT5 能够更好地理解操作分子的指令。

图片

不同模型生成的分子示例展示。
理论自然语言分子科学Google X伊利诺伊大学厄巴纳-香槟分校
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~