Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI4Science与LLM的碰撞:生物分子+文本的联合建模,人大高瓴、微软、华科、中科大团队最新综述

图片

作者 | 裴启智

随着大模型和 AI4Science 的蓬勃发展,越来越多的工作开始关注生物分子(Biomolecule)与自然语言(Language)的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述,增强模型对其的理解,提高生物分子属性预测等下游任务的效果,为全面表示和分析生物分子开辟了新的途径。

近日,人大高瓴联合微软、华科、中科大等机构发布了综述文章:《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》[1]。该综述从生物分子的表征方式、建模目标、表示学习、应用场景等方面出发,系统地总结了相关工作,以及可用的数据、代码、模型、benchmark。

图片

论文链接:https://arxiv.org/abs/2403.01528

GitHub链接:https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling

图片

图片

下面对各个章节进行简单展开

生物分子的表征方式

一般来说,文本、分子和蛋白质的模态有不同的表征方式,例如一维序列、二维图和三维结构。下图展示了不同模态及其表示方法的简单总结。文本通常使用一维序列来表示。而对于生物分子来说,通常有一维序列、二维图和三维结构的表示。另外,还有一些其他的表示,例如分子图像、分子指纹、蛋白质的 GO term 等等。

图片

联合建模的直觉和目标

生物分子和自然语言的联合建模可以克服传统生物分子表示固有的局限性。虽然现有的表示方法可以有效地捕获生物分子的固有属性,但它们往往忽略了丰富的外部知识,例如生物文献、数据库知识图谱

图片

而将生物分子与外部知识源联合建模的主要目标是开发能够理解和预测生物分子的复杂行为和相互作用的模型,包括表示学习、指令遵循和 Agent/Assistant 模型。此外,语言为生物分子设计提供了更灵活的媒介/接口。

通过生物分子和语言的联合建模,模型可以利用广泛的生物知识来完成生物分子相关的任务,从而能够对生物分子的生成和编辑进行更细致的控制。这种建模有助于探索广阔的分子空间,从而创造出具有所需特性的新型生物分子。

图片

模型架构

Transformer 架构是该领域大多数模型框架的基石。我们先介绍了传统的 Transformer 模型,包括 encoder/decoder-only 和 encoder-decoder 架构。此外,我们还探索了该领域一些 Transformer 变体。

比如 PaLM-E style[2] 模型,包括一个 external encoders、modality projector 和一个 base LLM。通过将生物分子和文本空间对齐,modality projector 可以从生物分子 encoder 中提取与文本相关的分子特征,从而使语言模型能够理解生物分子。PaLM-E style 模型不仅可以有效地利用预训练的生物模型,还可以使LM能够处理复杂的 2D/3D 生物分子图/结构。

此外还有 dual/multi-stream 模型,采用多个 encoder 来建模不同的模态,并且使用对比学习的训练目标来使得这些 encoder 的输出在同一个空间中对齐。

图片

表征学习

我们对训练任务和技巧进行了总结。训练任务包括掩码语言建模(MLM)、自回归预测(NTP)、跨模态一致性学习(CMA)、模态内部对比学习(SCL)。不同的任务适配不同的模型架构,用以增强模型对于单模态的理解和跨模态的对齐。

图片

训练的技巧和策略包括多阶段训练、多任务训练、LLM增强的训练、参数高效微调(PEFT)、零样本和少样本测试等。

多阶段训练通常需要两个以上阶段的训练,每个阶段都针对一个特定领域的数据。多任务训练试图在训练中使模型能够从不同的任务中受益,从而获得各种能力。LLM 增强的训练利用 LLM(例如ChatGPT)来增强生物分子的描述,这种数据增强策略可以使得下游模型更好地理解生物分子。参数高效微调(PEFT)方法对于大型模型节省计算成本非常重要。零样本和少样本测试可以很好地发挥预训练大模型的潜力。

图片

应用和相关资源

这种跨模态建模得到的模型可以完成各种生物相关的下游任务,例如生物分子性质预测、相互作用预测、生物分子反应相关的任务、文本-生物分子的相互检索和生成、生物分子优化等等任务。

同时,我们也总结了生物分子-文本联合建模领域的相关工作(代码、模型)、数据集、benchmark。

图片

图片

未来展望

文章就几个方面对未来的几个方向进行了展望,例如对生物分子进行专门的分词、生物数据的稀缺性问题、生物任务间的泛化、更好地利用现有LLM的方式(例如检索增强技术、上下文情境学习、思维链推理、工具学习等等),以及可能涉及到的道德和伦理问题。

参考文献

[1] Pei, Qizhi, et al. "Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey." *arXiv preprint arXiv:2403.01528* (2024).

[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." *arXiv preprint arXiv:2303.03378* (2023).

产业LLMAI4Science
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
推荐文章
暂无评论
暂无评论~