Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

化学能力超GPT-4,首个化学领域百亿级大模型,思必驰、上交大、苏州实验室联合发布

图片

编辑 | ScienceAI

2024年3月12日,思必驰-上海交大智能人机交互联合实验室、苏州实验室共同发布了首个针对化学科学的百亿级专业化大模型ChemDFM。

模型参数现已完全开源以帮助和促进大模型辅助化学科研领域的相关研究(https://huggingface.co/OpenDFM/ChemDFM-13B-v1.0)。

此外,ChemDFM的研究论文也已作为相关领域的第一篇研究论文于arXiv预印本网站上公开发表。

图片

论文链接:https://arxiv.org/abs/2401.14818

ChemDFM模型基于经典开源大模型LLaMa,引入了海量的化学基础与前沿知识,充分学习并掌握化学科学的专有语言与表达方式,最终以130亿的参数量在大多数化学相关的能力上超越了公认最强大的模型GPT-4。

此外,在进一步的评测中ChemDFM显示出了其他类似模型几乎不具备的结合内部知识理解和分析陌生分子的能力,实现了在面对陌生分子或者陌生反应时,结合相关的化学知识进行推理与回答。

模型构建

ChemDFM的构建主要由两个过程组成,领域预训练与指令微调,研究团队通过这两个阶段分别解决了大模型专业化过程中两个最主要的困难:通用大模型缺少专业知识以及难以理解专业语言。

通用数据所包括的化学专业知识是极其有限的,这导致了通用大模型所学习到的专业知识也极为有限。因此,研究团队收集整理了大量公开的论文数据,通过筛选最终得到了近400万篇化学及相关学科的论文。此外,考虑到论文更多的包含前沿和探索性的知识,研究团队还收集了大量化学课本及工具书等数据以提供基础性的知识。基于这些预料,研究团队构建了340亿词元的预料库对通用大模型LLaMa进行领域预训练。

除了专业知识外,具体的专业领域中往往包含迥异于自然语言的特殊表达方式或「语言」。在化学领域中,这一语言主要指的是化学分子与化学反应,他们所传达出的信息含量与密度往往远远高于自然语言。

为了帮助ChemDFM掌握化学分子与反应的理解能力,研究团队从最大的分子数据库之一——PubChem以及最大的化学反应数据库之一——USPTO中收集了大量的数据,围绕最常用的序列化表达三维分子的语法——SMILES,构建了170余万条的数据,覆盖了分子识别、性质预测、反应预测等多种不同的化学能力,用以ChemDFM的指令微调训练。

此外,自然语言的理解和对话能力是大模型能够处理和解决全新场景下的陌生问题的基础。因此,研究团队向领域预训练和指令微调的语料库中均引入了相当数量相应格式的通用数据,通过调整专业数据和通用数据的比例,最大限度的保持了ChemDFM的自然语言能力,实现了强大的结合化学知识分析陌生分子和陌生反应的能力。

图片

客观评测

为了评估ChemDFM在化学领域的专业能力,研究团队在六种任务上对其进行了全方位的评测,全面的展示了ChemDFM在分子的识别、性质的预测、反应的理解等方面的能力,体现了模型解决化学专业问题的潜能。

图片

评测结果显示,ChemDFM-13B在所有评测的任务中均表现优异,成绩远超LLaMa、Galactica等同等以上规模的开源大模型,在大多数任务上的成绩超过了GPT-4。考虑到GPT-4可能的模型规模,可以认为ChemDFM在化学专业领域内具有强大的理解、分析与推理能力。

主观评测

大模型辅助科学研究(AI for Science)的终极目标之一是构建能够辅助科研人员工作的智能体。要想达到这个目标,具有在真实场景下进行自由发散的对话形式人机合作的能力是必不可少的。

因此,仅能理解化学知识与化学分子是不够的,模型还需要能够识别并理解陌生分子与陌生化学反应,并运用学习到的化学知识进行分析推理。

为了验证ChemDFM及相关模型的这项能力,研究团队结合最新发表的化学论文构建了包含陌生分子与陌生反应的具体问题向大模型进行了提问,下图中展示了部分示例。

图片

评测结果显示,同等规模以上的开源大模型仅能理解并「记忆」相关的化学知识,当问题中包含了陌生的分子或反应时,难以生成针对性的解答,更不能对相关过程背后的反应机理进行分析。

GPT-4能够在一定程度上结合具体情况做出分析,但由于GPT-4的闭源性,无法判断训练数据中是否包含相关分子或类似问题。

而ChemDFM在很好的在分析理解题目中出现的陌生分子及反应的基础上,结合学习到的化学知识进行了具体的分析和解答,并成功的给出了相应问题解答中的关键点,且会进一步尝试分析反应机理。即使机理分析存在一定的细节错误,ChemDFM还是能总体上给出正确的答案。

综上,本项评测仅有ChemDFM显示出结合化学知识对陌生分子和反应进行分析和推理并最终给出有针对性的解答的能力。

图片

此外,ChemDFM还针对自由发散的人机对话进行了评测。在根据最新文献构建出的陌生科研情景下,ChemDFM给出了自己的建议,并根据人类的反馈进行了改进或细化,初步展示出了作为科研助手辅助科学研究的潜力。

总结和展望

ChemDFM不仅在多项不同角度的化学领域专业问题上显著提升了大模型的性能,同时展现出了在陌生场景下的自由发散的对话形式交互的强大能力。

ChemDFM初步实现了真正意义上的化学领域通用人工智能,为大模型辅助科学研究的进一步发展开启了新的探索方向和角度。

相信基于ChemDFM的进一步探索和完善,例如多模态的引入、领域工具的调用、幻觉的减少等,将加速智能化学科研助手的出现及自动化智能化的化学研究发展,从而缩短研发周期,降低研发成本,并最终助力药学、材料学等相关学科的全过程智能化以及高质高效的发展,创造不可忽视的社会效益。

理论
相关数据
思必驰机构

思必驰是国内领先的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代的人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT、以及众多行业场景合作伙伴提供自然语言交互解决方案。 思必驰拥有上千项知识产权,是国际上极少数拥有自主知识产权、中英文综合语音技术的公司之一;与阿里、腾讯、小米、富士康、OPPO、长虹、顺丰、龙湖地产等企业达成战略合作;旗下人工智能产业基金累计投资20+家生态企业。

http://www.aispeech.com/
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~