Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI搞科研?西湖大学发布「AI科学家」Nova,效果比SOTA竞品提升2.5倍

图片

编辑 | ScienceAI

伟大科学家的研究,往往开始于一个小的灵感、小的创意。

长久以来,科学创新与研究能力被视为人类在人工智能时代中坚守的一片独特领地。然而,一篇来自西湖大学深度学习实验室的论文在科学界掀起了波澜。

该论文揭示了一种前所未有的方法——利用大型语言模型来催生海量具有突破性的科学构想。仅需一篇前沿的学术文章作为引子,这一模型便能激发出几百个有创意的、高质量的科研 idea。

AI真的要取代人类科学家了吗?

西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校研发了「Nova大模型」,它能够生成大量突破性的科研 idea,在创新性、价值性、可行性等方面可以媲美甚至超过人类科学家。

图片

论文链接:https://arxiv.org/abs/2410.14255

思考:AI科学家真的要来了?

回答这个问题前,我们先来看看西湖大学蓝振忠团队的研究结论:

该团队提出的模型大大提升了顶级 idea 的生成能力。以最近 170 篇与大语言模型相关的论文(来自 ACL、ICLR、CVPR 等人工智能领域顶级会议)为测试集,Nova 模型生成的高质量想法的数量(根据 Si 等人在 2024 年提出的瑞士制排名赛评分来衡量)至少比全球顶尖机构(如斯坦福、微软)现有的模型多 2.5 倍。

图片

图示:Nova 与几个竞品的效果比较。(来源:研究团队)

模型之所以能够有效提升高质量想法的生成数量,是因为研究团队引入了一种增强的规划和搜索方法,用于提升大语言模型的能力。该方法能够帮助模型检索外部知识,逐步丰富想法,使其包含更广泛和深入的见解。

图片

图示:Nova Pipeline。(来源:论文)

为了验证「Nova大模型」的能力,研究团队进行了一系列测试,将得到的结果拿给身边的科学家看,他们都不敢相信这是AI创作的。

让我们通过几个具体的例子来进一步了解「Nova 大模型」是如何工作的。

例 1:癌症治疗研究者

提示词:假设你是一位致力于癌症治疗研究的科学家,正试图寻找一种新的治疗手段。你将一篇关于免疫疗法的论文输入 Nova 系统作为种子。Nova 随即生成了一些初步的想法,比如「结合 CRISPR 基因编辑技术和 CAR-T 细胞疗法,针对肿瘤微环境中的特定免疫抑制因子。」

接下来,Nova 通过迭代规划和检索机制,进一步细化和完善这些初步的概念。在这个过程中,Nova 不仅查阅了最新的研究进展,还借鉴了其他相关领域的知识,如纳米技术、蛋白质工程等。

最终,它形成了一个详细且创新的研究计划。这个计划不仅包括了理论上的设想,还包含了具体的实验步骤和预期的结果分析,使得研究者可以轻松地将想法转化为实际操作。

例 2:人工智能教育技术开发者

提示词:再假设你是一位专注于人工智能教育技术的研发者,你希望开发一种能够个性化教学的人工智能系统。你将一篇关于自适应学习算法的论文输入 Nova 系统作为种子。

Nova 随即生成了一些初步的想法,比如「结合情感计算自适应学习算法,开发一种能够感知学生情绪状态并相应调整教学策略的人工智能系统。」

Nova 会进一步细化和完善这些初步概念,比如引入情感计算技术来识别学生的情绪变化,并据此调整教学节奏和内容,使得教学更加个性化和有效。通过这样的迭代过程,最终形成一个既具有创新性又可行的研究方案。

通过这样的方法,Nova 不仅帮助科学家们找到了新的研究方向,还在教育技术领域发挥了重要作用。个性化的教学系统能够根据每个学生的具体情况调整教学策略,这对于提高教育质量和促进教育公平具有重要意义。

例 3:环境科学研究员

提示词:假设你是一位环境科学研究员,致力于开发新的可持续能源解决方案。你将一篇关于太阳能电池效率提升的论文输入 Nova 系统作为种子。

Nova 随即生成了一些初步的想法,比如「利用石墨烯增强太阳能电池的光电转换效率。」

接下来,Nova 通过检索最新的材料科学文献,进一步细化和完善这些初步的概念。比如,结合石墨烯的导电特性与太阳能电池的光电转换机理,设计一种新的太阳能电池结构。最终,形成一个既有科学依据又具有实用性的研究计划。

初心:为什么要研究「Nova 大模型」?

「我身边的科学家,包括我自己做科研这么多年了,有一个特别明显的感受,就是我们虽然做着最前沿的最具探索性的事情,但实际组织工作的方式却是非常传统的,甚至像是手工作坊。」蓝振忠说。

让我们来看一个科研工作者的一天是如何构成的。到了办公室,打开电脑开始看 paper,如果有了新的 idea 会记录下来,查阅相关资料,看是否有人已经在做这个方向。深度阅读 1-2 篇 paper,一上午就过去了。下午,开组会,讨论上午想出来的 idea,与团队一起头脑风暴,探讨可行性。

这一天的效率已经够高了,但是这样的工作模式可能远跟不上有价值的 paper 的产生速度。况且,接下来有很多伟大的创新会诞生于跨学科领域,Idea 的产生同样受到科学家学科背景、过往经验的限制。

如果我们有一个 AI 模型,可以帮助科学家提升效率,那科研的进展会不会突发猛进?

有了 Nova 大模型后,科研工作者的一天可能会这样度过。大模型可以迅速阅读最新的 Paper,帮助科研工作者提取其中的关键信息,根据提取的信息,生成多个高质量的 idea。涉及到跨领域的知识,大模型也可以轻松完成。人类科学家只需要根据模型生成的内容进行判断,大大节省了科研的时间,提升了科研的效率。

不仅如此,科研所需的创新能力,也正是模型擅长的。「不断找到最有价值的科研的方向很难,我们就是要尝试打破现状,所以打造了 Nova 大模型。科学家个体的能力固然强,我们更希望用 AI 模型『杠杆』科学家的科研能力,加速人类科学的进步。」作为团队负责人,蓝振忠充满信心。

十足的信心来源于对规律的把握和前景的判断。蓝振忠坦言:「接下来有很多伟大的创新会是跨学科的,比如今年诺贝尔奖颁发给了 AI 交叉领域的科学家,也是对AI跨学科成就的一种肯定。但是,科学家个人终其一生顶多成为1-2个领域的专家,所以单靠个人能力,做跨学科颠覆式创新是非常困难的。但这件事天然适合大模型来做。我们打算让模型成为各个领域最懂创新的专家,希望它能够产生人类科研结果中最重要、最稀缺的『跨学科式创新』。」

此外,全球一年的科研经费(以2022年为例)接近2.5万亿美元,我们的模型哪怕只是「替代」了部分科研人员的能力,带来的价值也是不可估量的。

「因此,提升科研效率、节约资源、为国家科技创新贡献力量,就是我们研发『Nova大模型』的初心。」蓝振忠认为。

难题:训练 Nova,需要克服什么困难?

我们借鉴了生物进化里面的演进原理,idea 的迭代就像生物进化,一代一代的演进与选择。

「做这件事情是真的很难。」蓝振忠坦言。要让模型像人类一样思考,懂得人类是如何创新的,并把这种思考方式抽象成算法和模型的架构,真的做了才知道有多难。

简单来说,整个模型的创新过程很像人类。

首先我们把人类各种创新方法论融合到模型的推理过程中。然后让模型基于这些验证过的方法论、创新路径来产生一批 idea。这些 idea 对于我们整个模型来说,只是第一步,它们被称为 seed idea (gen_0)。

这些 seed idea 其实只是模型自我推进创新的开始。模型基于这些 seed idea 会进一步去主动学习搜索各种各样的资料,动态选择新的创新方法论,进而生成下一波更创新的idea(gen_1, gen_2, gen_3 ...), 持续迭代,不断进步—— 这是一种持续 「探索-学习-进步」 的自我进化算法原理。

验证:Nova 大模型采用了什么样的自动化、人工评估过程?

研究团队在质量、多样性、新颖性三个方面对 Nova 模型进行全面的自动化评估。

1)质量:采用专业的评测方法,将 4 个不同方法生成的 idea 按照瑞士轮方法一起进行打分,Nova 产生的 619 个想法和 2521 个想法分别获得了 4 分和 5 分,大大超越了其他基线方法。

图片

图示:瑞士制排名赛不同方法的得分分布。(来源:论文)

2)多样性:大模型生成 idea 重复度比较高是当前面临的主要问题之一。研究团队通过计算 idea 之间的相似度来对生成的 idea 进行去重。可以看出,随着生成的想法数量的增加,Nova 模型可以通过迭代规划和搜索不断产生新的想法。在非重复百分比方面,Nova 的表现明显优于其他产品,超过 80% 的想法都是独一无二的。

图片

图示:非重复百分比比较。(来源:论文)

3)新颖性:为了探索方法对持续生成新的 idea 的影响,研究团队还进一步通过消融实验证明了该方法能持续生成新颖的非重复的 idea。当不采用 plan 方法时,步骤 3 中的独特想法数量(44.1)与步骤 2 (42.4) 相比不再增加。

这表明,如果没有plan,仅依靠基于种子想法的检索会限制获取有价值的外部知识以进行创新。当规划和检索都被删除时,由于没有引入外部知识,独特新颖想法的数量在步骤 2 略有增加(从 25.3 增加到 30.6),在步骤 3 停滞不前(从 30.6 增加到 31.35)。这也进一步说明方法的有效性。

图片

图示:Nova 的消融研究。(来源:论文)

研究团队同样进行了一系列人工评估。找了 10 位专家(包括对应领域的博士,博后以及资深教授),对生成 idea 在 Overall(整体),Novelty(新颖性),Feasibility(可行性),effectiveness(有效性)进行全面的评估。

同样地,研究人员发现在人工评估中,Nova 在整体质量和新颖性方面均获得了最高分。Nova 贡献了前 4 个想法的 37.5%,是四种方法中最高的。此外,Nova 在最差的 4 个想法中所占比例非常低,在整体质量方面仅占 17.53%。在新颖性评估中也观察到了类似的模式。

图片

图示:(左)总体质量的人工评估;(右)新颖性的人工评价。(来源:研究团队)

展望:未来何时来?

「让 AI 自驱的进化,推进我们人类的科学突破与产业提升。」蓝振忠有自己的梦想,他和团队也为这个远大的目标规划了清晰的路径。

Nova 模型的发布,只是团队迈出的第一步,后续将持续发力:

1)从 0 到 1:先让模型在单个学科、领域实现创新,快速验证算法和模型效果,把基建和底子打好,让模型成为一个可以给科学家使用的产品。

2)从 1 到 10:进一步拓展模型的横向能力,成为多学科的创新专家,不仅能生成创新的科学 idea,而且能自动执行验证,最终发表科研论文。

3)终极目标:让模型能够自驱地进行科学探索、商业创新,让模型推进人类的科学突破与产业提升。

好的愿景与目标,需要好的团队配合实现。研发 Nova 大模型的团队中,有非常具有创新精神的行业专家,有在国内大厂工作过的算法专家,有非常懂创新的产品专家。

背靠中国新型研究型大学西湖大学,拥有丰厚的人才储备和强大的算力资源。谈及大模型的前景,蓝振忠说:「海外有一家公司,想做的事情跟我们有相似之处,它们今年成立,从初始到现在几个月的时间估值已经提升至 15 亿美元了。说明现在全球都非常认可『AI 在科学领域自驱探索突破』这个方向。我们不能落下,需要尽快打造属于自己的大模型,为国家科技创新贡献力量。」

理论人工智能语言模型AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

自适应学习技术

自适应学习也称为适应性教学(Adaptive Learning),是一种以计算机作为交互式教学手段的教学方法,根据每个学习者的特别需求,以协调人力资源和调解资源的分配。计算机根据学生的学习需求(如根据学生对问题、任务和经验的反馈)调整教育材料的表达方式。自适应学习技术已经涵盖了来自各个研究领域,包括计算机科学,教育,心理学和脑科学等等。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~