Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页

大型多模态模型会做数学题吗?在微软最新发布的 MathVista 基准上,即使是当前最强的 GPT-4V 也会有「挫败感」。

微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集,同时提供了一份涵盖 112 页的详细评测报告,专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型,如 GPT-4V,来说也是一项挑战,显示了这些模型在多模态数学问题解决方面的局限性。报告还深入分析了 GPT-4V 在自我验证、自洽性和多轮对话能力的研究潜力。

图片

  • 论文地址:https://arxiv.org/abs/2310.02255
  • 项目地址:https://mathvista.github.io/
  • HF 数据集:https://huggingface.co/datasets/AI4Math/MathVista
  • 数据可视化:https://mathvista.github.io/#visualization
  • Leaderboard:https://mathvista.github.io/#leaderboard

数学推理能力被视为实现通用人工智能的关键一步。除了传统的纯文字场景,许多数学研究和应用还涉及到丰富的图形内容,这为模型的多模态处理能力提出了更高的要求。

数学问题历史悠久,可以追溯到公元前 2000 年的美索不达米亚。那时的人们就已经使用泥板来记录包含梯形和三角形的数学问题。研究显示,早在希腊哲学家毕达哥拉斯生活之前,他们就掌握了毕达哥拉斯定理 —— 也就是著名的勾股定理。

图片

中国古代数学的杰作《周髀算经》中不仅包含了勾股定理的优雅证明,也展示了我们祖先在数学领域的深厚造诣。

图片

从小接受的数学教育中,我们经常看到各种生动有趣的图形,这些都强调了视觉元素在数学理解中的重要性。

图片

在现代科学研究中,对大量图像数据进行数学分析成为了一个不可或缺的环节。尤其是随着大型语言模型(LLMs)和大型多模态模型(LMMs)的发展,这些模型在多种任务和领域中展现出令人印象深刻的问题解决能力。

图片

然而,这些模型在视觉场景下的数学推理能力尚未被系统地研究。为了探索这一领域,微软联合加州大学洛杉矶分校(UCLA)和华盛顿大学(UW)共同开发了全新的 MathVista 基准数据集。这个数据集结合了多种数学和视觉任务的挑战,包含 6141 个问题,来源于 28 个现有的多模态数据集和 3 个新标注的数据集,包括 IQTest、FunctionQA 和 PaperQA。MathVista 中丰富的任务类型、推理方式和图像类型对现有的大型模型构成了巨大挑战。

微软的研究报告对 12 个最新的大型模型进行了全面评估。实验结果显示,目前性能最强的 GPT-4V 在 MathVista 上达到了 49.9% 的准确率,显著优于排名第二的 Bard 模型,领先了 15.1%。然而,与人类表现相比,GPT-4V 仍有 10.4% 的差距。这种差异主要是由于它在理解复杂图形和进行严密推理方面的不足。

图片

微软的报告还进一步探讨了 GPT-4V 的自我验证能力、自洽性,以及其处理多轮对话的潜力。这些分析强调了未来研究的多个方向,尤其是在提高模型在复杂情境下的理解和推理能力方面。

MathVista 基准数据集

尽管目前已有多个文本为主的数学推理数据集和多模态问答数据集,但在全面评估大型模型在数学推理领域的能力方面,特别是在多模态数据集方面,仍存在显著的空白。

为此,微软提出了 MathVista 数据集,聚焦于视觉场景下的数学问答任务。MathVista 包含 6141 个数学问题,来自于 28 个现有数据集和 3 个新标注数据集 ——IQTest、FunctionQA 和 PaperQA

图片

这三个新标注的数据集各有特色:IQTest 侧重于智力测试题,FunctionQA 专注于函数图形的推理,而 PaperQA 则关注于对文献中的图表进行深入理解,有效地弥补了现有数据集的不足。

图片

MathVista 覆盖了两种主要的任务类型:多选题(占比 55.2%)和数值型开放题(占比 44.8%)。它还包括五大任务类别:图形问答(FQA)、几何解题(GPS)、数学应用题(MWP)、教材问答(TQA)和视觉问答(VQA),这些任务类别代表了当前数学推理领域的前沿挑战。

图片

MathVista 中的数学推理能力与图像多样性

MathVista 细分并定义了数学推理的七大能力领域,包括:算术、统计、代数、几何、数值常识、科学和逻辑。这些领域涵盖了数学推理的核心要素,体现了 MathVista 在数学认知范围的全面覆盖。

图片

图片

在图像类型的多样性方面,MathVista 也展现了其独特的广度和深度。该数据集包含了十余种不同的图像类型,从自然图像到几何图表,从抽象场景到合成场景,以及各种图形、图表和绘图。这种丰富的图像类型不仅增加了数据集的复杂性,也为大型多模态模型在处理不同类型的视觉信息时提供了全面的挑战。

图片

图片

图片

图片

全面的量化评估

微软的研究报告首次对当前大模型在视觉场景下的数学推理能力进行了全面的量化评估。报告中使用的 MathVista 数据集分为两个子集:minitest 和 test。minitest 子集含有 1000 个问题,主要用于快速评估模型性能。而 test 子集则包含剩余的 5141 个问题,旨在进行模型的标准化评估,因此为了避免测试数据污染,该子集的答案标签数据不对外公开。

模型评估过程分为三个关键阶段:生成回答、抽取答案和计算分数。在生成回答阶段,根据测试问题的类型,研究团队使用了特定的模板来引导模型输出答案。

图片

考虑到当前大型模型通常以对话形式输出长文本回答,报告中的实验设计了一个基于 GPT-4 的答案抽取器。这个抽取器通过几个实例提示 GPT-4,从模型的长文本回答中抽取出符合题目类型的短答案。这种方法有效地克服了传统人工评估的高成本问题和基于规则的答案抽取可能导致的不准确性。随后,这些抽取出来的短文本答案被用于计算模型的总体准确率以及在不同子分类别下的准确率

图片

MathVista 上的大型模型评估实验

实验在 testmini 子集上评估了 12 种大模型:包括 ChatGPT、GPT-4 和 Claude-2 等三个大型语言模型,以及 LLaVA、LLaMA-Adapter、miniGPT-4、Bard 和 GPT-4V 等 9 种大型多模态模型。对于大型语言模型,实验设计了两种形式,第一种只利用问题的文字信息,第二种是使用图片的 Captioning 描述和 OCR 文本作为外部增强信息。此外,实验还完成了两种随机基准和人类表现基准

图片

实验结果显示,当前的大模型在 MathVista 上的整体表现仍有待提升。表现最佳的 GPT-4V 模型达到了 49.9% 的准确率,但这与人类的 60.3% 表现相比还有显著差距。其次是 Bard 模型,准确率为 34.8%,而目前最好的开源模型 LLaVA 的准确率则为 26.1%。这些数据表明,大型模型在视觉背景下的数学推理能力还有很大的提升空间。

有趣的是,当结合图像 OCR 和 Captioning 信息时,大型语言模型 GPT-4 的表现(33.9%)接近于多模态模型 Bard(34.8%)。这一发现显示,通过适当的工具增强,大型语言模型在多模态领域具有巨大的潜力。

实验还对主要模型在不同数学推理能力和图像类型子类上的表现进行了量化评估。结果显示,GPT-4V 在诸如代数、几何和科学领域的推理能力上,以及在处理表格、函数图、几何图像、散点图和科学图形等图像类型时,其表现接近甚至超过了人类。

图片

在 test 子集的评估中,实验比较了最佳的两个大型语言模型(CoT/PoT GPT-4)和最好的开源大型多模态模型(LLaVA),提供了一个全面的模型性能概览。

图片

Bard 在 MathVista 中的表现

在 MathVista 上的评估显示,Bard 模型的总体表现紧随 GPT-4 之后。通过具体案例分析,报告发现 Bard 模型经常产生所谓的 “幻觉现象”,即在生成的答案中引入了问题文本和图片中不存在的信息。此外,Bard 在进行数学运算时也容易出现错误。

图片

例如,在下面的例子中,Bard 在简化分式 8/10 的过程中犯了计算错误。这种问题突显了模型在处理数学问题时的局限性。

图片

GPT-4 在 MathVista 上的表现

虽然 GPT-4 本质上是一种语言模型,但通过工具增强(例如 OCR 文字和 captioning 描述的结合),它在 MathVista 上的性能可以达到与多模态模型 Bard 相当的水平。具体来说,当引入这些图片的 OCR 文字和 Captioning 描述作为辅助输入信息时,GPT-4 能够成功解决许多多模态数学问题。这一发现显示了 GPT-4 在多模态问题处理方面的潜力。

然而,GPT-4 对这些增强信息的准确性有着极高的依赖性。如果这些 OCR 文字或 Captioning 描述存在错误或不准确性,GPT-4 在推理过程中就很容易走向错误的方向,从而导致不正确的结果。这一点凸显了在使用工具增强大型语言模型时,输入信息质量的重要性。

图片

GPT-4V 在 MathVista 上的全方位分析

GPT-4V 作为目前最先进的大型多模态模型,对其能力的深入分析对未来的研究具有重要意义。报告通过大量实例详尽分析了 GPT-4V 在不同维度的能力,特别是在自我验证、自洽性和多轮对话方面的巨大潜力。

代数推理能力:在 MathVista 的代数问题中,GPT-4V 展现了理解图像中函数并推断其性质的出色能力,甚至超过了其他大型模型和人类。但在处理低分辨率图像和多函数图像时,GPT-4V 仍面临挑战。

图片

图片

数值计算能力:MathVista 中的算术问题不仅需要准确的基础运算,还需理解多样化视觉场景。如下图所示,GPT-4V 在此方面相比现有模型表现出显著的提升。

图片

几何推理能力:在几何推理方面,GPT-4V 在 MathVista 上的表现与人类相当。在以下两个例子中,无论是小学难度还是高年级难度的问题,GPT-4V 均能给出正确答案,并附有详细解释。

图片

图片

图片

逻辑推理能力:在 MathVista 的逻辑推理问题中,模型需从抽象图形中推导出数字或形状的隐含规律。GPT-4V 在这方面遇到了挑战,其准确率仅为 21.6%,仅略高于随机猜测的 8.1%。

图片

图片

数值常识推理能力:MathVista 中的数值常识推理涉及日常物品和名人知识。这类问题对大型模型是一大挑战。例如,下图所示的问题中,只有 GPT-4V 能正确理解图像中的光学错觉现象。

图片

然而,某些情况下,例如识别烧杯的最大容量,GPT-4V 与 Bard 模型均表现不佳。

图片

科学推理能力:在 MathVista 的科学推理问题上,GPT-4V 显著优于其他大型模型。它经常能准确解析涉及特定科学领域的图中信息,并进行后续推理。

图片

图片

然而,某些基本概念的应用,如相对运动,仍是 GPT-4V 的弱点。

图片

图片

统计推理能力:GPT-4V 在理解 MathVista 中的各种图表、绘图和图形方面展现出强大的统计推理能力。它能准确解答涉及图表分析的数学问题,超过了其他大型模型。

图片

图片

图片

GPT-4V 的自我验证能力探究

自我验证(self-verification)是一种社会心理学概念,其核心观点是个体希望他人按照他们自我感知的方式来理解他们。这导致个体主动采取行动,确保他人能看到他们的稳定状态(Talaifar & Swann, 2020)。

在微软的实验中,GPT-4V 显示出了一种类似的自我验证能力。这种能力体现在 GPT-4V 能够在推理过程中自主检查自身的行为,并主动纠正可能的错误。值得注意的是,这种自我验证能力不同于仅依赖外部反馈或多轮对话来改进模型输出。例如,在某些情况下,GPT-4V 能够在单次输出中自行审核一组候选答案,从而识别出符合所有给定条件的有效答案。

图片

在以下多步推理问题中,GPT-4V 显示出了显著的能力。它不仅能够进行连贯的推理,还能验证关键步骤的有效性。特别是在遇到无效的中间结果时,如发现得出的长度为负数,GPT-4V 能够主动检测并识别这些错误。这种能力使得 GPT-4V 在识别问题后,能够尝试采用不同的方法来解决问题,从而优化其推理过程。

图片

图片

GPT-4V 的自洽性应用及其局限性

自洽性(self-consistency)是在大型语言模型中广泛使用的一种技术,目的是提升模型在处理复杂推理任务时的准确性。这种方法通常包括采样多种推理路径,并选择出现频次最高的答案作为最终解

微软的实验验证了自洽性技术在提高 GPT-4V 在 MathVista 上的性能方面的有效性。实验表明,自洽性对于纠正 GPT-4V 在视觉感知和计算中的错误,以及减少幻觉现象方面起到了显著作用

图片

图片

图片

然而,实验也揭示了自洽性的局限性。特别是在 GPT-4V 难以正确理解复杂的视觉场景的情况下,自洽性的改善效果并不显著。这表明,尽管自洽性是一种有效的提升方法,但它的成功在很大程度上还是依赖于模型对视觉信息的基本理解能力。

图片

GPT-4V 在 MathVista 上的多轮对话能力

微软的报告最后探讨了 GPT-4V 在 MathVista 上进行多轮人机互动对话的能力。实验结果表明,GPT-4V 擅长在多轮对话中有效地利用用户提供的提示来优化其推理过程。这包括根据用户的引导来纠正视觉感知上的误解,修正推理逻辑中的不一致,更正相关领域的知识,甚至在人类的协助下理解和处理极其复杂的图表问题。

图片

图片

图片

图片

图片

主要华人作者

Pan Lu

图片

Pan Lu 是加州大学洛杉矶分校(UCLA)的博士生,是 UCLA 自然语言处理实验室(NLP Group)和视觉、认知、学习和自主中心(VCLA)的成员。

在此之前,他在清华大学获得计算机科学硕士学位。他曾在微软和艾伦人工智能研究院进行过实习。

他是 ScienceQA 和 Chameleon 等工作的作者。他曾荣获亚马逊博士奖学金、彭博社博士奖学金和高通创新奖学金。

Tony Xia

图片

Tony Xia 是斯坦福大学计算机系的硕士生。此前,他在加州大学洛杉矶分校获得计算机本科学位。

Jiacheng Liu

图片

Jiacheng Liu 是华盛顿大学的博士生,从事常识推理、数学推理和文本生成的研究。

此前,他在伊利诺伊香槟分校取得本科学位。他曾获高通创新奖学金。

Chunyuan Li

图片

Chunyuan Li 是微软雷德蒙德研究院的首席研究员。

此前,他在杜克大学获得了机器学习博士学位,师从 Lawrence Carin 教授。他曾担任过 NeurIPS、ICML、ICLR、EMNLP 和 AAAI 的领域主席,以及 IJCV 的客座编辑。

他是 LLaVA、Visual Instruction Tuning 和 Instruction Tuning 等工作的作者。

Hao Cheng

图片

Hao Cheng 是微软雷德蒙德研究院的高级研究员,同时也是华盛顿大学的兼职教授。

此前,他在华盛顿大学获得了博士学位。他是 2017 年 Alexa Prize 冠军团队的主要成员。
产业多模态数学推理基准数据集MathVista
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
视觉问答技术

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~