一个新数据集外加思维链和思维程序两种方法之长,竟能让开源 LLM 的数学推理追上 GPT-4 等闭源大模型。


论文:https://arxiv.org/pdf/2309.05653.pdf 代码:https://github.com/TIGER-AI-Lab/MAmmoTH 数据集与模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct
整理一个多样化的混合指令微调数据集

训练设置
评估数据集

主要结果


在数据源上的消融研究


Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
一个新数据集外加思维链和思维程序两种方法之长,竟能让开源 LLM 的数学推理追上 GPT-4 等闭源大模型。
一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。
人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。
微积分(Calculus)是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法 。