鉴于语言模型预训练成本巨大,因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器,但其会产生过多的开销。本文提出了一种简单的可扩展的二阶优化器 Sophia,在与 Adam 比较中,Sophia 在减少了 50% step 数量的情况下实现了与 Adam 相同的验证预训练损失。
![图片](https://image.jiqizhixin.com/uploads/editor/ac05354e-ff55-4d2e-9662-88c347016c58/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/c3cbff07-efac-4686-9331-2738363112e5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/86f5aefd-b974-462f-8494-d102d4bfea87/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a648e818-b793-4c00-8bb8-65d8f42cae09/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/b57588dc-9e3f-4205-b3ad-586cf8609bcb/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/adbbb54f-ff67-410f-a498-5c5caf81c18d/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/ea7ad4c6-411d-43d0-8b75-f69922543f1f/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a89f1b39-9461-403d-9599-ca48914c525d/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a0329ead-4059-438c-9904-29adc6303dc0/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/671cf065-46bb-49d3-aece-5e4b09030986/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/5eb9d72f-e6c7-4427-9290-3b5db7b77152/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/62f46796-ed16-4787-b8a5-3db5e0969b5c/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/f7386b27-ff15-48f1-94ec-d35c7be085a5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/1819f689-fd06-4c14-837b-0d5ad7cb3235/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/85c57572-176a-4ff6-a0ce-f21650b402c8/640.png)
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
鉴于语言模型预训练成本巨大,因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器,但其会产生过多的开销。本文提出了一种简单的可扩展的二阶优化器 Sophia,在与 Adam 比较中,Sophia 在减少了 50% step 数量的情况下实现了与 Adam 相同的验证预训练损失。
网格搜索是一项模型超参数优化技术,常用于优化三个或者更少数量的超参数,本质是一种穷举法。对于每个超参数,使用者选择一个较小的有限集去探索。然后,这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型,挑选验证集误差最小的超参数作为最好的超参数。
线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。
调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details
在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)