DeepMind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。
一个具有 2800 亿参数的 transformer 语言模型 Gopher;
语言模型带来的道德和社会风险及危害;
通过检索数万亿 token 来改进语言模型的新方法 RETRO。
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
DeepMind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。
一个具有 2800 亿参数的 transformer 语言模型 Gopher;
语言模型带来的道德和社会风险及危害;
通过检索数万亿 token 来改进语言模型的新方法 RETRO。
DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。
https://deepmind.com/一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。
在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长