微软推出 DeepSpeed 开源库:新的系统优化功能使训练模型具有超过 1000 亿个参数
微软近日发布了一个名为 DeepSpeed 的开源库,该库通过提高规模,速度,成本和可用性,释放了训练 1000 亿参数模型的能力,极大地推进了大型模型的培训。DeepSpeed 与 PyTorch 兼容。该库中包含了一种新的名为 ZeRO 的并行优化器,它可以大大减少模型和数据并行性所需的资源,同时可以大大增加可训练的参数数量。研究人员利用这些突破来创建了图灵自然语言生成(Turing-NLG)。据了解,这是最大的公开语言模型,具有 170 亿个参数。