英伟达训练出全球最大的基于 Transformer 的语言模型
英伟达今日宣布,其已训练出全球最大的语言模型,这是英伟达作为 GPU 制造商旨在推进会话 AI 的一系列更新中的最新举措。为了实现这一成果,英伟达利用模型并行性,将神经网络分解成碎片,并使用技术来创建太大而无法容纳在单个 GPU 内存中的模型。该模型使用了 83 亿个参数,比 BERT 大 24 倍,比 OpenAI 的 GPT-2 大 5 倍。英伟达还宣布了 BERT 的最快训练和推理时间,英伟达能够使用优化的 PyTorch 软件和超过 1,000 个 GPU 的 DGX-SuperPOD 训练 BERT-Large,实现在 53 分钟内训练 BERT。(VentureBeat)