A100 GPU 中的 TensorFloat-32 加速了 AI 培训,HPC 提升 20 倍
与所有计算一样,人们必须正确计算数学才能做好 AI。由于深度学习是一个年轻的领域,因此对于训练和推理都需要哪种类型的数学仍然存在着激烈的争论。如今,NVIDIA Ampere 架构引入了一种新方法,可以针对广泛用于 AI 的单精度模型提高训练性能。NVIDIA Ampere 架构引入了一种新方法,可以针对广泛用于 AI 的单精度模型提高训练性能。TensorFloat-32(TF32)是 NVIDIA A100 GPU 中的新数学模式,用于处理矩阵数学,也称为张量运算,用于 AI 和某些 HPC 应用程序的核心。与 Volta GPU 上的单精度浮点数学(FP32)相比,在 A100 GPU 的 Tensor Core 上运行的 TF32 可以提供高达 10 倍的加速。将 TF32 与 A100 上的结构化稀疏性相结合,可使 Volta 的性能提升高达 20 倍。(NVIDIA)