使用 PyTorch 训练图像分类卷积神经网络时,在 32-bit 精确度上,一块 RTX A6000 的速度是 RTX 3090 的 0.92 倍;如果使用混合精度则是 1.01 倍。
使用 PyTorch 训练语言模型 transformer 时,在 32-bit 精确度上,一块 RTX A6000 的速度是 RTX 3090 的 1.34 倍;使用混合精度也是 1.34 倍。
在并联多卡时,使用 PyTorch 训练图像分类卷积神经网络,在 32-bit 精确度上,八块 RTX A6000 的速度是八块 RTX 3090 的 1.13 倍;如果使用混合精度则是 1.14 倍。
使用 PyTorch 框架训练语言模型 transformer,在 32-bit 精确度上,八块 RTX A6000 的速度是八块 RTX 3090 的 1.36 倍;如果使用混合精度则是 1.33 倍。
![十年磨一剑:英伟达最「闪」GPU 登场,揭晓新一代芯片架构图灵](https://image.jiqizhixin.com/uploads/article/cover_image/2292d414-ca10-4cfe-b6f7-17e65cbc2ed4/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20180814113956.jpg?imageView2/1/w/236/h/175)