使用 PyTorch 训练图像分类卷积神经网络时,在 32-bit 精确度上,一块 RTX A6000 的速度是 RTX 3090 的 0.92 倍;如果使用混合精度则是 1.01 倍。
使用 PyTorch 训练语言模型 transformer 时,在 32-bit 精确度上,一块 RTX A6000 的速度是 RTX 3090 的 1.34 倍;使用混合精度也是 1.34 倍。
在并联多卡时,使用 PyTorch 训练图像分类卷积神经网络,在 32-bit 精确度上,八块 RTX A6000 的速度是八块 RTX 3090 的 1.13 倍;如果使用混合精度则是 1.14 倍。
使用 PyTorch 框架训练语言模型 transformer,在 32-bit 精确度上,八块 RTX A6000 的速度是八块 RTX 3090 的 1.36 倍;如果使用混合精度则是 1.33 倍。