12 月 7 日下午,燧原科技在线上发布会上发布了第二代云端人工智能推理加速卡「云燧 i20」。
这是时隔五个月以来,燧原科技在今年连续第二次发布新产品。今年 7 月,燧原在 WAIC 世界人工智能大会上发布了第二代加速训练卡「云燧 T20」。
此次发布体现了燧原的强大执行力,使得该公司产品在业内保持了技术领先。随着第二代产品线的量产,以及软件和服务的展开,燧原的发展计划正在逐步实施,未来将进入快速发展期。
作为全新一代云端 AI 推理加速产品,云燧 i20 拥有迄今为止业内最大的 AI 加速卡存储带宽,高达 819 GB/s,远超行业同类产品水平。与此同时,该加速器全面支持从 FP32、TF32、FP16、BF16 到 INT8 的计算精度。单精度 FP32 峰值算力达到 32 TFLOPS,单精度张量 TF32 峰值算力达到 128 TFLOPS,整型 INT8 峰值算力达到 256 TOPS。对比第一代推理产品,云燧 i20 将浮点算力提升到 1.8 倍,整型算力提升到 3.6 倍。
与新硬件配套的是燧原升级后的「驭算 TopsRider」软件栈,其在性能、开发效率和模型覆盖面上得到大幅提升。通过引入通用高层图优化和大规模算子融合技术,充分释放了大容量片内存储和高带宽存储的利用率,将模型平均性能提升 3.5 倍,硬件算力利用率平均提升 2 倍。通过升级的编程模型以及算子自动分片、自动生成技术,自定义算子开发效率翻倍,模型迁移成本大大降低。
此外,驭算增强了对动态性的支持,使云燧 i20 在检测、语音识别、语义理解等场景更具竞争力。
在经济效益和部署灵活性层面,基于虚拟化和多实例加速技术,云燧 i20 能够实现单卡多用户,同时支持 6 个业务互不干扰、安全隔离运行。让更多云端推理应用同时享受专有的算力加速,为客户业务架构带来轻耦合、灵活可靠的实现方式,显著提升资源利用率与投入产出比。
「云燧 i20 的发布标志着燧原科技在云端 AI 算力加速领域,从训练到推理的完整产品线已全面迭代到第二代,能够以更有竞争力的产品,为互联网、智慧城市、智慧政务,以及金融、交通、能源等传统行业客户提供更优的 AI 计算方案。」燧原科技 CEO 赵立东在发布会上表示。
新一代邃思 AI 推理芯片采用第二代高性能计算核心和数据引擎,由 12nm 工艺打造(应为 Globalfoundries 代工),通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内 7nm GPU 相匹敌的计算能力。不仅如此,基于 12nm 成熟工艺的低成本,使得云燧 i20 在相同性能表现下更具性价比优势。并且供应链体系更加稳定成熟,客户的业务需求可以得到及时满足。
「云燧 i20 全面提升了算力,在兼顾全精度算力的同时大幅度提高了整型运算,大力加强了模型覆盖率和泛化支持的能力,在多项基准测试中,其模型性能、能效比均处于国内领先水平,可以满足云端推理业务高度多样化的需求,」燧原科技 COO 张亚林表示。「燧原科技目前已经拥有第二代的训练和推理产品,针对客户的业务场景提供原始创新的、具有高性能及性价比的『训练 + 推理』完整解决方案,并支持国产服务器和操作系统,可以帮助客户进行云端系统部署。」
此次发布体现了燧原的强大执行力,和公司保持技术领先的成果。随着第二代产品线的量产,以及软件和服务的展开,燧原的发展计划正在逐步实施,未来将进入快速发展期。
燧原表示,其自研产品已经产生了过亿的订单,已在互联网、金融、政务等多家客户的商业落地,并获得认可。作为国内第一家发布第二代 AI 训练芯片的企业,该公司已经成为了国内唯一一家拥有第二代推理 + 训练芯片的企业。
「AI 推理正在以更加广阔的应用方式深入各行业。一个好的推理产品应该可以满足端到端的业务线,提供更高的性价比,帮助客户体验的迁移,」张亚林说道。i20 的推出就是为了这个目的,我们在中低精度数据计算上有了巨大的提升,平衡了性能和成本,保证了客户的业务收入。我们提供了便捷的编程工具,在板卡的能效比上实现了提升。完成了第二代芯片相比第三代性能提升 3 倍的承诺。
未来,燧原科技还将进一步拓展产品线,继续推进 AI 大芯片的方向。