全方位的可观测能力,对资源池、队列、节点、任务、实例、加速卡等多个维度实现了无死角的覆盖。 自动容错能力,百舸 Flash Checkpoint 故障恢复机制实现秒级 Checkpoint 和近乎无损的 Step 粒度容错。此外为 PyTorch 大模型训练场景开发的 Checkpoint 框架 FlashCKPT 可以实现 1 秒千亿大模型 Checkpoint 写入。 故障诊断和快速恢复能力,通过快速筛查、召回集群硬件故障并隔离自愈,避免在故障芯片上分配工作负载,有效降低任务故障发生频次。故障恢复时间从小时级降至分钟级。 百舸集群级集合通信库 BCCL 不仅可以在故障发生时做到秒级感知和定位,提高故障处理效率。同时快速定位训练慢的节点,提升整体训练效率。