第2讲回顾:FATE的部署模型以及基于Docker-Compose快速部署联邦学习开发实验环境

「AI开发者成长计划」首期公开课由机器之心与微众银行联合开设,主题为《联邦学习FATE入门与应用实战》,特邀合作伙伴 VMware 也将参与分享。 公开课为期4周,共6期课程 ,设置主题分享、项目实践、在线答疑等环节,从零入门联邦学习。

整体学习计划与加入方式请查看:《联邦学习FATE入门与应用实战》公开课上线!

3 月 12 日,机器之心联合微众银行开设的公开课《联邦学习 FATE 入门与应用实战》第二讲结课,VMware 研发工程师陈家豪为大家介绍了开源框架 FATE 的部署,第二讲视频回顾: 

第二课精选问答

在第2课的 QA 环节中,有一些问题被广泛提到并且很有价值,所以我们进行了精选与编辑,供大家参考。 

1)「toy_example」跑不通原因是什么?

因为 FATE 的架构比较复杂,加上系统和网络不稳定性等客观原因,一遍下来某些步骤有不可控的小问题。这些问题可以逐步去排除,但是我们推荐比较简单的方法是可以重新跑一遍或几遍。如果还是不行那就定位是否是指令集不支持的问题,详情请参考我们 kubeFATE 在 github 上的 wiki。

2)Exchange 也负责模型聚合吗,还是只负责建立底层通信?

它是不负责模型聚合的,只负责通讯。

3)目标机和部署机有什么区别?

我们前面说 KubeFATE 的使用其实分为两个部分,一个部分是生成启动集群的配置文件。另外一个部分就是运行的 FATE 集群。部署机就是生成配置文件的机器,目标机是运行集群的机器。部署机和目标机只是一个逻辑上的划分,他们实际上可以是同一台服务器。

4)每个 party 都是有自己的 k8s 集群么?

其实取决于你是哪种部署方式,如果是 docker-compose 的话,你就不需要有 k8s 集群了。

5)这些 party 里有分中心机构和参与机构吗?

没有严格的区分,一个 party 即可以做分享数据的中心机构,也可以做参与机构,这取决于训练的具体内容。

6)如何实现分布式训练?

分布式训练由 EggRoll 模块提供支持,它向上提供了一个 MapReduce 的功能。

7)kubefate 支持容灾吗,节点挂了怎办?

如果是使用 k8s 部署的话,那么容灾其实是依赖于 k8s。节点挂也没关系,k8s 会帮你重新起一个。

8)一个 party 有多个用户吗?

一个 party 可以有多服务多个用户,这是没问题。

大家如有更多疑问,也欢迎在评论区留言讨论,我们也会定期邀请讲师在评论区答疑,并持续将精选问答收录到本篇文章的正文内容中。

联邦学习FATE入门与应用实战
联邦学习FATE入门与应用实战

机器之心与微众银行联合开设《联邦学习FATE入门与应用实战》公开课,4周时间,6期分享,主题讲解+项目实操,从零入门联邦学习。

https://github.com/FederatedAI/FATE
专栏二维码
工程Docker联邦学习
暂无评论
暂无评论~