我正在使用 TFF 构建联邦学习模型,我有一些问题:
我正在准备数据集,我有单独的数据文件,具有相同的特征和不同的样本。我会将这些文件中的每一个都视为一个客户端。我如何在 TFF 中维护它?
数据不平衡,也就是说,每个文件的数据大小不同。这会影响建模过程吗?
数据有点小,一个文件(client)300条记录,另一个1500条记录,是否适合建立联邦学习模型?
提前致谢
最佳答案
- 您可以为您的数据集创建一个 ClientData,请参阅 Working with tff's ClientData .
- 无需平衡数据集即可构建联合学习模型。在 https://arxiv.org/abs/1602.05629 ,服务器对客户端的模型更新进行加权联合平均,其中权重是每个客户端拥有的样本数。
- 每个客户的几百条记录不少于 EMNIST dataset , 这样就好了。关于客户总数:本tutorial显示具有 10 个客户端的 FL,您可以使用较小的
NUM_CLIENTS
运行 colab 以查看它在示例数据集上的工作方式。
关于machine-learning - 如何建立不平衡和小数据集的联邦学习模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71167600/