machine-learning - 如何建立不平衡和小数据集的联邦学习模型

标签 machine-learning tensorflow-federated federated-learning

我正在使用 TFF 构建联邦学习模型,我有一些问题:

  1. 我正在准备数据集,我有单独的数据文件,具有相同的特征和不同的样本。我会将这些文件中的每一个都视为一个客户端。我如何在 TFF 中维护它?

  2. 数据不平衡,也就是说,每个文件的数据大小不同。这会影响建模过程吗?

  3. 数据有点小,一个文件(client)300条记录,另一个1500条记录,是否适合建立联邦学习模型?

提前致谢

最佳答案

  1. 您可以为您的数据集创建一个 ClientData,请参阅 Working with tff's ClientData .
  2. 无需平衡数据集即可构建联合学习模型。在 https://arxiv.org/abs/1602.05629 ,服务器对客户端的模型更新进行加权联合平均,其中权重是每个客户端拥有的样本数。
  3. 每个客户的几百条记录不少于 EMNIST dataset , 这样就好了。关于客户总数:本tutorial显示具有 10 个客户端的 FL,您可以使用较小的 NUM_CLIENTS 运行 colab 以查看它在示例数据集上的工作方式。

关于machine-learning - 如何建立不平衡和小数据集的联邦学习模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71167600/

相关文章:

python - 如何在不降低精度的情况下调整 tensorflow_federated TFF 中 CIFAR100 的超参数?

python - PureFrameworkTensorFoundError,运行时错误 -FedeartedLearning

python - 预期 TensorFlow 计算,发现内在

Python sklearn 在训练期间显示损失值

tensorflow-federated - 运行 "Building Your Own Federated Learning Algorithm"教程时,Tensorflow federated (TFF) 0.19 的性能明显低于 TFF 0.17

python - 如何在 Federated Tensorflow 中绘制增量权重的直方图摘要?

tensorflow - 在联合训练中实现数据生成器

machine-learning - 预测分析-“为什么”因素和模型的可解释性

machine-learning - 是否有用于并行执行和内存共享的 linux pthreads 的替代方案?

python - Scikit-Learn LinearRegression 在非常简单的数据集上表现不佳,