我想在训练中使用多个数据集。我希望每个批处理都来自一个数据集,但有来自(可能)每个时期的所有数据集的批处理。
将数据集合并到一个简单的 Dataset
对象并使用默认的 Dataloader
可以在一批中获得来自不同数据集的样本。
我自己的猜测是为每个数据集都有一个单独的Dataset
对象并覆盖Dataloader或采样器,但我不知道该怎么做。
最佳答案
我认为解决您的问题的最佳方法是使用单个数据加载器创建一个合并数据集,但有一个自定义 BatchSampler
根据合并数据集中的不同数据集生成索引。
关于python - PyTorch:从多个数据集进行批处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62637515/