python - 机器学习——从当前数据集生成新数据

我已经根据一些传感器测量值和一些标签创建了一个数据集，并对它进行了一些分类，并取得了不错的效果。但是，由于我的数据集中的数据量相对较小(1400 个示例)，我想根据这些数据生成更多数据。我的数据集中的每一行都包含 32 个数值和一个标签。

根据现有数据集生成更多数据的最佳方法是什么？到目前为止，我已经研究了生成对抗网络和自动编码器，但我认为这些方法不适合我的情况。

到目前为止，我一直在 Scikit-learn 工作，但我也可以使用其他库。

最佳答案

这里的关键词是Data Augmentation。您使用可用数据并稍微修改它们以生成与源数据略有不同的附加数据。

请看this关联。作者使用数据增强来旋转和翻转猫图像。因此，他从单个源图像生成了 6 个具有不同视角的附加图像。如果将此想法转移到传感器数据中，则可以向数据中添加某种随机噪声以增加数据集。您可以找到时间序列数据数据增强的简单示例 here .

另一种方法是对数据进行窗口化，将窗口移动一小步，使窗口中的数据有一点不同。

statistics stackexchange 的人写了一些关于它的东西。请查看this了解更多信息。

关于python - 机器学习——从当前数据集生成新数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57251032/

相关文章：

machine-learning - 为什么模型选择之前不进行模型调整？