python - 机器学习——从当前数据集生成新数据

标签 python machine-learning scikit-learn dataset

我已经根据一些传感器测量值和一些标签创建了一个数据集,并对它进行了一些分类,并取得了不错的效果。但是,由于我的数据集中的数据量相对较小(1400 个示例),我想根据这些数据生成更多数据。我的数据集中的每一行都包含 32 个数值和一个标签。

根据现有数据集生成更多数据的最佳方法是什么?到目前为止,我已经研究了生成对抗网络和自动编码器,但我认为这些方法不适合我的情况。

到目前为止,我一直在 Scikit-learn 工作,但我也可以使用其他库。

最佳答案

这里的关键词是Data Augmentation。您使用可用数据并稍微修改它们以生成与源数据略有不同的附加数据。

请看this关联。作者使用数据增强来旋转和翻转猫图像。因此,他从单个源图像生成了 6 个具有不同视角的附加图像。 如果将此想法转移到传感器数据中,则可以向数据中添加某种随机噪声以增加数据集。您可以找到时间序列数据数据增强的简单示例 here . enter image description here

另一种方法是对数据进行窗口化,将窗口移动一小步,使窗口中的数据有一点不同。

statistics stackexchange 的人写了一些关于它的东西。请查看this了解更多信息。

关于python - 机器学习——从当前数据集生成新数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57251032/

相关文章:

machine-learning - 为什么模型选择之前不进行模型调整?

machine-learning - 如何在sklearn的集成分类器中使用自定义分类器?

python - 如何调整典型sk-learn数据挖掘方法的阈值以平衡精度和召回率?

python - 有没有一种方法可以通过输入 0 到 255 之间的 R、G 和 B 值来生成 RGB 颜色,而无需使用 python 中的 matplotlib 模块?

python - 将函数应用于 python pandas 中的 groupby 对象

python - 不明白为什么print不显示hmget的结果

python - 对 sklearn Pipeline + ColumnTransformer 中的列应用多个预处理步骤

python - 您最初选择机器学习算法/进行初始设置的经验法则是什么?

python - sklearn : Nearest Neightbour with String-Values and Custom Metric

python - numpy 数组的 scipy.ndimage.interpolation 移位给出错误结果 - bug?