我有大量 (100-150) 个小型(大约 1 KB)数据集。 我们将这些称为“好”数据集。 我也有类似数量的“坏”数据集。
现在我正在寻找软件(或者可能是算法)来找到构成“好”数据集和“坏”数据集的规则。
这里重要的是软件能够处理多个数据集,而不仅仅是一个大数据集。
非常感谢帮助。
保罗。
最佳答案
这似乎是一个分类问题。如果您有许多标记为“好”或“坏”的数据集,您可以训练分类器来预测新数据集是好是坏。
决策树、k 最近邻、SVM、神经网络等算法是您可以使用的潜在工具。
但是,您需要确定将使用哪些属性来训练分类器。
关于algorithm - 大量小数据集的关联挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9555076/