python - 使用 4 个参数对数据集进行聚类和标记

这是一个充满负载的问题，这是我的第一个“现实生活”机器学习实验，其中的问题非常简单。

我的 USPTO 批量数据在 CSV 文件中如下所示:

Name                     Class  Subclass  Category  Subcategory
Lightpack circuitboard   E        1         4       9
Lego blocks              F        2         56      12
D/C connector            E        3         4       1
Colorful dog hat         D        6         10      1
Grandma's shoes          D        2         11      1
Low temp resistor        O        2         4       10

我想要的是能够运行一个有监督的机器学习环境来对常见对象进行分组(我的实际数据中还有更多的对象，但这是一个简单的例子)。我希望能够找到一组通用的类、子类、类别和子类别在所有电子产品中，并将它们分组到一个电子产品“箱”中(即:Lightpack电路板、D/C连接器和低温电阻器)，但我不确定如何继续。

目前，我正在使用 Python 和 sklearn 进行更简单的建模，但不确定如何在给定的 4 个参数下进行测试和训练，而且我没有可比较的标记集(无验证)。

是否会更建议创建一个伪标记集以使其受到监督，或者我可以采取无监督的方法吗？正如我之前所说，这是我在 ML 方面的第一次真正测试。

最佳答案

无监督算法是您需要的。( Why so? )

这里您需要理解的关键概念是 Multivariate distances以及如何计算它们。那么您可以申请K-means聚类。

您还可以阅读 PCA并使用它。您可能需要缩放变量才能使 PCA 正常工作。

关于python - 使用 4 个参数对数据集进行聚类和标记，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48818434/

python - 使用 4 个参数对数据集进行聚类和标记

上一篇：python - Tensorflow官方MNIST模型训练精度高但预测性能低

下一篇：machine-learning - randomForest 中的树相互依赖吗？