python - 使用 4 个参数对数据集进行聚类和标记

标签 python csv machine-learning classification

这是一个充满负载的问题,这是我的第一个“现实生活”机器学习实验,其中的问题非常简单。

我的 USPTO 批量数据在 CSV 文件中如下所示:

Name                     Class  Subclass  Category  Subcategory
Lightpack circuitboard   E        1         4       9
Lego blocks              F        2         56      12
D/C connector            E        3         4       1
Colorful dog hat         D        6         10      1
Grandma's shoes          D        2         11      1
Low temp resistor        O        2         4       10

我想要的是能够运行一个有监督的机器学习环境来对常见对象进行分组(我的实际数据中还有更多的对象,但这是一个简单的例子)。我希望能够找到一组通用的子类类别子类别在所有电子产品中,并将它们分组到一个电子产品“箱”中(即:Lightpack电路板、D/C连接器和低温电阻器),但我不确定如何继续。

目前,我正在使用 Python 和 sklearn 进行更简单的建模,但不确定如何在给定的 4 个参数下进行测试和训练,而且我没有可比较的标记集(无验证)。

是否会更建议创建一个伪标记集以使其受到监督,或者我可以采取无监督的方法吗?正如我之前所说,这是我在 ML 方面的第一次真正测试。

最佳答案

无监督算法是您需要的。( Why so? )

这里您需要理解的关键概念是 Multivariate distances以及如何计算它们。那么您可以申请K-means聚类。

您还可以阅读 PCA并使用它。您可能需要缩放变量才能使 PCA 正常工作。

关于python - 使用 4 个参数对数据集进行聚类和标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48818434/

相关文章:

python - 如何加快对 pandas 数据框的行列访问?

python - heroku run python manage.py 如何迁移?

php - LOAD DATA INFILE - 显示导入的行数给出错误的值

Python外部合并排序运行缓慢

python - Csv 文件并为字典提供某些键

python - 如何在 Keras Python 中合并多个顺序模型?

language-agnostic - 自动同义词检测方法

r - R 中的在线机器学习

python - URLconf 不适用于类似的 URL

python - Pygame 移动物体