python - Sklearn 聚类相似订单

标签 python matrix scikit-learn cluster-analysis k-means

我有一个餐厅发票数据集,其中包含每个客户订购的产品。

我已经处理了数据,并且 csv 文件中有以下矩阵:

InvoiceID, Product 1, product 2, product 3, product 4, product 5.....
123,       0,         1,         0,         1,         0,       .....
124,       0,         1,         1,         1,         0,       .....
...

对于每张发票,如果客户订购了列中表示的产品(0 未订购,1 已订购),则我在 csv 中有一个条目包含 0 和 1。

如何使用 sklearn 处理这些数据,以便对发票进行聚类并获取质心,以便我可以查看每个聚类中心中有哪些产品?

谢谢!

编辑: 我有 957 种产品,其中很多从未订购过,所以我可以减少矩阵(不知道最好的方法)

最佳答案

您确定集群就是您所需要的吗?

听起来好像购物篮分析(和频繁的项目集挖掘)是可行的方法。

大多数聚类算法会将每个客户分配给恰好一种类型,而 FIM 还会检测子集和重叠模式。

关于python - Sklearn 聚类相似订单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29268038/

相关文章:

python - 在 sklearn NearestNeighbor 中使用每个邻居一次

opengl - 透视矩阵背后的数学原理

巨大矩阵的matlab相关矩阵

python - sklearn(错误的输入形状)ValueError

python - 通过管道将sample_weight参数与XGBoost结合使用

c++ - 如何在 C++ 中有效地访问数组的多个元素?

python lambda if/else 条件失败 : 'int' and 'function' conflicts

python - 向字典中添加算术值?

python - 如何从递归 Python 函数返回值?

python - 每个任务完成后立即处理异步任务列表