python - Sklearn 聚类相似订单

标签 python matrix scikit-learn cluster-analysis k-means

我有一个餐厅发票数据集，其中包含每个客户订购的产品。

我已经处理了数据，并且 csv 文件中有以下矩阵:

InvoiceID, Product 1, product 2, product 3, product 4, product 5.....
123,       0,         1,         0,         1,         0,       .....
124,       0,         1,         1,         1,         0,       .....
...

对于每张发票，如果客户订购了列中表示的产品(0 未订购，1 已订购)，则我在 csv 中有一个条目包含 0 和 1。

如何使用 sklearn 处理这些数据，以便对发票进行聚类并获取质心，以便我可以查看每个聚类中心中有哪些产品？

谢谢!

编辑: 我有 957 种产品，其中很多从未订购过，所以我可以减少矩阵(不知道最好的方法)

最佳答案

您确定集群就是您所需要的吗？

听起来好像购物篮分析(和频繁的项目集挖掘)是可行的方法。

大多数聚类算法会将每个客户分配给恰好一种类型，而 FIM 还会检测子集和重叠模式。

关于python - Sklearn 聚类相似订单，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29268038/

上一篇：python - Django 1.7 部署 AppRegistryNotReady 仅在 OpenShift 上

下一篇：python - 使用 netcdf 创建向量到数组中

opengl - 透视矩阵背后的数学原理

巨大矩阵的matlab相关矩阵

python - sklearn(错误的输入形状)ValueError

python - 通过管道将sample_weight参数与XGBoost结合使用

c++ - 如何在 C++ 中有效地访问数组的多个元素？

python lambda if/else 条件失败 : 'int' and 'function' conflicts

python - 向字典中添加算术值？

python - 如何从递归 Python 函数返回值？

python - 每个任务完成后立即处理异步任务列表