我有一个餐厅发票数据集,其中包含每个客户订购的产品。
我已经处理了数据,并且 csv 文件中有以下矩阵:
InvoiceID, Product 1, product 2, product 3, product 4, product 5.....
123, 0, 1, 0, 1, 0, .....
124, 0, 1, 1, 1, 0, .....
...
对于每张发票,如果客户订购了列中表示的产品(0 未订购,1 已订购),则我在 csv 中有一个条目包含 0 和 1。
如何使用 sklearn 处理这些数据,以便对发票进行聚类并获取质心,以便我可以查看每个聚类中心中有哪些产品?
谢谢!
编辑: 我有 957 种产品,其中很多从未订购过,所以我可以减少矩阵(不知道最好的方法)
最佳答案
您确定集群就是您所需要的吗?
听起来好像购物篮分析(和频繁的项目集挖掘)是可行的方法。
大多数聚类算法会将每个客户分配给恰好一种类型,而 FIM 还会检测子集和重叠模式。
关于python - Sklearn 聚类相似订单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29268038/