python - 如何对产品推荐数据集使用 k 均值

标签 python data-mining k-means recommendation-engine sklearn-pandas

我有一个数据集,其中的列标题为产品名称、品牌、评级(1:5)、评论文本、评论有用性。我需要的是提出一个使用评论的推荐算法。我这里必须使用 python 进行编码。数据集采用.csv 格式。

为了识别数据集的性质,我需要在数据集上使用 kmeans。如何在此数据集上使用 k 均值?

因此我做了以下操作,
1.数据预处理,
2.回顾文本数据清理,
3.情感分析,
4.根据他们获得的情感值(通过情感分析给出)给出从1到5的情感评分,并将评论标记为非常负面、负面、中立、正面、非常正面。

在这些过程之后,我的数据集中有这些列:产品名称、品牌、评级(1:5)、评论文本、评论有用性、情感值(value)、情感标签。 这是数据集https://drive.google.com/file/d/1YhCJNvV2BQk0T7PbPoR746DCL6tYmH7l/view?usp=sharing的链接

我尝试使用以下代码获取 k 的意思,它运行时没有错误。但我不知道这是有用的,或者是否有任何其他方法可以在此数据集上使用 kmeans 来获得其他一些有用的输出。要识别有关数据的更多信息,我应该如何在此数据集中使用 k 均值..

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
df.info()
X = np.array(df.drop(['sentiment_value'], 1).astype(float))
y = np.array(df['rating'])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)
plt.show()

最佳答案

你没有策划任何事情。

所以什么也没有显示。

关于python - 如何对产品推荐数据集使用 k 均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56642128/

相关文章:

algorithm - 期望最大化抛硬币例子

algorithm - 使用 BIC 的 K 均值聚类中的最佳聚类数,(MATLAB)

python - 计算 pandas 数据框中另一列的值组之前的行数

拨浪鼓R包: difference between risk and weight variable role?

python - 加速Python中numpy/scipy中的矢量化相关函数?

sql - 在连续的 Postgresql 行中查找数据模式

python - 使用 K-Means 根据不同时间的不同读数对节点进行聚类

python - 我是否可以使用 .pkl 文件,即使它给我一个 DepreciationWarning?

python - 为什么从 Twitter-api 返回数据时有时会出现 python "KeyError:"错误,而其他时候则不会出现?

从 heapq 中提取元素的 Pythonic 方法