python - 聚类内部聚类是数据表的嵌套聚类,是多类聚类

标签 python python-2.7 machine-learning artificial-intelligence cluster-analysis

如何对数据集中具有相似名称(例如 McDonald 和 Mc DOnald's)的字符串应用聚类,如果字符串相同(例如 sam 和其他也是 sam),那么如何再次根据值(value)或价格进行聚类 例如- 考虑一个包含 10 个元素的数据表

name           price
ram               200
shyam             150
ram12              59
gita               45
ram 2                45 
g11ita                23
john2                32
john                 7
jonh21               8
jonh                 38
ram22                3

那么分组应该是

ram                    200

ram12                  59
ram  2                 45

ram22                   3

john2                    32
jonh                     37

john                    7
john21                   8

gita                 45
g11ita               23      

我已经使用 fuzzywuzzy 和 Levenheneitein 距离进行字符串聚类,但它只能对字符串进行聚类,而不能对价格进行聚类 如何对第一个字符串进行聚类,如果相同则对价格进行聚类

最佳答案

您需要仔细平衡文本相似性和数字相似性的阈值。不会有一个简单的解决方案,除非您拥有大量数据,否则手动方法可能是最好的。

短字符串的文本相似性非常不可靠。

例如:“dog”和“fog”仅相差一个字母,但不太可能出现拼写错误。它们的编辑距离为 1,最小的非零值!因此,如果您依赖 Levenshtein,您将遇到大量误报 - 如果您手动验证它们还可以,但自动处理则不行。

因此,您至少需要使用了解以下内容的信息:(a) 不太可能拼写错误的现有单词,(b) 常见拼写错误,以及 (c) 语音相似性来估计单词拼写错误的可能性,( d) 键盘相似度,单词输入错误的可能性有多大...

关于python - 聚类内部聚类是数据表的嵌套聚类,是多类聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56607559/

相关文章:

python - 对行值进行排序并显示列顺序

python 在新行中打印每个字符

python - 当我给它图像时,我的 keras 模型会给出随机预测

python-3.x - 逻辑回归成本 = nan

python - 如何使用python在另一个图像中查找图像

python - Github API 如何使用 python 语言获取具有特定扩展名(.c、.cpp、.py 等)的 git 存储库的所有文件的计数?

python - 如何在单独的 QThread 中使用 QTimer

python - 将列表中的值与所有其他值进行比较

python - 按分组然后应用函数然后在 Pandas Python 中展平回数据框

machine-learning - 为什么对于 10 倍交叉验证,Weka 运行学习算法 11 次?