python - 聚类内部聚类是数据表的嵌套聚类，是多类聚类

标签 python python-2.7 machine-learning artificial-intelligence cluster-analysis

如何对数据集中具有相似名称(例如 McDonald 和 Mc DOnald's)的字符串应用聚类，如果字符串相同(例如 sam 和其他也是 sam)，那么如何再次根据值(value)或价格进行聚类例如- 考虑一个包含 10 个元素的数据表

name           price
ram               200
shyam             150
ram12              59
gita               45
ram 2                45 
g11ita                23
john2                32
john                 7
jonh21               8
jonh                 38
ram22                3

那么分组应该是

ram                    200

ram12                  59
ram  2                 45

ram22                   3

john2                    32
jonh                     37

john                    7
john21                   8

gita                 45
g11ita               23

我已经使用 fuzzywuzzy 和 Levenheneitein 距离进行字符串聚类，但它只能对字符串进行聚类，而不能对价格进行聚类如何对第一个字符串进行聚类，如果相同则对价格进行聚类

最佳答案

您需要仔细平衡文本相似性和数字相似性的阈值。不会有一个简单的解决方案，除非您拥有大量数据，否则手动方法可能是最好的。

短字符串的文本相似性非常不可靠。

例如:“dog”和“fog”仅相差一个字母，但不太可能出现拼写错误。它们的编辑距离为 1，最小的非零值!因此，如果您依赖 Levenshtein，您将遇到大量误报 - 如果您手动验证它们还可以，但自动处理则不行。

因此，您至少需要使用了解以下内容的信息:(a) 不太可能拼写错误的现有单词，(b) 常见拼写错误，以及 (c) 语音相似性来估计单词拼写错误的可能性，( d) 键盘相似度，单词输入错误的可能性有多大...

关于python - 聚类内部聚类是数据表的嵌套聚类，是多类聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56607559/

上一篇：machine-learning - 在小数据集上使用 Keras 和 vgg16 进行迁移学习

下一篇：python - Keras 中预测数据的逆比例

相关文章：

python - 对行值进行排序并显示列顺序

python 在新行中打印每个字符

python - 当我给它图像时，我的 keras 模型会给出随机预测

python-3.x - 逻辑回归成本 = nan

python - 如何使用python在另一个图像中查找图像

python - Github API 如何使用 python 语言获取具有特定扩展名(.c、.cpp、.py 等)的 git 存储库的所有文件的计数？

python - 如何在单独的 QThread 中使用 QTimer

python - 将列表中的值与所有其他值进行比较

python - 按分组然后应用函数然后在 Pandas Python 中展平回数据框

machine-learning - 为什么对于 10 倍交叉验证，Weka 运行学习算法 11 次？