python - Python中基于字符串/整数序列的聚类和距离/相异矩阵

标签 python machine-learning cluster-analysis unsupervised-learning distance-matrix

我有基于客户在商店停留时间的数据。商店有4个区域;区域 1、2、3 和 4。现在,每 2 分钟,我就会根据他所在的区域获取他的读数 10 个数字。EX:

1-1-1-1-1-1-1-1-3-3-2
4-4-3-3-3-3-3-2-1-3-3
3-4-1-2-2-3-1-4-2-1-4

基本上,我预计大多数客户都位于特定区域,并且他们会相应地聚集在一起。因此,在第一个序列中,客户似乎更喜欢区域 1,接下来是区域 3,最后一个就像噪音。

我向程序提供的只是一堆序列(未标记)。如何生成一个距离/相异矩阵来计算 Python 中每个序列之间的距离?

最佳答案

经过一番挖掘,我发现了 python 中的 textdistance 库。

https://pypi.org/project/textdistance/

即使我的输入是整数序列,它似乎也能很好地解决这个问题。

关于python - Python中基于字符串/整数序列的聚类和距离/相异矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57844075/

相关文章:

python - 用于多项逻辑回归的 Keras model.predict

tensorflow - 第一层 MLP 输出在一个 epoch 后为零

python-2.7 - 如何使用 python 或 OpenCV 根据局部特征或全局自动将我的数据集图像聚类到不同的组中?

hadoop - 使用项目相似度 hadoop 作业具有预先计算的项目相似度的基于可扩展实时项目的 mahout 推荐器?

hadoop - 在 hadoop 集群上部署 Mahout

python - 使用 t-SNE 降维执行聚类

python - 无法满足的错误 : The following specifications were found to be in conflict: - pil -> python 2. 6* - python 3.6*

python - 使用 bs4 和 requests 仅获取原始链接

python - 打印没有转义字符的 unicode 字符列表

python - 如何通过强化学习更新函数逼近中的权重?