python - 使用 DBSCAN 聚类过程的奇怪结果

标签 python pandas scikit-learn cluster-analysis

我正在从事与聚类任务相关的任务。 DBSCAN 拟合程序产生奇怪的结果,我不明白我的错误在哪里。我简化了代码,只留下了重要的部分:

clusters = pd.read_csv('cl.csv')

def stb_metric(mac1, mac2):
    if mac1[0] == mac2[0]:
        return 0
    print(mac1[0], mac2[0])
    return 1

X = clusters.mac.unique().reshape(-1, 1)
db = DBSCAN(eps = 1, min_samples = 1, metric = stb_metric).fit(X)

在“stb_metric”输出中,我观察到不存在的 mac1 或 mac2。我已附上 csv 文件进行测试。输出如下:

(8.354702571827299e+18, 2.9454553327798374e+17)
(8.354702571827299e+18, 6.197480706091255e+17)
(8.354702571827299e+18, 2.2314854373712773e+18)
(8.354702571827299e+18, 2.5842000416550815e+18)
(8.354702571827299e+18, 3.525512049236994e+18)
(8.354702571827299e+18, 3.678065423036415e+18)
(8.354702571827299e+18, 5.232482030018176e+18)
(8.354702571827299e+18, 9.212176082078934e+18)
(8.354702571827299e+18, 1.0293104245975763e+19)
(8.354702571827299e+18, 1.2339113289676194e+19)
(8.354702571827299e+18, 1.2848720441363968e+19) etc

Data where reproduced the problem

最佳答案

首先,您与离散指标和 minpts=1 的组合意味着您正在滥用 DBSCAN 来检测重复项。有更有效、更智能的方法可以做到这一点......

现在你的问题可能是:sklearn。

它试图变得聪明,并且可能尝试使用球树来加速这一过程。不幸的是,纯 python 很慢,因此这些部分是在 Cython 中构建的,这最终会迫使您的数据转换为浮点向量 - 因为这是这些子例程支持的唯一数据类型。

解决方法是使用algorithm="brute",但运行时间将为 O(n²)。不幸的是,使用预先计算的距离矩阵(如果你能负担得起 O(n²) 内存)通常比在 sklearn 中使用 ufunc 距离更好。

关于python - 使用 DBSCAN 聚类过程的奇怪结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58901904/

相关文章:

python - 如何使用 pandas 查找一行中的重复单词?

python - 按天汇总 pandas 数据帧时间序列

python - 删除 python pandas 中所有列值的双引号

python - sklearn feature.Extraction 'DictVectorizer' 对象没有属性 'feature_names_'

python - django-admin 自定义命令中的两个参数

python - CircleCI - pytest 找不到测试使用的文件

python-3.x - 带有自定义转换器的并行 GridSearchCV 卡在 IPython 笔记本中

python - 类型错误 : 'KFold' object is not iterable

python - 特殊情况下的 re.split()

python - 写入下一列 CSV 模块 Python