machine-learning - DBSCAN 和边界点

标签 machine-learning cluster-analysis dbscan

据说 DBSCAN 在边界点上不一致,取决于它首先将点分配给哪个簇。 当 DBSCAN 想要将边界点分配给其中一个簇时,是否有一种变体会考虑每个簇中边界点接近的点数(eps)?

最佳答案

在这种情况下,两个簇的点数通常为 1。

更好的决胜局是距离,但即使如此也可能有平局。

这是一个简单的修改,很容易在后处理中实现:对于每个边界点,找到最近的核心点,并使用该标签。

但是,这重要吗?

集群从来都不是完美的。我们在这里讨论的是一种罕见的情况,其中“最佳”(对于“最佳”的相当特殊的定义,基于两个硬阈值)分配通常与最终结果产生 0.000 的差异

如果我没记错的话,DBSCAN 作者建议您也可以将这些点分配给两个集群。这被认为是最符合定义的解决方案(边界点可以从两个集群到达)。但这让一切变得更加复杂。因为许多用户希望每个点在一个漂亮的数字列中都有一个标签,而不必处理这种特殊情况。

关于machine-learning - DBSCAN 和边界点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50882170/

相关文章:

python - 发现集群后对其附近/内部进行有效过滤 - python

machine-learning - 具有不同序列长度输入的循环神经网络 (RNN)

python-2.7 - 从递归特征消除 (RFE) 中提取最佳特征

machine-learning - 对 TF 和 TF*IDF 向量执行 Chi-2 特征选择

r - 使用 ggplot2 可视化从 MClust 中提取的簇

python - 如何在sklearn.cluster DBSCAN中分配sample_weights?

machine-learning - 在特征选择中,我应该分别在训练和测试数据集上使用 SelectKBest 吗?

python - Numpy 数组按两个条件过滤

cluster-analysis - 使用哪个机器学习库

r - 用于 R 的 HDBSCAN 因大型数据集而崩溃