machine-learning - DBSCAN 和边界点

据说 DBSCAN 在边界点上不一致，取决于它首先将点分配给哪个簇。当 DBSCAN 想要将边界点分配给其中一个簇时，是否有一种变体会考虑每个簇中边界点接近的点数(eps)？

最佳答案

在这种情况下，两个簇的点数通常为 1。

更好的决胜局是距离，但即使如此也可能有平局。

这是一个简单的修改，很容易在后处理中实现:对于每个边界点，找到最近的核心点，并使用该标签。

但是，这重要吗？

集群从来都不是完美的。我们在这里讨论的是一种罕见的情况，其中“最佳”(对于“最佳”的相当特殊的定义，基于两个硬阈值)分配通常与最终结果产生 0.000 的差异。

如果我没记错的话，DBSCAN 作者建议您也可以将这些点分配给两个集群。这被认为是最符合定义的解决方案(边界点可以从两个集群到达)。但这让一切变得更加复杂。因为许多用户希望每个点在一个漂亮的数字列中都有一个标签，而不必处理这种特殊情况。

关于machine-learning - DBSCAN 和边界点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50882170/

相关文章：

python - 发现集群后对其附近/内部进行有效过滤 - python