url - 对大量 URL 进行聚类

标签 url cluster-analysis similarity

最佳答案

这里有一些问题。首先,您可能想用字典清洗 URL,例如转换
http://teethwhitening360.com/teeth-whitening-treatments/18/

teeth whitening 360 com teeth whitening treatments 18
那么您可能想以某种方式阻止单词,例如使用 Porter 词干分析器:
teeth whiten 360 com teeth whiten treatment 18
那么你可以使用一个简单的向量空间模型将 URL 映射到一个 n 维空间中,然后对它们运行 k-means 聚类?这是一种基本方法,但它应该有效。

所涉及的 URL 数量应该不是问题,这取决于您使用的语言/环境。我认为 Matlab 能够处理它。

关于url - 对大量 URL 进行聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9062438/

相关文章:

c++ - 我应该使用哪种方法来确定 2D、3D 和 4D(四元数) vector 的相似性?

python - Python 中列表的相似性——根据客户的特征比较客户

Django:获取url中当前的GET参数并修改其中一个(或多个)

algorithm - DBSCAN 与 OPTICS 的自动聚类

php - 处理完成后删除 URL 中的 GET 参数(不使用 POST),PHP

r - 如何在R中对具有不同大小向量的时间序列数据进行聚类

algorithm - 测试聚类算法的最佳方法

python - 在python中计算大数据集相似度矩阵的有效方法

javascript - Uncaught ReferenceError : Parse is not defined

php - 使用 PHP 获取重定向 URL 的最快方法