url - 如何使用机器学习对网址进行分类？

我正在为网站内容编制索引，并且希望仅根据网址实现一些分类。

我想区分appart内容 View 页面和导航页面。我所说的“内容 View 页面”是指人们通常可以看到产品或书面文章的详细信息的网页。我所说的“导航页面”是指(通常)由指向内容页面或其他更具体的列表页面的链接列表组成的页面。

虽然有些网站使用网站范围的键系统来映射其内容，但大多数网站都是一点一点地进行的，并确定其键映射的范围，因此这应该是可能的。

在实践中，我想要做的是从网站中获取网址列表，并按相似度对它们进行分组。我相信这可以通过机器学习来完成，但我不知道如何做到。机器学习似乎是一个广泛的主题，我应该特别开始阅读哪些内容？哪些概念、哪些算法、哪些工具？

最佳答案

如果您想自动发现这些组，我建议您自己找到一个聚类算法的实现( K-Means 可能是最流行的，您不必说明您想用什么语言来执行此操作)。您知道有两个类别，因此允许您先验地指定类别数量将使问题变得更容易。

之后，为您的网页定义一系列特征，并通过 k-means 运行它们以查看生成的组类型。调整您使用的功能，直到获得看起来令人满意的功能。如果您有权访问网页本身，我强烈建议您使用在整个页面上定义的功能，而不仅仅是 URL。

关于url - 如何使用机器学习对网址进行分类？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13175555/

相关文章：

html - 是什么意思？ (问号)在 URL 字符串中？