url - 如何使用机器学习对网址进行分类?

标签 url machine-learning

我正在为网站内容编制索引,并且希望仅根据网址实现一些分类。

我想区分appart内容 View 页面和导航页面。 我所说的“内容 View 页面”是指人们通常可以看到产品或书面文章的详细信息的网页。 我所说的“导航页面”是指(通常)由指向内容页面或其他更具体的列表页面的链接列表组成的页面。

虽然有些网站使用网站范围的键系统来映射其内容,但大多数网站都是一点一点地进行的,并确定其键映射的范围,因此这应该是可能的。

在实践中,我想要做的是从网站中获取网址列表,并按相似度对它们进行分组。我相信这可以通过机器学习来完成,但我不知道如何做到。 机器学习似乎是一个广泛的主题,我应该特别开始阅读哪些内容? 哪些概念、哪些算法、哪些工具?

最佳答案

如果您想自动发现这些组,我建议您自己找到一个聚类算法的实现( K-Means 可能是最流行的,您不必说明您想用什么语言来执行此操作)。您知道有两个类别,因此允许您先验地指定类别数量将使问题变得更容易。

之后,为您的网页定义一系列特征,并通过 k-means 运行它们以查看生成的组类型。调整您使用的功能,直到获得看起来令人满意的功能。如果您有权访问网页本身,我强烈建议您使用在整个页面上定义的功能,而不仅仅是 URL。

关于url - 如何使用机器学习对网址进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13175555/

相关文章:

html - 是什么意思 ? (问号)在 URL 字符串中?

javascript - 我可以使用 JavaScript/jQuery 捕获当前/所有选项卡 URL 还是需要制作一个插件?

ios - 无法在 iOS 应用程序中启动 native Google map - 而是打开 Safari

machine-learning - (查询、文档、相关性)用于构建信息检索系统的免费数据集

tensorflow - 如何优化具有动态形状的变量?

machine-learning - 乘法滤波器或更标准的加法加权

python-3.x - 基于代码、日期、平均价格的股票预测

url - Google 看到了它不应该看到的东西。为什么?

tensorflow - embedding_column 在 tensorflow 中做什么

c++ - 将 URL 编码为安全的文件名字符串