web-services - 检索给定 URL 的最流行 GET 参数变体的列表?

标签 web-services api machine-learning

我正在致力于围绕链接传播构建智能,并且因为我需要处理许多需要从精确 URL 地址进行反向查找的短 URL 服务,所以我需要能够解析多个近似版本相同的网址。

一个示例是类似 http://www.example.com?ref=affil&hl=en&ct=0 的 URL

当然,在某些情况下更改 GET 参数可能会引用完全不同的页面,特别是当相关 GET 参数引用个人资料或内容 ID 时。

但是快速解析页面可以快速确定页面之间的相似程度。使用一些机器学习,可以很快清楚哪些 GET 参数不会影响给定站点返回的页面内容。

我假设发送 URL 并获取非常相似的 URL 列表的服务只能由 Google 或 Yahoo(或 Twitter)等公司提供,但他们似乎不提供此功能,而且我尚未找到任何其他服务。

如果您知道有任何服务以上述方式将几乎相同的 URL 聚集在一起,请告诉我。

我的赏金是一个拥抱。

最佳答案

每个 URL 都类似于互联网上数据位置的“地址”。 URL 的“主机”部分(在您的示例中为“www.example.com”)是一个 Web 服务器或位于世界某个地方的一组 Web 服务器。如果我们将 URL 视为“地址”,那么主机可能是“国家/地区”。

该国家/地区本身可能会跟踪进入该国的每封邮件。有些会,有些不会。我说的是网络服务器!当然,真正的国家不会记录您收到的每封邮件! :-)

但即使那个“国家”跟踪每封邮件 - 我真的怀疑他们是否有任何机制将该列表发送给您。

对于可能会进行 self 收获的组织,我认为最好的选择是谷歌,但即使在那里,情况也相当严峻。您会发现,由于 Google 并不是世界上每个网络服务器(“国家/地区”)的所有者,因此他们无法知道访问该网络服务器的每个网址。

但他们可以做相反的事情。由于他们可以为遇到的每个页面建立索引,因此他们可以很好地了解网络上公共(public) HTML 页面中出现的每个 URL。当然,这不包括人们在聊天、短信或电子邮件中相互发送的 URL。但他们仍然可以很好地了解存在哪些 URL。

我想我想说的是,你正在寻找的东西实际上并不存在。您获得用于访问单个网站的所有网址的唯一方法是成为该网站的所有者

对不起,伙计。

关于web-services - 检索给定 URL 的最流行 GET 参数变体的列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/795979/

相关文章:

mysql - 在 ruby 中获取时间间隔

python - 在 Theano (CNN) 中添加附加功能

machine-learning - id3决策树程序

java - 如何在Web上部署Web服务

java - 在 JSP 页面中解析基于 xml 的 Web 服务响应的正确方法是什么?

swift - 无法将 API 请求中的数据转换为 JSON - stackoverflow api

windows - 帮助运行 Windows 命令的 Java 库/API

java - 为什么不能在构造函数中同时传递集合和比较器?

machine-learning - 如何将张量写入 PNG 图像文件?

java - 设计具有不同响应参数但相同请求的 REST API