算法:确定主页的类型?

标签 algorithm web-crawler heuristics

我一直在考虑这个问题,所以我想我会征求建议:

我有一些爬虫进入某个站点的根目录(可以是来自 www.StackOverFlow.com、www.SomeDudesPersonalSite.se 甚至 www.Facebook.com 的任何内容)。然后我需要确定我正在访问的是哪种“主页”。例如,不同的类型可能是:

  • 论坛
  • 博客
  • 链接目录
  • 社交媒体网站
  • 新闻网站
  • “一个人的网站”

我已经集思广益了一段时间,最好的解决方案似乎是使用积分系统进行一些试探。我的意思是不同的趋势给不同的类型一些分数,然后程序做出猜测。

但这就是我卡住的地方..你如何检测趋势?

  • 目录可能很简单:如果 sitesIndexed/Outgoing links 非常高,目录应该得到几分。
  • 新闻网站/博客可能很简单:如果大量索引的网站有日期时间,这些类型应该得到几分。

但我真的找不到太多趋势。

SO:我的问题是: 关于如何执行此操作的任何想法?

非常感谢..

最佳答案

我相信您正在尝试文档分类,这是一个经过深入研究的主题。

http://en.wikipedia.org/wiki/Document_classification

您将看到包含许多不同方法的大量列表。但是在确定您所说的“趋势”之前建议其中任何一个(或神经网络等)是过早地建议。我建议研究“网络文档分类”等。它显然是文档分类的一个相当大的子集,如果您可以访问学术期刊,那里有很多难以理解的文章供您欣赏。

我确实也发现了你的想法作为家庭作业——如果你特别大胆,也许你可以联系教授。 http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

最后,我认为这是一个可访问(如果格式奇怪)的网站,其中包含一般性的且可能已过时的讨论: http://www.webology.ir/2008/v5n1/a52.html

恐怕我个人对这个主题的了解不多,所以我最多只能告诉您关键字“文档分类”并提供一些快速谷歌搜索。但是,如果我想玩弄这个概念,我认为简单地寻找某些关键字的比率是一个不错的开始“趋势”。 (“销售”或“购买”或“客户”是购物网站的趋势,“我的”、“意见”、“评论”是博客的趋势,等等)

关于算法:确定主页的类型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3941901/

相关文章:

python - Scrapy CrawlSpider 和 LinkExtractor 规则不适用于分页

node.js - Node.io、JSDOM 还是 PhantomJs?或者,YQL-data.html.cssselect?

javascript - 通过javascript代码获取带有Jsoup填充body标签的Html内容

performance - 计算百分比的浮点乘法的快速替代方法

performance - 两个 Toeplitz 矩阵的乘积?

algorithm - 求解非线性丢番图方程,例如 (8+3n)m = 11?

algorithm - 在没有额外类(class)的情况下找到二叉树中的最深节点?

python - BK-Tree如何优化

java - 八皇后启发式

python - 是否可以在 Python 中实现启发式病毒扫描?