为了自动确定html文档中最重要的数据,做了什么工作(如果有的话)?例如,以您的标准news/blog/magazine-style网站为例,其中包含导航(可能包含子菜单),广告,评论和奖品-我们的article/blog/news-body。
您如何确定新闻/博客/杂志上的哪些信息是自动生成的主要数据?
注意:理想情况下,该方法适用于格式正确的标记和糟糕的标记。有人使用段落标签来制作段落,还是一系列的中断。
最佳答案
Readability对此做得很好。
它是开源的posted on Google Code。
更新:我看到(via HN)有人对mangle RSS feeds into a more useful format, automagically使用了可读性。
关于language-agnostic - 以编程方式检测页面上的 "most important content",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1003734/