language-agnostic - 以编程方式检测页面上的 "most important content"

标签 language-agnostic screen-scraping design-patterns

为了自动确定html文档中最重要的数据,做了什么工作(如果有的话)?例如,以您的标准news/blog/magazine-style网站为例,其中包含导航(可能包含子菜单),广告,评论和奖品-我们的article/blog/news-body。

您如何确定新闻/博客/杂志上的哪些信息是自动生成的主要数据?

注意:理想情况下,该方法适用于格式正确的标记和糟糕的标记。有人使用段落标签来制作段落,还是一系列的中断。

最佳答案

Readability对此做得很好。

它是开源的posted on Google Code

更新:我看到(via HN)有人对mangle RSS feeds into a more useful format, automagically使用了可读性。

关于language-agnostic - 以编程方式检测页面上的 "most important content",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1003734/

相关文章:

javascript - 如何获取《华尔街日报》背后的原始数据

python - 如何用BeautifulSoup获取Python中的具体内容?

java - 在面向对象编程中获取特定类的所有对象

language-agnostic - ASCII图值得我花时间吗?

algorithm - 对字符串进行就地排序以查明是否存在非唯一字符

math - float 学运算是否被破坏?

Java:测试两个对象之间多个属性的不等式

algorithm - 将直引号转换为弯引号的想法

perl - 如何找到 perl 打印的 "wide characters"?

design-patterns - 访客模式的变体 : Why not move the 2nd dispatch into the visitor's `Visit` method?