language-agnostic - 以编程方式检测页面上的 "most important content"

标签 language-agnostic screen-scraping design-patterns

为了自动确定html文档中最重要的数据，做了什么工作(如果有的话)？例如，以您的标准news/blog/magazine-style网站为例，其中包含导航(可能包含子菜单)，广告，评论和奖品-我们的article/blog/news-body。

您如何确定新闻/博客/杂志上的哪些信息是自动生成的主要数据？

注意:理想情况下，该方法适用于格式正确的标记和糟糕的标记。有人使用段落标签来制作段落，还是一系列的中断。

最佳答案

Readability对此做得很好。

它是开源的posted on Google Code。

更新:我看到(via HN)有人对mangle RSS feeds into a more useful format, automagically使用了可读性。

关于language-agnostic - 以编程方式检测页面上的 "most important content"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1003734/

上一篇：xcode - 直接访问 Objective-C 的 isa 已弃用，取而代之的是 object_getClass()

下一篇：unit-testing - 单元测试，内置生产依赖项

相关文章：

javascript - 如何获取《华尔街日报》背后的原始数据

python - 如何用BeautifulSoup获取Python中的具体内容？

java - 在面向对象编程中获取特定类的所有对象

language-agnostic - ASCII图值得我花时间吗？

algorithm - 对字符串进行就地排序以查明是否存在非唯一字符

math - float 学运算是否被破坏？

Java:测试两个对象之间多个属性的不等式

algorithm - 将直引号转换为弯引号的想法

perl - 如何找到 perl 打印的 "wide characters"？

design-patterns - 访客模式的变体 : Why not move the 2nd dispatch into the visitor's `Visit` method?