html - 创建出色的解析器 - 从 HTML/博客中提取相关文本

我正在尝试创建一个适用于博客文章的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法(来自 python)一直是使用 BeautifulSoup/Urllib2 的组合，这没问题，但它假定您知道博客条目的正确标签。有没有人有更好的想法？

这里有一些想法也许有人可以扩展，但我还没有足够的知识/诀窍来实现。

unix 程序“lynx”似乎特别擅长解析博客文章 - 他们使用什么解析器，或者如何使用它？
是否有任何服务/解析器可以自动删除垃圾广告等？
在这种情况下，我有一个模糊的概念，即博客文章通常包含在具有 class="entry"或类似内容的特定定义标签中可能是一个不错的假设。因此，有可能创建一种算法来找到包含最干净文本的封闭标签 - 对此有什么想法吗？

谢谢!

最佳答案

小伙子，我有适合你的完美解决方案吗。

Arc90 的可读性算法正是这样做的。给定 HTML 内容，它会挑选出主要博文文本的内容，忽略页眉、页脚、导航等。

以下是实现: