我正在尝试创建一个适用于博客文章的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法(来自 python)一直是使用 BeautifulSoup/Urllib2 的组合,这没问题,但它假定您知道博客条目的正确标签。有没有人有更好的想法?
这里有一些想法也许有人可以扩展,但我还没有足够的知识/诀窍来实现。
unix 程序“lynx”似乎特别擅长解析博客文章 - 他们使用什么解析器,或者如何使用它?
是否有任何服务/解析器可以自动删除垃圾广告等?
在这种情况下,我有一个模糊的概念,即博客文章通常包含在具有 class="entry"或类似内容的特定定义标签中可能是一个不错的假设。因此,有可能创建一种算法来找到包含最干净文本的封闭标签 - 对此有什么想法吗?
谢谢!
最佳答案
小伙子,我有适合你的完美解决方案吗。
Arc90 的可读性算法正是这样做的。给定 HTML 内容,它会挑选出主要博文文本的内容,忽略页眉、页脚、导航等。
以下是实现:
我将在几天内发布一个 Perl 端口到 CPAN。 完成。
希望这对您有所帮助!
关于html - 创建出色的解析器 - 从 HTML/博客中提取相关文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1146934/