html - 创建出色的解析器 - 从 HTML/博客中提取相关文本

标签 html parsing text-parsing html-content-extraction

我正在尝试创建一个适用于博客文章的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法(来自 python)一直是使用 BeautifulSoup/Urllib2 的组合,这没问题,但它假定您知道博客条目的正确标签。有没有人有更好的想法?

这里有一些想法也许有人可以扩展,但我还没有足够的知识/诀窍来实现。

  1. unix 程序“lynx”似乎特别擅长解析博客文章 - 他们使用什么解析器,或者如何使用它?

  2. 是否有任何服务/解析器可以自动删除垃圾广告等?

  3. 在这种情况下,我有一个模糊的概念,即博客文章通常包含在具有 class="entry"或类似内容的特定定义标签中可能是一个不错的假设。因此,有可能创建一种算法来找到包含最干净文本的封闭标签 - 对此有什么想法吗?

谢谢!

最佳答案

小伙子,我有适合你的完美解决方案吗。

Arc90 的可读性算法正是这样做的。给定 HTML 内容,它会挑选出主要博文文本的内容,忽略页眉、页脚、导航等。

以下是实现:

我将在几天内发布一个 Perl 端口到 CPAN。 完成。

希望这对您有所帮助!

关于html - 创建出色的解析器 - 从 HTML/博客中提取相关文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1146934/

相关文章:

javascript - 使用 javascript 和/或 CSS 滚动的 flex 元素

javascript - 更改 div 功能的大小不起作用

php - PHP解析/语法错误;以及如何解决它们

python-2.7 - 使用 Python 将邮箱转换为 csv

PHP:用逗号(,)拆分字符串但忽略方括号内的任何内容?

javascript - 如何下载 base64 编码的图像?

css - 如何在放大或缩小页面时阻止 DIVS 移动?

shell - 如何使用 sed 仅打印第一条非空白行

c# - 使用 C# 正则表达式去除 HTML 标签

php - 给定大写名称转换为 Proper Case,处理 "O' Hara"、 "McDonald" "van der Sloot"等