java - 有没有工具可以隔离网页内容?

标签 java html-parsing web-scraping

我正在开展一个学校项目,我们想要分析网页的内容。然而,我们不想处理诸如导航栏和评论之类的事情。如果我们正在查看一个特定的网站,我们可以创建一个解析器来专门为该网站过滤掉此类无关的内容,但我们希望能够在我们以前可能从未遇到过的任意网站上工作。

我觉得希望有点太大了,所以如果这样的东西还不存在,我不会感到惊讶,但是有人知道有一种工具可以在任意网站上进行这种内容隔离吗?我很幸运地将页面与同一站点的其他页面进行比较,但它并不完美,并且会留下评论等。

我正在使用 Java 工作,但欢迎任何语言的开源内容,我可以将其用于创意。

最佳答案

我对此有点晚了(尤其是对于学校项目),但如果有人在将来的某个时候发现这一点,以下内容可能会有所帮助。

我偶然发现了一个 Java 库来完成这个任务。在我的简单测试中,性能与可读性类似。

http://code.google.com/p/boilerpipe/

关于java - 有没有工具可以隔离网页内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4242814/

相关文章:

java - 在运行时创建 Java 语句

java - 为 `File not found` 获取 `asset` 错误。怎么会这样?

java - Jsoup找到最近的href

Python 在字符串中使用通配符

python - 无法按行拆分网页抓取的表格

java - 如何实现虚拟过滤器以排除文件被过滤?

java - 将独立对象添加到 RealmList

python - beautifulsoup 表树 : find all tr between two objects?

java - 查找正确表格时出现问题

python - 如何在 OperaDriver 中启用内置 VPN?