jsoup - 获取网页内容(通过AJAX调用加载)

标签 jsoup web-crawler

我是爬行的初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我曾考虑为此使用webcrawler和jsoup，但被告知webcrawlers主要用于深度更深的网站。

页面样本:Jive社区网站

对于此页面，当我查看页面源代码时，我只能看到帖子，而看不到评论。认为这是因为注释是通过对服务器的AJAX调用获取的。

因此，当我使用jsoup时，它不会获取注释。

那么，如何使获取帖子和评论的过程自动化？

最佳答案

Jsoup仅是html解析器。不幸的是，由于jsoup无法执行这些内容，因此无法解析任何javascript/ajax内容。

解决方案:使用可以处理脚本的库。

这是我知道的一些例子:

HtmlUnit

Java Script Engine

Apache Commons BSF

Rhino

如果这样的库不支持解析或选择器，则至少可以使用它们从脚本中获取Html(然后可以通过jsoup对其进行解析)。

关于jsoup - 获取网页内容(通过AJAX调用加载)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20633294/