我是爬行的初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我曾考虑为此使用webcrawler和jsoup,但被告知webcrawlers主要用于深度更深的网站。
页面样本:Jive社区网站
对于此页面,当我查看页面源代码时,我只能看到帖子,而看不到评论。认为这是因为注释是通过对服务器的AJAX调用获取的。
因此,当我使用jsoup时,它不会获取注释。
那么,如何使获取帖子和评论的过程自动化?
最佳答案
Jsoup仅是html解析器。不幸的是,由于jsoup无法执行这些内容,因此无法解析任何javascript/ajax内容。
解决方案:使用可以处理脚本的库。
这是我知道的一些例子:
如果这样的库不支持解析或选择器,则至少可以使用它们从脚本中获取Html(然后可以通过jsoup对其进行解析)。
关于jsoup - 获取网页内容(通过AJAX调用加载),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20633294/