jsoup - 获取网页内容(通过AJAX调用加载)

标签 jsoup web-crawler

我是爬行的初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我曾考虑为此使用webcrawler和jsoup,但被告知webcrawlers主要用于深度更深的网站。

页面样本:Jive社区网站

对于此页面,当我查看页面源代码时,我只能看到帖子,而看不到评论。认为这是因为注释是通过对服务器的AJAX调用获取的。

因此,当我使用jsoup时,它不会获取注释。

那么,如何使获取帖子和评论的过程自动化?

最佳答案

Jsoup仅是html解析器。不幸的是,由于jsoup无法执行这些内容,因此无法解析任何javascript/ajax内容。

解决方案:使用可以处理脚本的库。

这是我知道的一些例子:

  • HtmlUnit
  • Java Script Engine
  • Apache Commons BSF
  • Rhino

  • 如果这样的库不支持解析或选择器,则至少可以使用它们从脚本中获取Html(然后可以通过jsoup对其进行解析)。

    关于jsoup - 获取网页内容(通过AJAX调用加载),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20633294/

    相关文章:

    java - Jsoup 股票行情刮取雅虎财经

    android - 如何使用 jsoup android 获取特定标签

    java - Jsoup Html解析查询

    java - Jsoup去除html元素和子项的高效方法

    ruby - 为每个请求清除 Firefox 中的 session (Watir 问题)

    python - 有没有Python模块可以帮助从Javascript加载的DOM中抓取数据?

    java - 如何使用 Jsoup 选择只有空格的元素?

    php - 爬行抓取和线程?用PHP

    html - 如何递归爬取url子目录?

    python - (Python)从带有 'style:hidden' 标签的网站抓取数据?