java - 解析包含动态 javascript 对象的网页

标签 java python parsing htmlunit dynamic-content

目前我正在使用 python 及其 urllib2、urllib 来检索一个简单的静态网页。一切都很顺利,直到网页开发人员添加了 java 脚本。现在最有趣的信息隐藏在脚本后面:

<a href="javascript://" class="event-more-view" id="view-moreid-12311" onclick="Markets.applyView(this);return false;" treeid="1291266" eventstate ="false" > add table </a>

浏览器预加载数据并在单击“a href”链接时显示它。 我的简短研究成果是 JSOUP 和 HTMLunit。我的挖掘方向正确吗?有什么缺点和优点吗?

Python 有帮助吗?我应该使用 Java 吗?哪些软件包可以帮助处理动态内容?什么更简单?

就我而言,我必须创建某种虚拟浏览器,只要内置脚本随着时间的推移刷新必须处理的数据。

最佳答案

您的挖掘方向是正确的。

以下是一些需要考虑的选项/工具:

另请参阅:

希望有帮助。

关于java - 解析包含动态 javascript 对象的网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17424385/

相关文章:

python - 没有导入导致循环依赖?

python - 打印在 python 列表中找到的字符的两次出现

c# - 解析和序列化

python - 从散文中拆分句子

java - 方法对 SwipeRefreshLayout 没有影响

java - 在 java swing 应用程序中使用线程设置/刷新信息的好方法

java - 为什么要在 Java 中使用 (CustomClass) "string"创建类实例?

python - 计算从出生日期算起的天数

java - ANTLR4只能解析类语句,不能解析整个文件

java - 在 spring-rest API 中从数据库检索图像路径的理想方法是什么?