目前我正在使用 python 及其 urllib2、urllib 来检索一个简单的静态网页。一切都很顺利,直到网页开发人员添加了 java 脚本。现在最有趣的信息隐藏在脚本后面:
<a href="javascript://" class="event-more-view" id="view-moreid-12311" onclick="Markets.applyView(this);return false;" treeid="1291266" eventstate ="false" > add table </a>
浏览器预加载数据并在单击“a href”链接时显示它。 我的简短研究成果是 JSOUP 和 HTMLunit。我的挖掘方向正确吗?有什么缺点和优点吗?
Python 有帮助吗?我应该使用 Java 吗?哪些软件包可以帮助处理动态内容?什么更简单?
就我而言,我必须创建某种虚拟浏览器,只要内置脚本随着时间的推移刷新必须处理的数据。
最佳答案
您的挖掘方向是正确的。
以下是一些需要考虑的选项/工具:
另请参阅:
希望有帮助。
关于java - 解析包含动态 javascript 对象的网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17424385/