我正在尝试通过在线目录监控日常价格。 该站点使用 HTTPS 并使用 javascript 生成目录页面。我如何与网站交互并使其生成我需要的页面?
我已经在其他可以轻松访问 HTML 的网站上这样做了,一旦生成 HTML,我就可以毫无问题地解析它。
我只会Python和Java。
提前致谢。
最佳答案
看看HTMLUnit - 可以完全由您的代码控制的 headless Java 浏览器。一个简单的例子可以在这里看到:http://htmlunit.sourceforge.net/gettingStarted.html
(强制性警告:通过屏幕抓取网站,您可能会违反其服务条款,并可能招致诉讼;在开始之前检查您是否被允许这样做)
关于java - 如何抓取 HTTPS javascript 网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5561950/