java - 如何抓取 HTTPS javascript 网页

标签 java javascript python https web-scraping

我正在尝试通过在线目录监控日常价格。 该站点使用 HTTPS 并使用 javascript 生成目录页面。我如何与网站交互并使其生成我需要的页面?

我已经在其他可以轻松访问 HTML 的网站上这样做了,一旦生成 HTML,我就可以毫无问题地解析它。

我只会Python和Java。

提前致谢。

最佳答案

看看HTMLUnit - 可以完全由您的代码控制的 headless Java 浏览器。一个简单的例子可以在这里看到:http://htmlunit.sourceforge.net/gettingStarted.html

(强制性警告:通过屏幕抓取网站,您可能会违反其服务条款,并可能招致诉讼;在开始之前检查您是否被允许这样做)

关于java - 如何抓取 HTTPS javascript 网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5561950/

相关文章:

java - 调用打包后滚动条不显示

javascript - 来自 jsfiddle 的代码不起作用

javascript - VueJS 中的 For 循环与对象数组中的 TypeScript

python - 使用 pyramid_tm 时,SQLAlchemy session.begin_nested() 应该与 transaction.commit() 一起提交吗?

python - 退出 Python 时打开 SSH 连接

java - Eclipse maven build 没有安装依赖

java - 如何将JFreeChart库添加到JDK?错误: package org. jfree.chart不存在

java - 如何在 Solr 的 CSV 响应中打印您自己的列名称?

javascript - Heroku 应用找不到 Bower 组件

Python-opencv : Read image data from stdin