python - 如何在不打开浏览器的情况下从网页获取动态 HTML 代码?

标签 python web-scraping

This site 在“功率和能量”文本旁边有一个“导出为 csv”按钮。该按钮的 This is the link 可以在浏览器的开发人员工具上找到(请注意,链接每 15 分钟更改一次)

我的问题是,有没有办法在不打开浏览器的情况下使用 python 获取该链接? (即不使用 selenium,因为如果我对多个站点执行此操作会花费时间。)

我的目标是每 1 小时自动执行一次下载该 CSV 文件的过程。

最佳答案

该 url 在 curl 中有效。因此,数据不依赖于 javascript,您也不需要 selenuim。 st 和 et 是 unix 时间:

datetime.datetime.utcfromtimestamp(1567296000000/1000)

timeUnit=4 是每天一次,因此每小时发出一次请求会浪费网站和您的资源。如果你真的需要每小时,改变时间timeUnit=3和pn0=Power。能量=功率 x 小时

最后,我假设由于您计划每小时运行一次,因此您计划将数据保存在某个地方。如果是这样,请考虑将您的 st 和 et 调整到您需要的范围,以进一步减少您的请求大小。

关于python - 如何在不打开浏览器的情况下从网页获取动态 HTML 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57748585/

相关文章:

python - Mechanize 打开多个页面

python - 是否建议通过启动多个网络驱动程序来使用 Selenium 加速抓取速度?

javascript - 使用 javascript 自动滚动定期从网站上抓取和下载所有图像

excel - 在excel vba中多次单击网页上的按钮

PHP Web 抓取 Javascript 生成的内容

python - 为什么我的代码不能正确拆分扫描的 pdf 中的每一页?

python - 使用python删除pandas DataFrame中的子字符串

python - 添加更多散点时,散点图会更改绘图输出

python - 如何为 Pandas Dataframe 定义 html id

python - 使用多处理/线程通过 Tkinter 读取串行端口和实时图形数据