javascript - 适用于 Python 的 headless 浏览器(需要 Javascript 支持!)

标签 javascript python screen-scraping headless-browser

我需要一个相当容易使用的 headless 浏览器(我对 Python 和一般编程还很陌生),它可以让我导航到一个页面,登录到一个需要 Javascript 的表单,然后抓取结果通过搜索符合特定条件的结果、单击复选框并单击下载文件来访问网页。所有这些都需要 Javascript。

我听说我想要一个 headless 浏览器 - 要求/偏好是我能够从 Python 运行它,并且最好是生成的脚本可以由 py2exe 编译(我正在为其他用户编写这个程序)。

到目前为止,Windmill 看起来可能是我想要的,但我不确定。

任何想法表示赞赏!

最佳答案

我通过 pyqt/pyside 使用 webkit 作为 Python 中的 headless 浏览器:
http://www.riverbankcomputing.co.uk/software/pyqt/download
http://developer.qt.nokia.com/wiki/Category:LanguageBindings::PySide::Downloads

我特别喜欢 webkit,因为它易于设置。对于 Ubuntu,您只需使用:sudo apt-get install python-qt4

这是一个示例脚本:
http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

关于javascript - 适用于 Python 的 headless 浏览器(需要 Javascript 支持!),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6025082/

相关文章:

javascript 无法加载,没有明显的错误

javascript - Angular 4 + Http 在 Cordova 中未进行垃圾收集

javascript - "TypeError: Cannot read property ' s ' of undefined"。 agenda.js 中的 this 是什么意思?

python - 使用函数创建 sympy 矩阵

java - 我应该能够同时打开多少个 Java HttpURLConnection?

javascript - 日期选择 onChange 等效/修复?

python - 将预测结果保存到 CSV

python - Ansible - 如何从列表中删除项目?

python-2.7 - 使用 scrapy 递归地抓取 phpBB 论坛

python - 抓取时如何限制结果的数量