python 爬虫。解析并执行ajax

我为爬虫设置了一个基本结构。现在我在一些 php 驱动的网站上发布了它，它就像一个魅力。虽然现在我想要它从 ajax 内容构建数据表。

目前我正在使用 Mechanize for PYTHON 和 perl 来构建我的爬虫。尽管 Mechanize 模块不执行 AJAX。我如何获取由异步 ajax 构建的内容？

我知道有一种叫做 Selenium 的东西，一个真正的自动化浏览器。但这是我唯一的选择吗？

最佳答案

您可以运行 headless 浏览器，例如 phantomjs它理解 JavaScript、DOM 等，但你必须用 Javascript 编写代码，好处是你可以做任何你想做的事。

还有另一种方法，但它凌乱。

您可以观察单击按钮时发出的请求(使用 Firefox 中的 Firebug 或 Chrome 中的开发人员工具)。比尝试对页面后面运行的 javascript 进行逆向工程，并尝试使用您的 python 代码做类似的事情，为此请查看 Spidermonkey

关于 python 爬虫。解析并执行ajax，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9008534/

相关文章：

python - 配置文件帮助需要太多值