我为爬虫设置了一个基本结构。现在我在一些 php 驱动的网站上发布了它,它就像一个魅力。虽然现在我想要它从 ajax 内容构建数据表。
目前我正在使用 Mechanize for PYTHON 和 perl 来构建我的爬虫。尽管 Mechanize 模块不执行 AJAX。我如何获取由异步 ajax 构建的内容?
我知道有一种叫做 Selenium 的东西,一个真正的自动化浏览器。但这是我唯一的选择吗?
最佳答案
您可以运行 headless 浏览器,例如 phantomjs它理解 JavaScript、DOM 等,但你必须用 Javascript 编写代码,好处是你可以做任何你想做的事。
还有另一种方法,但它凌乱
。
您可以观察单击按钮时发出的请求(使用 Firefox 中的 Firebug 或 Chrome 中的开发人员工具)。比尝试对页面后面运行的 javascript 进行逆向工程,并尝试使用您的 python 代码做类似的事情,为此请查看 Spidermonkey
关于 python 爬虫。解析并执行ajax,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9008534/