python 爬虫。解析并执行ajax

标签 python ajax web-scraping web-crawler

我为爬虫设置了一个基本结构。现在我在一些 php 驱动的网站上发布了它,它就像一个魅力。虽然现在我想要它从 ajax 内容构建数据表。

目前我正在使用 Mechanize for PYTHON 和 perl 来构建我的爬虫。尽管 Mechanize 模块不执行 AJAX。我如何获取由异步 ajax 构建的内容?

我知道有一种叫做 Selenium 的东西,一个真正的自动化浏览器。但这是我唯一的选择吗?

最佳答案

您可以运行 headless 浏览器,例如 phantomjs它理解 JavaScript、DOM 等,但你必须用 Javascript 编写代码,好处是你可以做任何你想做的事。

还有另一种方法,但它凌乱

您可以观察单击按钮时发出的请求(使用 Firefox 中的 Firebug 或 Chrome 中的开发人员工具)。比尝试对页面后面运行的 javascript 进行逆向工程,并尝试使用您的 python 代码做类似的事情,为此请查看 Spidermonkey

关于 python 爬虫。解析并执行ajax,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9008534/

相关文章:

python - 配置文件帮助需要太多值

python - 如何使用 python-docx 添加页面边框

javascript - 如何在php ajax中限制字符并显示剩余字符

javascript - Puppeteer:从使用延迟加载的页面中抓取整个 html

python - Python 中的不变性和线程安全

python - View 中的 Django asyncio 调用不起作用

ajax - spring 400 错误请求。我该如何修复它,或者至少看看是什么原因造成的?

javascript - 实时数据馈送和滚动条位置

python - 如何使用 Scrapy DownloadMiddleware 重试 503 响应?

javascript - 如何在两个独立标签之间获取 HTML 元素