python - 有没有Python模块可以帮助从Javascript加载的DOM中抓取数据?

标签 python web-crawler web-scraping

我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据。

我尝试过使用基于 PyQt4 的旧解决方案线抓取,该解决方案在完全加载 DOM 后加载 DOM,但问题是我需要执行 POST 请求,并且它仅适用于 GET。

新的Python模块ghost.py存在超时问题:当它获取大型 DOM 树时,会引发超时异常。

如果有人知道任何特定的方法或工具可以帮助我执行 POST 请求并在完全加载 DOM 后获取数据,那将对我有很大帮助。

最佳答案

您可以使用Selenium自动化浏览器和访问 dom。 Selenium 有 python 驱动程序,因此您可以在 python 中编写代码来导航到该页面。单击按钮并等待 ajax 调用完成,然后再开始抓取。

关于python - 有没有Python模块可以帮助从Javascript加载的DOM中抓取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10360817/

相关文章:

xml - 抓取此 URL、R XML 并获取 sibling

javascript - Python:从html的href标签获取javascript文件

python - 如何找到python库路径?

python - 使用 Django 内联表单集获取 'modelformset_factory without defining ' 字段错误。我究竟做错了什么?

c# - 使用 C# 测试网站

python - 以编程方式登录 Python 网络爬虫

python - Scrapy - 使用 LinkExtractor 抓取站点地图

带有加权无向图的 Python DFS 最短路径搜索

python - 时间戳转换为日期时间 Python、Pandas

vba - 使用 vba 从受密码保护的网站中抓取数据用户定义类型未定义