我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据。
我尝试过使用基于 PyQt4 的旧解决方案线抓取,该解决方案在完全加载 DOM 后加载 DOM,但问题是我需要执行 POST 请求,并且它仅适用于 GET。
新的Python模块ghost.py存在超时问题:当它获取大型 DOM 树时,会引发超时异常。
如果有人知道任何特定的方法或工具可以帮助我执行 POST 请求并在完全加载 DOM 后获取数据,那将对我有很大帮助。
最佳答案
您可以使用Selenium自动化浏览器和访问 dom。 Selenium 有 python 驱动程序,因此您可以在 python 中编写代码来导航到该页面。单击按钮并等待 ajax 调用完成,然后再开始抓取。
关于python - 有没有Python模块可以帮助从Javascript加载的DOM中抓取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10360817/