javascript - BeautifulSoup 等待 JavaScript/Angular 内容

标签 javascript python html angularjs beautifulsoup

我正在尝试使用 python 从某个 url 获取所有图像。

所以 beautiful soup 的用法很简单,但我面临的问题是,并非所有 img 标签都打印在控制台中。仔细查看所需的 HTML 文件会发现丢失的图像来自 Angular,因为它们有一个 data-ng-src 标签。

有没有什么办法可以让 soup 等到所有脚本都完成?或者是否有其他方法来检测所有 img 标签?

到目前为止我的代码:

import urllib2
from BeautifulSoup import BeautifulSoup

page = BeautifulSoup(urllib2.urlopen(url))
allImgs = imgs = page.findAll('img')
print allImgs

最佳答案

图像没有插入到 HTML 页面中,它们链接到它。 对于需要等待/暂停时间的事情,我宁愿 使用 Selenium Web 驱动程序。我认为 Beautiful Soup 正在阅读页面 一次全部。我认为它是令人生畏的包装 解析文件的琐事,而不是作为与页面交互的工具。

关于javascript - BeautifulSoup 等待 JavaScript/Angular 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41642428/

相关文章:

python - 减去 Pandas 列中的时间

python - 加速 nautilus python-extensions 以读取图像的 Exif

javascript - 如何比较两个值并返回正确答案javascript,以及如何只调用一次函数javascript

javascript - 文本区域自动向下滚动

javascript - 为什么 $watch() 不起作用

python - 使用SQLAlchemy删除级联外键约束错误

javascript - 将最后一个 td 带到 tr knockout 中的下一行

php - 更新后的 Wordpress 'Illegal string offset'

javascript - Chart.js 是否可以设置标签的样式?

javascript - 当 https 成功时在 Controller 之间传递数据