javascript - BeautifulSoup 等待 JavaScript/Angular 内容

我正在尝试使用 python 从某个 url 获取所有图像。

所以 beautiful soup 的用法很简单，但我面临的问题是，并非所有 img 标签都打印在控制台中。仔细查看所需的 HTML 文件会发现丢失的图像来自 Angular，因为它们有一个 data-ng-src 标签。

有没有什么办法可以让 soup 等到所有脚本都完成？或者是否有其他方法来检测所有 img 标签？

到目前为止我的代码:

import urllib2
from BeautifulSoup import BeautifulSoup

page = BeautifulSoup(urllib2.urlopen(url))
allImgs = imgs = page.findAll('img')
print allImgs

最佳答案

图像没有插入到 HTML 页面中，它们链接到它。对于需要等待/暂停时间的事情，我宁愿使用 Selenium Web 驱动程序。我认为 Beautiful Soup 正在阅读页面一次全部。我认为它是令人生畏的包装解析文件的琐事，而不是作为与页面交互的工具。

关于javascript - BeautifulSoup 等待 JavaScript/Angular 内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41642428/

相关文章：

python - 减去 Pandas 列中的时间