我正在尝试使用 python 从某个 url 获取所有图像。
所以 beautiful soup 的用法很简单,但我面临的问题是,并非所有 img 标签都打印在控制台中。仔细查看所需的 HTML 文件会发现丢失的图像来自 Angular,因为它们有一个 data-ng-src 标签。
有没有什么办法可以让 soup 等到所有脚本都完成?或者是否有其他方法来检测所有 img 标签?
到目前为止我的代码:
import urllib2
from BeautifulSoup import BeautifulSoup
page = BeautifulSoup(urllib2.urlopen(url))
allImgs = imgs = page.findAll('img')
print allImgs
最佳答案
图像没有插入到 HTML 页面中,它们链接到它。 对于需要等待/暂停时间的事情,我宁愿 使用 Selenium Web 驱动程序。我认为 Beautiful Soup 正在阅读页面 一次全部。我认为它是令人生畏的包装 解析文件的琐事,而不是作为与页面交互的工具。
关于javascript - BeautifulSoup 等待 JavaScript/Angular 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41642428/