python - 抓取图片url src时,获取数据:image/jpeg;base64

标签 python html image web-scraping

我试图使用 python urllib2 从网站上抓取图像 url。

这是我获取 html 字符串的代码:

req = urllib2.Request(url, headers = urllib2Header)
htmlStr = urllib2.urlopen(req, timeout=15).read()

当我从浏览器查看时,图像的 html 代码如下所示:

<img id="main-image" src="http://abcd.com/images/41Q2VRKA2QL._SY300_.jpg" alt="" rel="" style="display: inline; cursor: pointer;">

但是,当我从捕获的 htmlStr 中读取时,图像被转换为​​ base64 图像,如下所示:

<img id="main-image" src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAUDBAQEAwUEBAQFBQU....">

我想知道为什么会这样。有没有办法获取原始图像 url 而不是 base64 图像字符串?

谢谢。

最佳答案

你可以使用 BeautifulSoup

示例:

import urllib2
from bs4 import BeautifulSoup

url = "www.theurlyouwanttoscrape.com"
html = urllib2.urlopen(url)

soup = BeautifulSoup(html)

img_src = soup.find('img', {'id':'main_image'})['src']

关于python - 抓取图片url src时,获取数据:image/jpeg;base64,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22339447/

相关文章:

html - 如何用简单的线条边框包裹一组元素?

javascript - 检查元素是否为 div

链接旁边的 CSS 图像 - 更具体?

css - Logo 边距是可点击的

Python:pct_change 抛出类型错误:不支持的操作数类型/: 'str' 和 'float'

python - 奇怪的 Python 代码结果

python - Pandas 合并相似行的列值

python - 使用 Elastic Beanstalk (AWS) 进行 Django 日志记录

html - 不要在悬停时设置父元素的样式

上传和显示后php从服务器删除图像