python:从html获取图像链接

标签 python xml regex

来自这样的 html/rss 片段

[...]<div class="..." style="..."></div><p><a href="..."
<img alt="" heightt="" src="http://link.to/image"
width="" /></a><span style="">[...]

我想获取图片源链接“http://link.to/image.jpg”。我怎么能在 python 中做到这一点?谢谢。

最佳答案

lxml是完成工作的工具。

要从网页中抓取所有图片就这么简单:

import lxml.html

tree = lxml.html.parse("http://example.com")
images = tree.xpath("//img/@src")

print images

给予:

['/_img/iana-logo-pageheader.png', '/_img/icann-logo-micro.png']

如果它是一个 RSS 提要,您需要使用 lxml.etree 来解析它。

关于python:从html获取图像链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5927031/

相关文章:

python - 在 SQLAlchemy 中将字符串转换为日期时间戳

java - 以编程方式向布局添加多个按钮

regex - 使用自定义处理替换另一个字符串中出现的字符串

sql - 当一个值被部分屏蔽时比较 oracle 中的值

python - 索引按日期分组并聚合的 Pandas 数据框?

python - 特殊过滤器 pandas dataframe

java - 将 XML 数据发送到 webservices jaxws 的最佳方式是什么

xml - 使用 Windows 命令将非 xml 文件从一个目录复制到另一个目录

regex - 从 Haskell 中的字符串中删除所有表情符号

python - 与 SubsetRandomSampler 有关