<分区>
我需要做以下事情:
- 获取html文件
- 找出每次出现的“img”标签
- 获取他们的“src”属性
- 将创建的 url 传递给处理
- 将“src”属性更改为新属性
- 使用 Python 2.7 完成所有这些工作
附言我听说过 lmxl 和 BeautifulSoup。你建议如何解决这个问题?也许那时使用正则表达式会更好?还是别的什么?
<分区>
我需要做以下事情:
附言我听说过 lmxl 和 BeautifulSoup。你建议如何解决这个问题?也许那时使用正则表达式会更好?还是别的什么?
最佳答案
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html_string)
for link in soup.findAll('a')
link['src'] = 'New src'
html_string = str(soup)
我不是特别喜欢 BeautifulSoup,但它可以为您完成工作。如果没有必要,尽量不要过度执行您的解决方案,这是解决一般问题可以做的更简单的事情之一。
也就是说,为 future 而 build 同样重要,但您的所有 6 个要求都可以归结为一个,“我想更改‘src’或所有指向 X 的链接”
关于python:查找html标签并替换它们的属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19357506/