我在树结构中有大约 3400 个文件(大约 80% 是 html 文件)。
- 我需要修改每个 html 文件以删除
样式和字体属性等旧内容并添加另一种样式。
- 我需要更改 html 中所有链接的根目录。例如在 href 属性处将/old/path/更改为/new/path。
- 我需要删除一些链接。例如指向 google.com 的链接需要删除,因此
<a href="http://www.google.com">as google said</a>
应该只是“如谷歌所说”。
有没有什么软件可以帮我做这件事? 是否可以制作脚本?
我不知道如何编写脚本来让它工作,我认为这可能是最快的方法...有人想帮助我吗?
谢谢!
最佳答案
我会设置一个脚本来打开一个 HTML 文件,用可靠的 HTML 解析器解析它(BeautifulSoup 是一个很好的例子),然后以两种方式之一遍历它:在 SAX 模型中,编写表示重写规则或 DOM 模型目标的函数,将规则编写为 XPath 查询并在匹配的 DOM 节点上执行操作。
然后只需在所有 HTML 文件上运行脚本。
关于linux - 需要脚本或软件一次修改很多html文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8542005/