我想从 HTML 文档中删除所有 javascript 代码,并保留实际文本。是否有任何正则表达式或 python 脚本可以执行此操作?谢谢。
最佳答案
使用 BeautifulSoup :
#!/usr/bin/env python
from BeautifulSoup import BeautifulSoup
with open("with-scripts.html", "r") as f:
soup = BeautifulSoup(f.read())
for script in soup("script"):
script.extract()
with open("without-scripts.html", "w") as f:
f.write(soup.prettify())
关于javascript - 有什么方法可以从 HTML 文档中删除 javascript 代码吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8283907/