我有一个文本文件,即使删除所有 html 标签后,仍然包含一些撇号和其他标点符号的 html 代码示例:
It's // It's
我的问题是如何更改所有这些?
我在linux下使用bash脚本来获取html文件
最佳答案
或者,如果您有 lynx
,请将其用作:
lynx -stdin -dump < file.html
上面的代码也会删除 HTML 标签,例如从此 file.html
<i>It's</i>
<<b>&</b>>
打印
It's <&>
关于html - 如何在终端中解析html文本文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47612599/