html - 如何在终端中解析html文本文件？

我有一个文本文件，即使删除所有 html 标签后，仍然包含一些撇号和其他标点符号的 html 代码示例:

  It&#039;s  // It's

我的问题是如何更改所有这些？

我在linux下使用bash脚本来获取html文件

最佳答案

或者，如果您有 lynx，请将其用作:

lynx -stdin -dump < file.html

上面的代码也会删除 HTML 标签，例如从此 file.html

<i>It&#039;s</i>
&lt;<b>&amp;</b>&#62;

打印

   It's <&>

关于html - 如何在终端中解析html文本文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47612599/

相关文章：

android - 在 ext4 和 fat32 之间建立链接