html - 如何在终端中解析html文本文件?

标签 html linux bash gnome-terminal

我有一个文本文件,即使删除所有 html 标签后,仍然包含一些撇号和其他标点符号的 html 代码示例:

  It's  // It's 

我的问题是如何更改所有这些?

我在linux下使用bash脚本来获取html文件

最佳答案

或者,如果您有 lynx,请将其用作:

lynx -stdin -dump < file.html

上面的代码也会删除 HTML 标签,例如从此 file.html

<i>It&#039;s</i>
&lt;<b>&amp;</b>&#62;

打印

   It's <&>

关于html - 如何在终端中解析html文本文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47612599/

相关文章:

android - 在 ext4 和 fat32 之间建立链接

regex - Sed:无法替换部分字符串而不替换全部字符串

c# - Linux 上的 Visual Studio 2019

regex - 将可选参数与 Bash 正则表达式中的非捕获组匹配

linux - 如果 bash 脚本的条件有什么问题

javascript - 如何在加载时自动更改外部js文件的url

javascript - 反向地理编码 - Google map v3

bash - 如何 scp 文件名中带有冒号的文件?

javascript - 无法将事件类添加到网站上的按钮

javascript - 创建这个水平菜单导航栏最简单的方法是什么?