c# - 使用 RegEx 从字符串中删除编码的 HTML

我目前有一个扩展方法，可以从字符串中删除任何 HTML。

Regex.Replace(s, @"<(.|\n)*?>", string.Empty);

这总体上工作正常，但是，我偶尔会收到传递的字符串，其中包含标准 HTML 标记以及编码标记(我无法控制源数据，因此无法在入口点)，例如

&lt;p&gt;<p>Sample text</p>&lt;/p&gt;

我需要一个表达式来从字符串中删除编码和非编码的 HTML(无论是段落标记、 anchor 标记、格式标记等)。

最佳答案

我认为您可以使用相同的扩展方法分两次完成此操作。

首先替换通常的未编码标签，然后 Decode返回的字符串并再次执行。简单

关于c# - 使用 RegEx 从字符串中删除编码的 HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5028124/

相关文章：

java - 使用正则表达式显示目录列表