我目前有一个扩展方法,可以从字符串中删除任何 HTML。
Regex.Replace(s, @"<(.|\n)*?>", string.Empty);
这总体上工作正常,但是,我偶尔会收到传递的字符串,其中包含标准 HTML 标记以及编码标记(我无法控制源数据,因此无法在入口点),例如
<p><p>Sample text</p></p>
我需要一个表达式来从字符串中删除编码和非编码的 HTML(无论是段落标记、 anchor 标记、格式标记等)。
最佳答案
我认为您可以使用相同的扩展方法分两次完成此操作。
首先替换通常的未编码标签,然后 Decode返回的字符串并再次执行。简单
关于c# - 使用 RegEx 从字符串中删除编码的 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5028124/