c# - 使用 RegEx 从字符串中删除编码的 HTML

标签 c# .net regex

我目前有一个扩展方法,可以从字符串中删除任何 HTML。

Regex.Replace(s, @"<(.|\n)*?>", string.Empty);

这总体上工作正常,但是,我偶尔会收到传递的字符串,其中包含标准 HTML 标记以及编码标记(我无法控制源数据,因此无法在入口点),例如

&lt;p&gt;<p>Sample text</p>&lt;/p&gt;

我需要一个表达式来从字符串中删除编码和非编码的 HTML(无论是段落标记、 anchor 标记、格式标记等)。

最佳答案

我认为您可以使用相同的扩展方法分两次完成此操作。

首先替换通常的未编码标签,然后 Decode返回的字符串并再次执行。简单

关于c# - 使用 RegEx 从字符串中删除编码的 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5028124/

相关文章:

java - 使用正则表达式显示目录列表

c# - 仅当使用 .NET 匹配另一个单独的过滤器时,如何执行正则表达式替换?

c# - 静态方法中的局部变量线程安全吗?

c# - 如何为新的面板类重用现有的布局代码?

c# - 在 C# 中,如何将默认获取与显式设置混合使用?

c# - 好的,我应该在哪里创建动态控件

.net - 关于在 .Net 中移动 float 据类型的细节?

.net - asp.net net.mail - 在 Debug模式下将所有电子邮件路由到不同的电子邮件地址

c# - `typeof(T).IsAssignableFrom(x.GetType())` 可以安全地重写为 `x is T` 吗?

php - preg_match 精确数字