我必须将用户输入的文本以 HTML 和 CSS
格式存储在我的数据库中。
案例是:
RadEditor ,用户将文本从 MSWord 复制到此编辑器,然后我将此文本以该格式存储在数据库中。然后当检索报告中的数据或某些标签时,某些标签会出现在文本的包装中!!
我使用正则表达式删除所有格式,但有时会成功,但并非总是如此。
private static Regex oClearHtmlScript = new Regex(@"<(.|\n)*?>", RegexOptions.Compiled);
public static string RemoveAllHTMLTags(string sHtml)
{
sHtml = sHtml.Replace(" ", string.Empty);
sHtml = sHtml.Replace(">", ">");
sHtml = sHtml.Replace("<", "<");
sHtml = sHtml.Replace("&", "&");
if (string.IsNullOrEmpty(sHtml))
return string.Empty;
return oClearHtmlScript.Replace(sHtml, string.Empty);
}
我问如何使用 HTMLAgility 删除所有格式或确保文本纯净的任何可靠方法?
注意:
该字段在数据库中的数据类型为Lvarchar
最佳答案
这应该从字符串中删除所有 html 标签。
sHtml = Regex.Replace(sHtml, "<.*?>", "");
关于asp.net - 如何删除所有标签并获得纯文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16303828/