c# - 从 html 中删除除文本以外的所有内容

标签 c# html string

我们的 CMS 允许用户使用 html 编辑器输入文本,因此在将文本读入网页时,我可以这样输入文本:

&#xD;&#xA;      <p>&#xD;&#xA;      <strong>text text. more 
text</strong>&#xD;&#xA;      <a href="http://blabla>blabla</a> even more text...

我怎样才能删除除文本之外的所有内容,包括 , 和 .和相似的角色?

最佳答案

假设这是 html(不是 xhtml),我会使用 HTML Agility Pack解析它,并访问 InnerText :

static void Main()
{
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(@"&#xD;&#xA;      <p>&#xD;&#xA;      <strong>text text. more text</strong>&#xD;&#xA;      <a href=""http://blabla>blabla</a> even more text...");
    string s = doc.DocumentNode.InnerText;
    // s is: &#xD;&#xA;      &#xD;&#xA;      text text. more text&#xD;&#xA;     
}

关于c# - 从 html 中删除除文本以外的所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1393982/

相关文章:

c# - 带大括号的字符串格式化

javascript - 在 JavaScript 中替换多个字符串的好方法

vb.net - 生成随机字符串

java - android 无法从二维码中提取数据

Python BeautifulSoup 只是读取第一行

c++ - 对于字符串对象连接,stringstream 是否比字符串的运算符 '+' 更好?

c# - ListViewItem 构造

c# - 如何在 wp8 中禁用 Web 浏览器中的滚动?

C# 缓存过期不起作用

javascript - 如何使叠加效果与图像响应