我确信这个问题以前曾被问过,而且我之前也查过,但找不到答案,或者也许我只是做错了什么。
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(indivdualfix[0]);
HtmlWeb hwObject = new HtmlWeb();
HtmlAgilityPack.HtmlDocument htmldocObject = hwObject.Load(indivdualfix[0]);
HtmlNode body = htmldocObject.DocumentNode.SelectSingleNode("//body");
body.Attributes.Remove("style");
foreach (var a in body.Attributes.ToArray())
a.Remove();
string bodywork = body.InnerHtml.ToString();
字符串主体仍然返回所有的html编码。我可能在这里遗漏了一些很小的东西。需要做什么才能基本上删除所有 html 编码。
最佳答案
使用body.InnerText
而不是body.InnerHtml
关于c# - HTMLAgilityPack 剥离 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4727547/