我尝试通过以下方式使用 HtmlAgilityPack 解析 HTML:
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);
不幸的是,xhtmlString 包含不必要的空格和换行符,所以 htmlDoc 的_text 现在看起来像这样:
<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>
在处理 body 的子元素时,这对我来说是个问题。
删除这些不需要的字符的最简单方法是什么?
HtmlAgilityPack 是否提供某种功能来清除换行符和制表符中的 HTML?
最佳答案
这是文档缩进,而不是不必要的空格和换行符。
我看不出这怎么可能是个问题,但你不能只替换特殊字符,如“\t”、“\n”吗?
通过快速搜索,我找到了这个 Html Agility Pack: make code look neat
也许将某些属性设置为 false 会有所帮助
关于c# - 使用 HtmlAgilityPack 解析时删除空格和换行符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8743344/