C# HTMLAgilityPack HTML to Text - 解析错误

标签 c# html-parsing html-agility-pack

我需要使用 C# 从 HTML 文件中提取文本。 我正在尝试使用 HTMLAgilityPack 但我看到一些解析错误(标签未关闭)。 我正在使用这两个选项:

        htmlDoc.OptionFixNestedTags = true;
        htmlDoc.OptionAutoCloseOnEnd = true;

是否有任何“修复所有”类型的选项。我不关心错误,我只想要内容或关闭。

最佳答案

也许这是解决方法,但一旦我不得不从 HTML 中提取文本,我就使用了正则表达式:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");

关于C# HTMLAgilityPack HTML to Text - 解析错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3802564/

相关文章:

C# 打开 SQLite 文件

c# - 使用 HTMLAgilityPack 将孤立文本放入标签中

c# - 使用 HtmlAgilityPack 选择内部文本

c# - 限制只能通过 .net 应用程序使用的目录

c# - 如何从 .NET 中的存储过程返回 oracle 输出参数

java - 在 Android 中解析和执行 HTML

python - 使用BeautifulSoup根据文本内容删除元素

php - 双选择框无法正确发布

c# - 使用 htmlagilitypack 从浏览器加载

c# - 如何强制 XDocument 在声明行中输出 "UTF-8"?