我需要使用 C# 从 HTML 文件中提取文本。 我正在尝试使用 HTMLAgilityPack 但我看到一些解析错误(标签未关闭)。 我正在使用这两个选项:
htmlDoc.OptionFixNestedTags = true;
htmlDoc.OptionAutoCloseOnEnd = true;
是否有任何“修复所有”类型的选项。我不关心错误,我只想要内容或关闭。
最佳答案
也许这是解决方法,但一旦我不得不从 HTML 中提取文本,我就使用了正则表达式:
result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");
关于C# HTMLAgilityPack HTML to Text - 解析错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3802564/