.net - 从 HTML 标签汤生成 .NET XmlDocument 的库

标签 .net clr html-parsing xmldocument html-agility-pack

我正在寻找一个可以从无效的 HTML 代码生成干净的 Xml 树的 .NET 库,最好是 System.Xml.XmlDocument。 IE。它应该做出浏览器在遇到这种情况时所做的最大努力猜测、修复和替换,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。 :)

我意识到这个问题很多(太多?),如果有任何有用的线索,我将不胜感激。似乎有相当多的 Java 实现,但我不想生成自己的绑定(bind)。到目前为止,对于 .NET,我已经找到了 http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnet , 和 http://sourceforge.net/projects/tidyfornet .

我尚未构建或测试其中任何一个,但从(稀疏的)文档和罕见的更新来看,它们似乎没有我正在寻找的东西。那么在这些选择中,或者根据您过去的经验,您有什么建议。

最佳答案

HTML Agility Pack评价很高。它肯定会进行解析/最佳猜测等。

该模型在本质上类似于XmlDocument,包括用于查询的SelectNodes等。

如果你需要xhtml输出,有一个OptionOutputAsXml标志;我假设将其设置为 true 并调用 Save 会生成 xhtml。

关于.net - 从 HTML 标签汤生成 .NET XmlDocument 的库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/704832/

相关文章:

c - 将简单的 HTML 解析成树

java - 使用 jsoup 库解析 html 元标记

.net - 在本地运行一些单元测试设置代码,但不在构建服务器上运行

c# - 如何在不影响 SYSTEM/IE 代理的情况下为 Webbrowser Control 设置代理

项目之间的c++ header

c# - 通过 SOS 调查 CLR

c# - 为什么 Mono 中的 Winforms 没有打开任何窗口?

C# 从字符串中获取具有特定模式的子字符串

.net - 致命执行引擎错误 (7A097706)(80131506)

java - 显示\t\n为节点的原因是什么?