.net - 从 HTML 标签汤生成 .NET XmlDocument 的库

我正在寻找一个可以从无效的 HTML 代码生成干净的 Xml 树的 .NET 库，最好是 System.Xml.XmlDocument。 IE。它应该做出浏览器在遇到这种情况时所做的最大努力猜测、修复和替换，并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。 :)

我意识到这个问题很多(太多？)，如果有任何有用的线索，我将不胜感激。似乎有相当多的 Java 实现，但我不想生成自己的绑定(bind)。到目前为止，对于 .NET，我已经找到了 http://www.majestic12.co.uk/projects/html_parser.php和 http://users.rcn.com/creitzel/tidy.html#dotnet , 和 http://sourceforge.net/projects/tidyfornet .

我尚未构建或测试其中任何一个，但从(稀疏的)文档和罕见的更新来看，它们似乎没有我正在寻找的东西。那么在这些选择中，或者根据您过去的经验，您有什么建议。

最佳答案

HTML Agility Pack评价很高。它肯定会进行解析/最佳猜测等。

该模型在本质上类似于XmlDocument，包括用于查询的SelectNodes等。

如果你需要xhtml输出，有一个OptionOutputAsXml标志；我假设将其设置为 true 并调用 Save 会生成 xhtml。

关于.net - 从 HTML 标签汤生成 .NET XmlDocument 的库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/704832/