我正在寻找一个可以从无效的 HTML 代码生成干净的 Xml 树的 .NET 库,最好是 System.Xml.XmlDocument。 IE。它应该做出浏览器在遇到这种情况时所做的最大努力猜测、修复和替换,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。 :)
我意识到这个问题很多(太多?),如果有任何有用的线索,我将不胜感激。似乎有相当多的 Java 实现,但我不想生成自己的绑定(bind)。到目前为止,对于 .NET,我已经找到了 http://www.majestic12.co.uk/projects/html_parser.php和 http://users.rcn.com/creitzel/tidy.html#dotnet , 和 http://sourceforge.net/projects/tidyfornet .
我尚未构建或测试其中任何一个,但从(稀疏的)文档和罕见的更新来看,它们似乎没有我正在寻找的东西。那么在这些选择中,或者根据您过去的经验,您有什么建议。
最佳答案
HTML Agility Pack评价很高。它肯定会进行解析/最佳猜测等。
该模型在本质上类似于XmlDocument,包括用于查询的SelectNodes等。
如果你需要xhtml输出,有一个OptionOutputAsXml
标志;我假设将其设置为 true 并调用 Save
会生成 xhtml。
关于.net - 从 HTML 标签汤生成 .NET XmlDocument 的库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/704832/