我正在尝试从 HTML 页面中抓取一些内容。我正在使用 libxml2 和 htmlReadMemory 来获取 xmlDocPtr。 HTML很简单,但是有一个问题。基本上是以下内容:
<tr><td><tr><td>Some content</td></tr></td></tr>
libxml 不喜欢嵌套的 tr、tds。它不断给我以下错误:
HTML parser error : Unexpected end tag : td
</TD>
^
HTML parser error : Unexpected end tag : tr
</TR>
我正在使用以下选项:HTML_PARSE_RECOVER。
因此,此时我所做的任何事情都不允许 libxml 解析 HTML。我无法更改 HTML,因为我无权访问它。
有人知道如何让 libxml 解析这种 HTML 吗?
谢谢
最佳答案
您用来解析的确切调用是什么?如果您不希望出现任何错误/警告,我建议组合这些选项:
HTML_PARSE_RECOVER|HTML_PARSE_NOERROR|HTML_PARSE_NOWARNING
关于iphone - libXML 轻松的 HTML 解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3738299/