html - 使用 C 解析 html

我需要从 HTML(XHTML 有效)页面中获取一些内容。我使用 curl 抓取页面并将其存储在内存中。

我尝试过将正则表达式与 PCRE 库一起使用的想法，但我找不到任何将它与 C 一起使用的示例。然后我继续查看 HTML 解析器，但同样没有一个好的选择。我所能找到的只是一个名为 HTMLparser 的 libxml 的简陋文档模块。

还有其他选择吗？如果没有，那么我已经找到的例子？

最佳答案

您想使用 HTML tidy 来执行此操作。 Lib curl 页面有一些源代码可以帮助您。遍历 dom 树的文档。您不需要 xml 解析器。不会在格式错误的 html 上失败。

关于html - 使用 C 解析 html，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1527883/

相关文章：

c - 关于C中结构体指针