我需要从 HTML(XHTML 有效)页面中获取一些内容。我使用 curl 抓取页面并将其存储在内存中。
我尝试过将正则表达式与 PCRE 库一起使用的想法,但我找不到任何将它与 C 一起使用的示例。然后我继续查看 HTML 解析器,但同样没有一个好的选择。我所能找到的只是一个名为 HTMLparser 的 libxml 的简陋文档模块。
还有其他选择吗?如果没有,那么我已经找到的例子?
最佳答案
您想使用 HTML tidy 来执行此操作。 Lib curl 页面有一些源代码可以帮助您。遍历 dom 树的文档。您不需要 xml 解析器。不会在格式错误的 html 上失败。
关于html - 使用 C 解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1527883/