html - 使用 C 解析 html

标签 html c regex parsing

我需要从 HTML(XHTML 有效)页面中获取一些内容。我使用 curl 抓取页面并将其存储在内存中。

我尝试过将正则表达式与 PCRE 库一起使用的想法,但我找不到任何将它与 C 一起使用的示例。然后我继续查看 HTML 解析器,但同样没有一个好的选择。我所能找到的只是一个名为 HTMLparser 的 libxml 的简陋文档模块。

还有其他选择吗?如果没有,那么我已经找到的例子?

最佳答案

您想使用 HTML tidy 来执行此操作。 Lib curl 页面有一些源代码可以帮助您。遍历 dom 树的文档。您不需要 xml 解析器。不会在格式错误的 html 上失​​败。

http://curl.haxx.se/libcurl/c/htmltidy.html

关于html - 使用 C 解析 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1527883/

相关文章:

c - 关于C中结构体指针

c - Visual Studio C++ 与 psapi.lib 的链接

python-3.x - Python正则表达式查找双引号中的值(忽略其他语言字符)

android - 验证 EditText 中的电子邮件

javascript - 在一定字符长度后替换字符

javascript - 达到用户的特定页面宽度时如何停止追加?

javascript - 是否有与 <noscript> 相反的 HTML?

c - 轮询和去抖动 GPIO (posix)

html - Bootstrap 3 : Fitting video to grid

jquery - 偏移顶部在 jquery2 和 jquery3 中表现得很奇怪