c++ - 如何编写用于html解析的正则表达式?

标签 c++ html regex boost html-content-extraction

我正在尝试为我的 html 解析器编写一个正则表达式。

我想用包含一个或多个 <div> 的给定属性(例如 class="tab news selected"<a href> )匹配一个 html 标签标签。正则表达式应匹配整个标签(从 <div></div> )。我似乎总是遇到“内存耗尽”错误 - 我的程序可能会将它能找到的每个标签都作为匹配标签。

我正在使用 boost 正则表达式库。

最佳答案

你应该看看 this question关于。正则表达式和 HTML。要点是,使用正则表达式来解析 HTML 绝不是一个理想的解决方案。

关于c++ - 如何编写用于html解析的正则表达式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/792679/

相关文章:

c++ - CARLA RGB相机传感器的输出格式是什么

c++ - 哪个内存用于全局定义的变量?

javascript - 尝试在 JavaScript 中使用 Gruber 的 "invalid group"URL 匹配正则表达式模式时,如何修复 "improved"错误?

regex - 正常登录正则表达式

具有固定开始和重复 block 的字符串的Java正则表达式

c++ - "resetable" bool 数组 - 使用 vector 还是常规数组?如何 "reset"?

c++ - 如何在arm平台的c程序中调试全局变量损坏?

javascript - 现代 css/jquery 气泡动画

javascript - ionic 没有正确加载元素?

javascript - 无法将图像作为表格添加到 javascript