c++ - Boost regex、正则表达式、url 和 img

标签 c++ regex boost expression

我需要找到网页 HTML 源代码中的所有链接和图像。实际上我有以下表达:

boost::regex findurl("(?s)<\\s*a\\s+.*?href\\s*=\\s*['\"]([^http]{1}[^\\s>]*)['\"]", boost::regex::normal | boost::regbase::icase);

查找图像(标签)应该是什么样子?

最佳答案

学习 Perl 和使用 HTML::Parser 所花费的时间比调试这个在病态 HTML 上不起作用的正则表达式要少。即使您只询问图像,我已经可以发现其中的三个链接错误。

这包括示例代码,即使您不了解 Perl,您也可能知道如何修改。 http://perlmeme.org/tutorials/html_parser.html

关于c++ - Boost regex、正则表达式、url 和 img,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10710679/

相关文章:

c++ - 如何在 Dart 中输入此 C++ 代码

regex - 用于 CSV 校正的 Perl REGEX 模式

javascript - 正则表达式不允许电子邮件中的任何位置出现空格

c++ - 在不调用 main 方法的情况下运行 Boost.Test

c++ - 通过 C++ 中的包装器将参数列表传递给构造函数

c++ - main 之外的段错误

c++ - 为什么重载解决方案偏爱不受约束的模板功能而不是更具体的功能?

regex - Xml 模式正则表达式不允许单独使用空格

c++ - 将 boost::mpl::list 应用于类型的模板参数

c++ - 如何在函数 C++ 中管理内存