c++ - Boost regex、正则表达式、url 和 img

我需要找到网页 HTML 源代码中的所有链接和图像。实际上我有以下表达:

boost::regex findurl("(?s)<\\s*a\\s+.*?href\\s*=\\s*['\"]([^http]{1}[^\\s>]*)['\"]", boost::regex::normal | boost::regbase::icase);

查找图像(标签)应该是什么样子？

最佳答案

学习 Perl 和使用 HTML::Parser 所花费的时间比调试这个在病态 HTML 上不起作用的正则表达式要少。即使您只询问图像，我已经可以发现其中的三个链接错误。

这包括示例代码，即使您不了解 Perl，您也可能知道如何修改。 http://perlmeme.org/tutorials/html_parser.html

关于c++ - Boost regex、正则表达式、url 和 img，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10710679/

相关文章：

c++ - 如何在 Dart 中输入此 C++ 代码