我需要找到网页 HTML 源代码中的所有链接和图像。实际上我有以下表达:
boost::regex findurl("(?s)<\\s*a\\s+.*?href\\s*=\\s*['\"]([^http]{1}[^\\s>]*)['\"]", boost::regex::normal | boost::regbase::icase);
查找图像(标签)应该是什么样子?
最佳答案
学习 Perl 和使用 HTML::Parser 所花费的时间比调试这个在病态 HTML 上不起作用的正则表达式要少。即使您只询问图像,我已经可以发现其中的三个链接错误。
这包括示例代码,即使您不了解 Perl,您也可能知道如何修改。 http://perlmeme.org/tutorials/html_parser.html
关于c++ - Boost regex、正则表达式、url 和 img,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10710679/