我正在使用正则表达式解析 Java 中的 HTML 文件,我想知道如何匹配所有不以 .htm
结尾的 href=""元素。或.html
,如果匹配,则将引号之间的内容捕获到一个组中
这些是我迄今为止尝试过的:
href\s*[=]\s*"(.+?)(?![.]htm[l]?)"
href\s*[=]\s*"(.*?)(?![.]htm[l]?)"
href\s*[=]\s*"(?![.]htm[l]?)"
据我所知,对于前两个,引号之间的整个字符串都被捕获到第一组中,包括 .htm
( l
) 如果存在的话。
有谁知道如何避免这种情况发生?
最佳答案
关于Java:匹配所有不以.htm结尾的字符串?”,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26150143/