java - 正则表达式来识别不应嵌套的 anchor 标记

标签 java regex

从 html 源代码中,我必须识别不应嵌套的 anchor 标记。

例如:

<a href="http://www.abc.com">abc<a href="http://www.dbc.com">dbc</a>

从第一场比赛开始,它应该返回

<a href="http://www.abc.com">abc

随后查找

<a href="http://www.dbc.com>dbc</a>

如果没有嵌套,查找时应该从打开 anchor 标记返回到关闭 anchor 标记。如果是嵌套的,则应返回从开放 anchor 标记到嵌套开放 anchor 标记开始之前的字符串。

请帮忙。提前致谢

最佳答案

我建议使用JTidy 。尽管它的名称是 HTML 解析器,但它会处理所有导致正则表达式出错的边缘情况(鉴于 HTML 不是正则表达式,这并不奇怪)。

关于java - 正则表达式来识别不应嵌套的 anchor 标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3512006/

相关文章:

regex - MongoDB 正则表达式查询以查找 unicode 替换字符

java - 验证 selenium 脚本中的 Html 示例

java - 访问 Boolean Java 时出现 NullPointerException

java - 删除 json 中由 @JsonUnwrapped 引起的重复键 - RestController

java - Spring Flash 属性不起作用

javascript - 不区分大小写的正则表达式快速检查

用于匹配与特定模式不匹配的路径的正则表达式 : Express Router

java - 如何使用 eclipse 插件将控制台输出重定向到 GUI 控制台 View ?

regex - pyspark 使用 s3 中的正则表达式/glob 选择文件子集

php - preg_match 查找带或不带第一个大写字母的正则表达式