从 html 源代码中,我必须识别不应嵌套的 anchor 标记。
例如:
<a href="http://www.abc.com">abc<a href="http://www.dbc.com">dbc</a>
从第一场比赛开始,它应该返回
<a href="http://www.abc.com">abc
随后查找
<a href="http://www.dbc.com>dbc</a>
如果没有嵌套,查找时应该从打开 anchor 标记返回到关闭 anchor 标记。如果是嵌套的,则应返回从开放 anchor 标记到嵌套开放 anchor 标记开始之前的字符串。
请帮忙。提前致谢
最佳答案
我建议使用JTidy 。尽管它的名称是 HTML 解析器,但它会处理所有导致正则表达式出错的边缘情况(鉴于 HTML 不是正则表达式,这并不奇怪)。
关于java - 正则表达式来识别不应嵌套的 anchor 标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3512006/