您好,我正在尝试从字符串中删除 HTML 标记。 我试图删除的标签是
<td class="gutter"> text text </td>
我尝试了以下方法,但没有任何效果:
String regex = "<td class=\"gutter\">([^<]*)</td>";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(htmlstring);
m.find() / m.matches()
但似乎根本找不到它......我做错了什么?
最佳答案
您不能使用正则表达式来处理 HTML(或 XML)。不可能做到正确(不是“难”,而是技术上不可能)。使用像 Jsoup 这样的 HTML 解析器。然后就很简单了,只需按照文档操作即可。
关于Java查找html标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9012159/