java - 使用正则表达式删除没有插件的 html 标签

所以我试图删除包含 <p></p> 接受的 html 标签的每个部分。在java中。

我尝试了这个接受，但我无法获得正确的结束标签。我尝试了(///p)，但似乎无法捕捉到它。

"<[^(p>)>]+>.*?<[^(///p>)>]+>"

示例

<p> should stay </p> <html> shouldn't stay</html>

输出

<p> should stay </p>

最佳答案

使用正则表达式来操作 HTML 是一个非常非常糟糕的主意。使用正则表达式解析 HTML/XML 会召唤克苏鲁。你的灵魂将会被克苏鲁吞噬。 Cthulu 的另一个名字是 RegexHtmlParser。

您最好使用 xpath 提取所有段落标签。否则，允许您遍历 DOM 并提取段落标签的 HTML 解析器是您唯一真正的选择。

关于java - 使用正则表达式删除没有插件的 html 标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19574025/