所以我试图删除包含 <p></p>
接受的 html 标签的每个部分。在java中。
我尝试了这个接受,但我无法获得正确的结束标签。我尝试了(///p),但似乎无法捕捉到它。
"<[^(p>)>]+>.*?<[^(///p>)>]+>"
示例
<p> should stay </p> <html> shouldn't stay</html>
输出
<p> should stay </p>
最佳答案
使用正则表达式来操作 HTML 是一个非常非常糟糕的主意。使用正则表达式解析 HTML/XML 会召唤克苏鲁。你的灵魂将会被克苏鲁吞噬。 Cthulu 的另一个名字是 RegexHtmlParser。
您最好使用 xpath 提取所有段落标签。否则,允许您遍历 DOM 并提取段落标签的 HTML 解析器是您唯一真正的选择。
关于java - 使用正则表达式删除没有插件的 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19574025/