我想分析html页面的结构。对于页面,我将其作为字符串,我想删除文本并仅保留 html 结构。我不想使用 DOM 解析器,我需要一些健壮的东西,它不仅适用于 xhtml,而且适用于常规 html。我知道正则表达式足以从字符串中去除 html 标签,但是它们可以用来去除文本并仅保留 html 标签吗?
你知道我可以使用任何其他选项/框架吗?
最佳答案
我怀疑是否有一种简单的方法可以使用正则表达式来做到这一点。
Jericho是一个非常简洁的 HTML 解析器,占用空间小,只有一个 jar,无需额外的外部库。
关于java - 如何在 Java 中去除文本和 Html 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13936129/