java - 如何在 Java 中去除文本和 Html 字符串

标签 java html string parsing

我想分析html页面的结构。对于页面,我将其作为字符串,我想删除文本并仅保留 html 结构。我不想使用 DOM 解析器,我需要一些健壮的东西,它不仅适用于 xhtml,而且适用于常规 html。我知道正则表达式足以从字符串中去除 html 标签,但是它们可以用来去除文本并仅保留 html 标签吗?

你知道我可以使用任何其他选项/框架吗?

最佳答案

我怀疑是否有一种简单的方法可以使用正则表达式来做到这一点。

Jericho是一个非常简洁的 HTML 解析器,占用空间小,只有一个 jar,无需额外的外部库。

关于java - 如何在 Java 中去除文本和 Html 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13936129/

相关文章:

java:带有 2 个事件 "click on Jtable cell"按钮的对话框?

java - Eclipse 错误 : Exception in thread "AWT-EventQueue-0" java. lang.NullPointerException

html - Angular 内容不允许背景扩展

python - 在python列表中的每个项目的字符串前面添加一个字符串

php - PHP 中内爆函数的可能限制

string - 为什么将字符串称为 “strings”?

java - Mockito - 使用预期参数验证方法调用但忽略某些字段

java - 存储应用程序的 HashMap [代号一]

php - CSS/PHP : how to solve this div float problem/odd even loop in array

javascript - 重定向后,我的 JavaScript 代码将无法运行