java - 如何在 Java 中去除文本和 Html 字符串

标签 java html string parsing

我想分析html页面的结构。对于页面，我将其作为字符串，我想删除文本并仅保留 html 结构。我不想使用 DOM 解析器，我需要一些健壮的东西，它不仅适用于 xhtml，而且适用于常规 html。我知道正则表达式足以从字符串中去除 html 标签，但是它们可以用来去除文本并仅保留 html 标签吗？

你知道我可以使用任何其他选项/框架吗？

最佳答案

我怀疑是否有一种简单的方法可以使用正则表达式来做到这一点。

Jericho是一个非常简洁的 HTML 解析器，占用空间小，只有一个 jar，无需额外的外部库。

关于java - 如何在 Java 中去除文本和 Html 字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13936129/

上一篇：java - JDBC 对象列表索引越界

下一篇：java - JSTL for every, var 包含方括号

java - Eclipse 错误 : Exception in thread "AWT-EventQueue-0" java. lang.NullPointerException

html - Angular 内容不允许背景扩展

python - 在python列表中的每个项目的字符串前面添加一个字符串

php - PHP 中内爆函数的可能限制

string - 为什么将字符串称为 “strings”？

java - Mockito - 使用预期参数验证方法调用但忽略某些字段

java - 存储应用程序的 HashMap [代号一]

php - CSS/PHP : how to solve this div float problem/odd even loop in array

javascript - 重定向后，我的 JavaScript 代码将无法运行