java - 如何使用java剥离所有html标签并提取内容?

标签 java

我需要从字符串中转义所有 html 标签并仅提取内容。我将有一个 HTML 内容作为输入。例如

<html><body><input type=’text’ value=’Hello World’ size=’50’ /> <div> This is a basic example </div><br/><span align=’center’>Hello Sam!!!</span></body><html>

我需要如下输出:

Hello World. This is a basic example.
Hello Sam!!!

我尝试过使用 HtmlCleaner 甚至 JSoup。首先,我没有得到它们的任何完整示例应用程序。我能够提取

This is a basic example.
Hello Sam!!!

使用 HTMLCleaner 但无法提取文本框值,因为它是一个属性。请帮忙。

最佳答案

Here's an example ,使用 JSoup,展示了如何从元素中提取属性值。

关于java - 如何使用java剥离所有html标签并提取内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8316834/

相关文章:

java - AchartEngine 获取触摸点位置

java - 返回原始类型的方法是否可能返回 null?

java - 如何配置 swagger 来处理自定义 Controller 级路径变量注释?

java - 我在运行 java 线程时遇到问题,它只能运行一次

java - 在 Spark Java 中,重定向后 session 为空

java - 如何从类路径加载 ICC 配置文件?

java - Docker 容器中使用 Selenium 和 Java 的 Headless chrome

java - 指定 before/after::operator 的通用方法引用类型

java - Java 中的空指针异常。 (数组的 for 循环被破坏了?)

Java 流具有多个不同的属性