java - 使用标准 java 从 HTML 片段中提取文本

标签 java

我收到一段 HTML 文档作为 Java 字符串,我想提取它的内部文本。 例如:你好世界----> Hello World

有没有办法使用java标准库提取文本? 也许比使用空字符串打开/关闭标记正则表达式更有效? 谢谢,

最佳答案

不要使用正则表达式来解析 HTML,而是使用专用解析器,如 HtmlCleaner .

使用正则表达式通常会在初次测试时起作用,然后开始变得越来越复杂,直到最终无法适应。

关于java - 使用标准 java 从 HTML 片段中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11447082/

相关文章:

java - 无法定位使用 Selenium WebDriver (Java) 实现为 Span 的元素

java - 在 Eclipse 中从 2.4 升级 Gradle 版本

java - 将 Java 模块 jar 作为依赖项添加到 Gradle 项目中

java - 如何使用 Appium 向下滚动以单击特定元素,因为 scrollTo 不起作用

java - 如何在不使用文件路径的情况下引用图像?

Java:互联网地址

java - SIP 替代 TAPI?

java - Android gradle processReleaseResources 失败 android-sdk-linux/build-tools/23.0.0_rc3/aapt java.io.IOException

java - Spring AOP - 未调用切入点/拦截器

java - 我如何对这个 inputStream 进行单元测试已经关闭?