java - 使用标准 java 从 HTML 片段中提取文本

标签 java

我收到一段 HTML 文档作为 Java 字符串，我想提取它的内部文本。例如:你好世界----> Hello World

有没有办法使用java标准库提取文本？也许比使用空字符串打开/关闭标记正则表达式更有效？谢谢，

最佳答案

不要使用正则表达式来解析 HTML，而是使用专用解析器，如 HtmlCleaner .

使用正则表达式通常会在初次测试时起作用，然后开始变得越来越复杂，直到最终无法适应。

关于java - 使用标准 java 从 HTML 片段中提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11447082/