我收到一段 HTML 文档作为 Java 字符串,我想提取它的内部文本。 例如:你好世界----> Hello World
有没有办法使用java标准库提取文本? 也许比使用空字符串打开/关闭标记正则表达式更有效? 谢谢,
最佳答案
不要使用正则表达式来解析 HTML,而是使用专用解析器,如 HtmlCleaner .
使用正则表达式通常会在初次测试时起作用,然后开始变得越来越复杂,直到最终无法适应。
关于java - 使用标准 java 从 HTML 片段中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11447082/