java - 如何使用Jsoup从html中提取指定长度的纯文本?

标签 java jsoup

我使用jsoup-1.5.2解析html标签字符串,我想从html字符串中提取纯文本并指定文本的长度,并保持完整的html标签。

例如:

html代码:

<p><span>Mike <u>stopp<b>ed</b></u> his work</span></p>

我想要结果:

指定文本长度=4

result:<p><span>Mike</span></p>

指定文本长度=10

result:<p><span>Mike <u>stopp</u></span></p>

指定文本长度=12

result:<p><span>Mike <u>stopp<b>ed</b></u></span></p>

指定文本长度=16

result:<p><span>Mike <u>stopp<b>ed</b></u> his</span></p>

等等

我可以用jsoup完成吗?

最佳答案

使用 Element 并不简单不幸的是上课。原因是类 Element 中的 'text()' 方法“获取此元素及其所有子元素的组合文本”。这真的很烦人,因为您不能只获取单个元素的文本。您将需要使用 Elements 中的 Elements.select(String).text() 方法类并可能使用通配符(如果可能)。此方法将返回所有匹配节点的“组合”文本。这将作为单个字符串返回,因此您可以在其上调用 String 的“length()”方法。

关于java - 如何使用Jsoup从html中提取指定长度的纯文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6492251/

相关文章:

java - 在多线程程序中使用 Jsoup 出现 400 Http 错误

java - 如何在 QuartzJobBean 的子类中获取 Session/Request 对象

java - 线程 "main"java.lang.NoClassDefFoundError : org/kie/api/KieServices$Factory with Drools version 7. 59.0 中的依赖关系异常问题

java - 数据库中不存在外部集合字段

java - 如何在jsoup中获取元素的一级子元素

java - 使用正则表达式从 HTML 属性中提取数字

java - 包装 span 的内容

java - 在 Eclipse 中,如何找到类型来自类路径中的位置?

在 Windows 上不会发生,但在 Ubuntu 中会发生的 java 错误

java - 如何使用 jsoup 检查 HTML 元素的类型