java - 解析复杂的 li 标签

标签 java html parsing jsoup html-parsing

我正在尝试使用 Jsoup 解析 HTML 文件。 HTML 中的某些文本不属于标记。

<li class="inactive"> 
  <span class="status label">inactive</span> 
  <a href="/officers/144662696" class="officer inactive" title="more info on MILLTOWN CORPORATE SERVICES">
     MILLTOWN CORPORATE SERVICES
  </a>
  member, 
  <span class="status label">inactive</span> 
  <a href="/companies/us_wv/193180" class="company inactive revoked_(failure_to_file_annual_report)" title="More Free And Open Company Data On EASTBRIDGE L.L.C. (West Virginia (US), 193180)">
    EASTBRIDGE L.L.C.
   </a> 
   (West Virginia (US), 
   <span class="start_date">25 May 2000</span>-<span class="end_date"> 1 Aug 2002</span>)  
</li>

我能够读取标签中的所有内容,但我正在尝试获取值(美国西弗吉尼亚州)成员

有没有办法获取类外部和 li 标记内部的值。

最佳答案

您可能正在寻找类似 Element#ownText 的内容.

这仅获取当前元素的文本,而不是所有子元素的组合文本。

Element listItem = doc.select("li.inactive").first();
System.out.println(listItem.ownText()); // prints "member, (West Virginia (US), -)"

关于java - 解析复杂的 li 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46196882/

相关文章:

jquery - 增加 Bootstrap 下拉菜单宽度

c# - 通过网络读取和解析大型文本文件的最佳方式是什么?

php - HTML php 本地主机数据库检索

javascript - <a onclick ="someFunction"> 和 <a onclick ="someFunction()"> 有什么区别

python - 你会如何解析缩进(python 风格)?

json - 预期解码 Dictionary<String, Any> 但发现一个数组而不是嵌套容器

java - 将限制整数设置为 JTextField

java - 无法获取静态字段的值

java - 在不同的类中实现类的方法

java - 为什么可以用无参方法来代替Function<T,R>