java - org.htmlparser.Parse ,需要获取 h3 之间的内容

标签 java html-parsing html-parser

htmlparser.解析器, 我有 html 片段(见下文),我需要获取以下内容 这 我的文件中有一堆带有独特 id 的容器 div。 我可以很好地获取 div 及其内部 html。我想不通 如何获取H3标签之间的内容

这段代码适用于 div,但不适用于 h3: 如果找到具有正确 ID 的 h3,我只是不知道如何 获取innerHTML或标签之间的内容。

感谢您的帮助

    parser = new Parser();
    parser.setInputHTML(inHTML);
    parser.setEncoding("UTF-8");
    lstNodes = parser.extractAllNodesThatMatch(  new AndFilter(new TagNameFilter("h3"),
                                                  new HasAttributeFilter("id", "h3_"+num)));

这会找到它,但不会返回 h3 之间的数据

 <div class="container" id="container_2">
      <h3 id="h3_2">Adding a few</h3>       
      <div class="maindiv" id="div_2">
          ...new articles in here jus tto flesh it out.
      </div><!--end of div_2-->
  </div>

最佳答案

我最终创建了自己的标签

class H3Tag extends CompositeTag

关于java - org.htmlparser.Parse ,需要获取 h3 之间的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9813705/

相关文章:

java - Spring JPA Hibernate 自动填充审计字段(创建 ID/时间戳等)

java - 类成员的最小值和最大值

php - 如何使用简单的 html dom 打印表格的单元格

c# - 使用正则表达式 C# 去除除 <b> 之外的 html 标签

javascript - 当没有匹配项时,正则表达式性能不佳

javascript - 有没有方便的 html-parser 可以在 Nativescript 中使用

java - 类中的函数

java - Java中如何解析这个Json结构

python - 使用 HTMLParser 提取数据

python - HTMLParser 误解了 href 中的实体。这是不是一个错误?我应该举报吗?