java - 如何使用 Jericho 解析没有嵌套 html 元素的文本?

标签 java html parsing jericho-html-parser

使用 Jericho,我需要解析如下内容:

<html>
<div class="title">
    Spoon bows
    <br/>
    <span>
        A Matrix scene.
        <br/>
        Matrix 1
    </span>
</div>
</html>

我想解析“Spoon bows”,但我在 <div> 中得到了全部内容使用以下代码标记:

List<Element> list = item.getAllElementsByClass("title");
if(list!=null) {
    Element title = list.get(0);
    if(title!=null) {
        String text = title.getContent().getTextExtractor().toString();
        }
    }
}

最佳答案

这对您有帮助:

private String getTextContent(Element elem) {
    String text = elem.getContent().toString();

    final List<Element> children = elem.getChildElements();
    for (Element child : children) {
        text = text.replace(child.toString(), "");
    }
    return text;
}

关于java - 如何使用 Jericho 解析没有嵌套 html 元素的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9795436/

相关文章:

jquery - java列表返回json字符串,JSON.parse : expected property name or '}' ?

Java Scanner next (".") 给我 java.util.InputMismatchException

javascript - 检测输入是否被触摸(平板电脑)或单击(鼠标)

javascript - 在 Bootstrap 3 中自定义搜索框 CSS 以及在导航栏中放置元素

python - 如何在大文本文件中提取两个唯一单词之间的信息

arrays - 在 Julia 中将字符串数组解析为对象

java - 这个问题真的需要框架吗?

java - raf.seek(pos) 的类似物

java - 无法解析 AJAX 中 servlet 返回的 JSON 对象

javascript - 无法使复选框自定义图像显示复选标记