java - 用汤提取数据

标签 java jsoup

我正在使用 jsoup 从网络中提取信息,我的代码如下:

doc = Jsoup.connect(myurl).get();
            Elements newsHeadlines = doc.select(".myclass");

如果我对 newsHeadlines 执行 System.out.println,我会得到:

<span class="cmtComentario">
<span class="blaicon"></span>
<span class="blacoment"><span class="cmtHora" data-hora=""></span>
<span class="blathing" data-minutoPartido="93'"></span>
<span class="blado"></span>
<span class="blahave">
Oh yeah!<br/></span>
</span>
</span>
<span class="cmtComentario">
<span class="blaicon"></span>
<span class="blacoment"><span class="cmtHora" data-hora=""></span>
<span class="blathing" data-health="97'"></span>
<span class="blado"></span>
<span class="blahave">
This is my world</span>
</span>
</span>

如何将每个 block 保存在数组中:

<span class="cmtComentario">
    <span class="blaicon"></span>
    <span class="blacoment"><span class="cmtHora" data-hora=""></span>
    <span class="blathing" data-health="92'"></span>
    <span class="blado"></span>
    <span class="blahave">
    This is my world</span>
    </span>
    </span>

非常感谢

最佳答案

newsHeadlines 只不过是 Element 的列表如Elements实现列表。

因此,您可以像迭代列表一样迭代 newsHeadlines

for(Element element : newsHeadlines) {
    System.out.println(element.toString());
}

如果这不是您需要的(我没有测试代码),您可以尝试 Element.children 。 这再次为您提供了可以迭代的元素。

关于java - 用汤提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27638996/

相关文章:

java - 正则表达式解析 JSoup 中的 html 源

java - 从 <p> 元素中提取标记实体

java - 有没有更好的方法在 Matcher 中使用 group() 提取名称-值?

java - 如何避免java.lang.OutOfMemoryError : PermGen space

java - 您需要数据库事务来读取数据吗?

android - 你如何使用 JSoup 查找元素(HTML 解析)?

java - 403 禁止 : Jsoup can't handle session cookies properly?

java - 将多行字符串从 JsonNode 序列化为 YAML 字符串会添加双引号和 "\n"

java - 如何让 Jbutton 填充 JPanel 以便按钮之间没有空格?

java - jsoup是否下载CSS、JS和图片