java - jsoup 用于带表格的非结构化 html 页面

标签 java android html image jsoup

我正在尝试从中获取主图像url , 到目前为止我尝试过的:

Document doc = null;
    try {
        doc = Jsoup.connect(url).get();
    } catch (IOException e) {
        e.printStackTrace();
    }

    Element table = doc.select("center").get(1);
    Elements rows = table.select("table[width=970]");
    for (int i = 0; i < rows.size(); i++) {
        Element row = rows.get(1);
        Elements cols = row.select("table[width=634]");
        for (int j = 0; j < cols.size(); j++) {
            Element row1 = rows.get(1);
            Elements cols1 = row1.select("table[width=600]");
            for (int k = 0; k < cols1.size(); k++){
                Element row0 = rows.first();
                Elements cols0 = row0.select("td");
                for (Element image : cols0) {
                    String image2 = image.absUrl("src").toString();
                    Log.i("tanja7 ", "pic  " + image2);
                }
            }
        }
    }

这是非结构化的html页面(我不知道如何复制html代码) enter image description here 我做错了什么?

最佳答案

您似乎期望内部元素是 JSoup select 方法调用的结果。这是不对的 - 您将获得与“搜索范围”内的选择器匹配的元素,该搜索范围由您调用 select 的 Element(s)/document 类实例给出。因此,如果您想获取文档的所有表格元素,请执行doc.select("table")。这给你的不是行,而是表。也许您之前确实理解了这一点,但您的变量命名表明并非如此。

无论如何,这是一个有效的选择器。它将获取所有 img 元素,这些元素是具有属性 width=600 且位于文档的另一个表中的表(不一定是直接)子元素。

Elements imgEls = doc.select("table table[width=600] img");
System.out.println(imgEls.first().absUrl("src"));

您说 html 不是结构化的,因此您可能想检查相关图像是否确实始终位于指定的两个表内。

更新: 如果您使用移动设备,请确保添加:

doc = Jsoup.connect(url).userAgent("Mozilla").get();

关于java - jsoup 用于带表格的非结构化 html 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34087664/

相关文章:

java - 如何确定要使用哪个版本的 Jetty?

java - 使用 Lucene 获得更好的搜索结果

java - java中的三角乘法表

java - 从 SQLite DB 填充的列表项的顺序不正确

javascript - 将每个直接的对象组(包括文本)包装在新的 div 中,但 div 除外

html - 允许用户选择链接文本的一部分

java - YAJSW Java 服务包装器是否有 64 位 .dll 之类的东西?

android - Photoview 禁用缩小图像

java - 旋转动画无法正常工作

javascript - 我如何从 HTML 元素触发自定义事件?