java - 使用 Jsoup 提取和解析 HTML 表格

标签 java html web-scraping jsoup

我如何使用 Jsoup 从 this website 中提取规范数据?分别为每一行,例如网络->网络类型、电池等

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class mobilereviews {
    public static void main(String[] args) throws Exception {
        Document doc = Jsoup.connect("http://mobilereviews.net/details-for-Motorola%20L7.htm").get();
        for (Element table : doc.select("table")) {
            for (Element row : table.select("tr")) {
                Elements tds = row.select("td");
                System.out.println(tds.get(0).text());   
            }
        }
    }
}

最佳答案

这是为您的问题找到解决方案的尝试

Document doc = Jsoup.connect("http://mobilereviews.net/details-for-Motorola%20L7.htm").get();

for (Element table : doc.select("table[id=phone_details]")) {
     for (Element row : table.select("tr:gt(2)")) {
        Elements tds = row.select("td:not([rowspan])");
        System.out.println(tds.get(0).text() + "->" + tds.get(1).text());
     }
}

解析 HTML 很棘手,如果 HTML 更改,您的代码也需要更改。

您需要先研究 HTML 标记以得出您的解析规则。

  • HTML 中有多个表格,因此您首先要过滤正确的表格 table[id=phone_details]
  • 前 2 行表格仅包含格式化标记,因此请跳过它们 tr:gt(2)
  • 每隔一行以内容类型的全局描述开始,将其过滤掉td:not([rowspan])

有关选择器语法中更复杂的选项,请查看此处 http://jsoup.org/cookbook/extracting-data/selector-syntax

关于java - 使用 Jsoup 提取和解析 HTML 表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15853002/

相关文章:

python - 带有 Scrapy 的 GraphQL API

python - Scrapy 与 Pycharm "ImportError: No module named settings"

java - Android Volley 将 json 数据发布到服务器

Java正则表达式从字符串中删除数字之间的逗号

java - Webhook 与发布者和订阅者

javascript - 处理背景色覆盖时边框底部不起作用

java - 在 FOP/XSL-FO 中插入图像

javascript - 响应式导航栏未显示(汉堡菜单)

javascript - 仅在当前 div 之前将 CSS 应用于容器中的所有 div

javascript - 如何检查html是否已更改?