我如何使用 Jsoup 从 this website 中提取规范数据?分别为每一行,例如网络->网络类型、电池等
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class mobilereviews {
public static void main(String[] args) throws Exception {
Document doc = Jsoup.connect("http://mobilereviews.net/details-for-Motorola%20L7.htm").get();
for (Element table : doc.select("table")) {
for (Element row : table.select("tr")) {
Elements tds = row.select("td");
System.out.println(tds.get(0).text());
}
}
}
}
最佳答案
这是为您的问题找到解决方案的尝试
Document doc = Jsoup.connect("http://mobilereviews.net/details-for-Motorola%20L7.htm").get();
for (Element table : doc.select("table[id=phone_details]")) {
for (Element row : table.select("tr:gt(2)")) {
Elements tds = row.select("td:not([rowspan])");
System.out.println(tds.get(0).text() + "->" + tds.get(1).text());
}
}
解析 HTML 很棘手,如果 HTML 更改,您的代码也需要更改。
您需要先研究 HTML 标记以得出您的解析规则。
- HTML 中有多个表格,因此您首先要过滤正确的表格
table[id=phone_details]
- 前 2 行表格仅包含格式化标记,因此请跳过它们
tr:gt(2)
- 每隔一行以内容类型的全局描述开始,将其过滤掉
td:not([rowspan])
有关选择器语法中更复杂的选项,请查看此处 http://jsoup.org/cookbook/extracting-data/selector-syntax
关于java - 使用 Jsoup 提取和解析 HTML 表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15853002/