Java Html 解析器提取特定数据?

标签 java html-parsing web-scraping

我有一个类似下面的 html 文件

...
<span itemprop="A">234</span>
...
<span itemprop="B">690</span>
...

在此我想提取值作为 A 和 B。
你能推荐任何可以轻松做到这一点的 java html 解析器库吗?

最佳答案

就个人而言,我喜欢 JSoup 优于 JTidy。它有类似 CSS 的 selectors ,并且文档要好得多,恕我直言。使用 JSoup,您可以使用以下行轻松提取这些值:

Document doc = Jsoup.connect("your_url").get();
Elements spans = doc.select("span[itemprop]");

for (Element span : spans) {
  System.out.println(span.text()); // will print 234 and 690
}

关于Java Html 解析器提取特定数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11970938/

相关文章:

java - 遗传算法每次都会提供不同的输出吗?

java - 使用接口(interface)的 ReSTLet 客户端-服务器流式传输

java - 如何在Eclipse中设置Maven项目之间的 "build"依赖关系?

regex - 如何使用 grep、正则表达式或 perl 提取符合模式的字符串

python - 如何使用xpath定位某个项目的某个值?

html - Beautiful Soup Prettify(formatter = 'xml') 已被弃用?

javascript - 以编程方式下载未出现在页面源代码中的文本

java - 创建一个打印 ArrayList 的方法,然后在另一个类中调用它

python - 从某些文本中删除损坏的标签和格式不正确的 html

java - 如何使用 ColdFusion 替换 HTML 中的文本而不替换 HTML 标签?