java - 使用 Java 进行网页抓取

我找不到任何好的基于 Java 的 Web 抓取 API。我需要抓取的站点也不提供任何 API；我想使用一些 pageID 遍历所有网页并在其 DOM 树中提取 HTML 标题/其他内容。

除了网页抓取还有其他方法吗？

最佳答案

jsoup

提取标题并不难，而且您有很多选择，请在 Stack Overflow 上搜索“Java HTML 解析器”。其中之一是 Jsoup .

如果您知道页面结构，则可以使用 DOM 导航页面，请参阅 http://jsoup.org/cookbook/extracting-data/dom-navigation

这是一个很好的库，我在上一个项目中使用过它。

关于java - 使用 Java 进行网页抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3202305/

相关文章：

node.js - 有人可以帮我传递 URL 作为参数吗