我找不到任何好的基于 Java 的 Web 抓取 API。我需要抓取的站点也不提供任何 API;我想使用一些 pageID
遍历所有网页并在其 DOM 树中提取 HTML 标题/其他内容。
除了网页抓取还有其他方法吗?
最佳答案
jsoup
提取标题并不难,而且您有很多选择,请在 Stack Overflow 上搜索“Java HTML 解析器”。其中之一是 Jsoup .
如果您知道页面结构,则可以使用 DOM 导航页面,请参阅 http://jsoup.org/cookbook/extracting-data/dom-navigation
这是一个很好的库,我在上一个项目中使用过它。
关于java - 使用 Java 进行网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3202305/