java - 使用 Java 进行网页抓取

标签 java web-scraping frameworks

我找不到任何好的基于 Java 的 Web 抓取 API。我需要抓取的站点也不提供任何 API;我想使用一些 pageID 遍历所有网页并在其 DOM 树中提取 HTML 标题/其他内容。

除了网页抓取还有其他方法吗?

最佳答案

jsoup

提取标题并不难,而且您有很多选择,请在 Stack Overflow 上搜索“Java HTML 解析器”。其中之一是 Jsoup .

如果您知道页面结构,则可以使用 DOM 导航页面,请参阅 http://jsoup.org/cookbook/extracting-data/dom-navigation

这是一个很好的库,我在上一个项目中使用过它。

关于java - 使用 Java 进行网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3202305/

相关文章:

node.js - 有人可以帮我传递 URL 作为参数吗

java - 用于 Java GUI 应用程序的 MVC/MVP/MVVM 框架

c# - Server 2012 - 4.5.Net Framework 与 3.5 Framework 同时运行

java - 如何在Android中为整个应用程序设置自定义字体

java - "Simply"确定 Java 单选按钮 id

java - 如何构建基于 flyway java 的迁移

python - 无法获得所需的部分而将其余部分踢出

xpath - 用于从指定/选定节点提取 xpath 查询的工具

带有 linq 的 C# Entity Framework 返回空引用

java - 防止键盘在 Activity 开始时显示