html - 使用自定义爬虫访问分页中的所有页面

标签 html pagination jsoup web-crawler

我已经使用 jsoup 构建了一个自定义爬虫。我能够从特定列表页面中删除所有数据。但是对于有分页的页面,我如何从分页元素中获取链接。就像亚马逊、ebay 等中存在的任何零售列表一样,我将产品列表第一页的 URL 传递给 jsoup。它工作正常。但是我如何自动化获取剩余页面链接的过程。

我知道我可以通过对分页类进行硬编码来获取元素。但我正在寻找一种通用的方法。

最佳答案

    for (int i = 1; i < 10; i++) {
        String url = "http://exampleurl.com/index.php?page=" + i;
        Document doc = Jsoup.connect(url).get();
    }

希望这能带来一些启发。该代码将通过分页遍历网站中的十个页面。

关于html - 使用自定义爬虫访问分页中的所有页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14773465/

相关文章:

pagination - 我可以使用 Liquid 模板在 Jekyll 中进行适当的平铺分页吗?

android - 在android中proguard jsoup时出现意外错误

php - 基于百分位数的颜色代码表单元格

php - MySQL 按类别输出并分页

javascript - 切换标签的类别

c# - 向 gridview 添加分页 asp.net

java - 使用 Jsoup 检索时间标签

java - 如何从网站 HTML 中解析特定字符串

javascript - 打开侧面菜单时更改正文的 alpha 值

html - 样式嵌套标签不起作用