java - 使用 JSoup 抓取网页

标签 java web screen-scraping jsoup

我制作了一个网络抓取工具来抓取 IMDB 上的信息。它通过将 url 中的数字更改为不同的随机数字来遍历每个页面,然后在这个新页面上重复网页抓取过程。

http://www.imdb.com/title/tt0800369/ <--为新电影更改此号码。

如何在 BFI 网站上执行此操作?我看不出如何从一部电影转到另一部电影。

提前致谢!

最佳答案

遵循随机生成的链接并不是遍历 WWW 的最有效方法... 您确实应该关注在其他页面上找到的 URL。您可以使用crawler4j这似乎是最容易上手的 Java 爬虫。还有some alternatives

关于java - 使用 JSoup 抓取网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19599529/

相关文章:

mysql - Django 将错误的查询结果传递给模板

html - 向右滚动的表格中的粘性标题

python - scrapy,如何在 HTML 标签元素中分隔文本

amazon-web-services - 在java中以编程方式检索亚马逊订单历史记录

java - RocksDB:太多非常小的 SST 文件

java - 我们如何从 JSON 文档中检索所有键及其前缀

java - 编写java程序登录HTTP PHP网站

java - Selenium:如何使用相同的类名选择第n个按钮

java - @MultipartForm 如何获取原始文件名?

java - 对于没有 WEB-INF 目录的 Maven/Java 项目,将 Spring 上下文文件放在哪里?