java - 使用 JSoup 抓取网页

我制作了一个网络抓取工具来抓取 IMDB 上的信息。它通过将 url 中的数字更改为不同的随机数字来遍历每个页面，然后在这个新页面上重复网页抓取过程。

如何在 BFI 网站上执行此操作？我看不出如何从一部电影转到另一部电影。

提前致谢!

最佳答案

遵循随机生成的链接并不是遍历 WWW 的最有效方法... 您确实应该关注在其他页面上找到的 URL。您可以使用crawler4j这似乎是最容易上手的 Java 爬虫。还有some alternatives 。

关于java - 使用 JSoup 抓取网页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19599529/

相关文章：

mysql - Django 将错误的查询结果传递给模板