我制作了一个网络抓取工具来抓取 IMDB 上的信息。它通过将 url 中的数字更改为不同的随机数字来遍历每个页面,然后在这个新页面上重复网页抓取过程。
http://www.imdb.com/title/tt0800369/ <--为新电影更改此号码。
如何在 BFI 网站上执行此操作?我看不出如何从一部电影转到另一部电影。
提前致谢!
最佳答案
遵循随机生成的链接并不是遍历 WWW 的最有效方法... 您确实应该关注在其他页面上找到的 URL。您可以使用crawler4j这似乎是最容易上手的 Java 爬虫。还有some alternatives 。
关于java - 使用 JSoup 抓取网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19599529/