java - 是否有墨卡托网络爬虫的任何开源实现

标签 java web-crawler

<分区>

Marc Najork 和 Allan Heydon 撰写了一篇关于他们名为 Mercator 的 Java 可缩放和可扩展网络爬虫的优秀论文。

以下是有关墨卡托网络爬虫的一些资源:

有没有人看过爬虫的任何实现(最好是java)?

更新:
我是我在使用链接时遇到了问题,我将尝试为引用论文获取更好的链接。但我想我现在已经修复了它们。

最佳答案

我发现了几个 Java 爬虫,它们应该非常接近墨卡托:

  • Nutch是多线程和分布式的。
  • Heritrix只是多线程的。

欢迎其他引用。

关于java - 是否有墨卡托网络爬虫的任何开源实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5627164/

相关文章:

java - JPA/Spring 从 2 个 MySQL 表返回 JSON 作为嵌套对象

java - 为什么我的 setOnKeyListener() 不起作用?

seo - 如何告诉 Google 机器人某些链接不再存在

youtube - 查找带有字幕的特定语言的随机youtube视频

javascript - Facebook Graph API 搜索城市内的人

java - 使用 Qualifier 注入(inject) Autowiring 的依赖项失败

java - 结果集来自更新。没有数据

java - 无法使用 REST 服务绘制 Google 图表

python - 具有长 start_urls 列表和 urls 的 Scrapy Crawling URLs 的顺序来自蜘蛛

ruby - 跳过扩展名为 pdf、zip 的网页,从 Anemone 中爬行