<分区>
Marc Najork 和 Allan Heydon 撰写了一篇关于他们名为 Mercator 的 Java 可缩放和可扩展网络爬虫的优秀论文。
以下是有关墨卡托网络爬虫的一些资源:
- Mercator Presentation (pdf)
- Mercator Introduction (pdf)
- Mercator Web Crawler Paper (pdf)
搜索结果在 Google 中的第一个结果:“Web Crawling Contents Najork pdf”
有没有人看过爬虫的任何实现(最好是java)?
更新:
我是我在使用链接时遇到了问题,我将尝试为引用论文获取更好的链接。但我想我现在已经修复了它们。