我的任务是为搜索引擎创建一个简单的网络爬虫。现在,爬虫应该如何准确地映射网络?按照他找到的第一个链接永不返回,或者一些更高级的搜索方法,如 BFS 或 DFS?
最佳答案
我确实注意到我回答这个问题有点晚了,但尽管如此,这是一个有趣的讨论。
BFS 似乎是一个不错的策略,因为它可以提供帮助 *避免连续请求到单个主机*,在一定程度上。也取决于您的域。您仍然需要处理服务器超时,但 DFS 肯定会造成一些伤害。再次,在 DFS 中,您可以有循环引用 , 无限循环运行 ;除非你做出一些明确的安排。
可以有其他更合适的选择,但在 DFS 和 BFS 之间,在我看来,BFS 获胜。
关于search-engine - 网络爬虫使用 BFS 还是 DFS?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11775256/