我正在编写一个网络爬虫,但我对递归调用链接的函数有问题。
假设我有一个页面:http://en.wikipedia.org/wiki/Stirling_numbers_of_the_second_kind
。
我正在寻找所有链接,然后递归地打开每个链接,再次下载所有链接等。
问题是,某些链接虽然具有不同的 url
,但会驱动到同一页面,例如:
http://en.wikipedia.org/wiki/Stirling_numbers_of_the_second_kind#mw-navigation
给出与上一个链接相同的页面。
我有一个无限循环。
是否有可能在不比较该页面的所有内容的情况下检查两个链接是否驱动到同一页面?
最佳答案
您可以存储之前访问过的页面内容的哈希值,并在继续之前检查该页面是否已经被访问过。
关于python - 预测网站是否返回相同的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25275654/