python - 预测网站是否返回相同的内容

标签 python url web-crawler urllib2

我正在编写一个网络爬虫,但我对递归调用链接的函数有问题。 假设我有一个页面:http://en.wikipedia.org/wiki/Stirling_numbers_of_the_second_kind。 我正在寻找所有链接,然后递归地打开每个链接,再次下载所有链接等。 问题是,某些链接虽然具有不同的 url,但会驱动到同一页面,例如: http://en.wikipedia.org/wiki/Stirling_numbers_of_the_second_kind#mw-navigation 给出与上一个链接相同的页面。 我有一个无限循环。

是否有可能在不比较该页面的所有内容的情况下检查两个链接是否驱动到同一页面?

最佳答案

您可以存储之前访问过的页面内容的哈希值,并在继续之前检查该页面是否已经被访问过。

关于python - 预测网站是否返回相同的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25275654/

相关文章:

python - 使用 Python 通过 POST 传递 JSON 对象

Python unicode编码问题

python - 为什么一个类具有其元类的属性?

url - Google Places API 按网址搜索

web-services - bit.ly或tinyurl网址是否到期?

python - Django查询过滤器多对多对多等

java - 如何使用 JAVA 从 Internet 下载 zip 文件并将其保存在特定文件夹中?

java - 在 Java 中使用 Selenium 单击动态下拉 div

Go网络爬虫卡住了

jquery - google如何索引通过jquery动态加载的页面