web-crawler - 人们如何从 Google 缓存下载网站？

一位 friend 不小心删除了他的论坛数据库。这通常不会是一个大问题，除了他忽略执行备份这一事实。 2年的内容就这么消失了。显然，他已经吸取了教训。

不过，好消息是 Google 会保留备份，即使个别网站所有者是白痴。坏消息是，传统的爬行机器人会在网站的 Google Cache 版本上卡住。

是否有任何现有内容可以帮助搜索 Google 缓存，或者我将如何自行推出？

最佳答案

您可能还需要考虑抓取 archive.org 缓存。如果您在那里，通常结构会更好。

关于web-crawler - 人们如何从 Google 缓存下载网站？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/372330/

相关文章：

nlp - 关于从 TripAdvisor 抓取数据的任何建议