web-crawler - 人们如何从 Google 缓存下载网站?

标签 web-crawler googlebot

一位 friend 不小心删除了他的论坛数据库。这通常不会是一个大问题,除了他忽略执行备份这一事实。 2年的内容就这么消失了。显然,他已经吸取了教训。

不过,好消息是 Google 会保留备份,即使个别网站所有者是白痴。坏消息是,传统的爬行机器人会在网站的 Google Cache 版本上卡住。

是否有任何现有内容可以帮助搜索 Google 缓存,或者我将如何自行推出?

最佳答案

您可能还需要考虑抓取 archive.org 缓存。如果您在那里,通常结构会更好。

关于web-crawler - 人们如何从 Google 缓存下载网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/372330/

相关文章:

nlp - 关于从 TripAdvisor 抓取数据的任何建议

python - 如何使用Python将unicode字符串转换为真正的字符串

web-crawler - 什么是 "Bytespider"用户代理?

xml - 如何增加站点地图索引的数量

Python网页爬取BeautifulSoup : getting both text and links

java - 索引 65 处的路径中存在非法字符异常 [ java ]

algorithm - Google AdSense 机器人的算法和行为

SEO友好的分页结构

seo - SEO 如何影响 ReactJS 页面变化

indexing - 为什么 Google(或 Googlebot)会索引一个返回 500 错误的页面?