我为某个网页编写了一个爬虫。该网页有一个 robots.txt,如下所示:
User-Agent: *
Crawl-delay: 30
所以只允许每 30 秒抓取一次网站(对吗?)。但是子页面呢?例如。我可以在不延迟 30 秒的情况下抓取以下网站,因为它们是不同的子页面:
www.mysite.com
www.mysite.com/category_1
www.mysite.com/category_2
我需要在这些请求之间休息 30 秒吗?
谢谢你, 托马斯。
最佳答案
抓取延迟告诉机器人对同一服务器的连续请求之间等待的秒数。
关于python - robots.txt抓取延迟也适用于子页面吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19834632/