python - robots.txt抓取延迟也适用于子页面吗?

标签 python web-crawler robots.txt

我为某个网页编写了一个爬虫。该网页有一个 robots.txt,如下所示:

User-Agent: * 
Crawl-delay: 30

所以只允许每 30 秒抓取一次网站(对吗?)。但是子页面呢?例如。我可以在不延迟 30 秒的情况下抓取以下网站,因为它们是不同的子页面:

www.mysite.com
www.mysite.com/category_1 
www.mysite.com/category_2 

我需要在这些请求之间休息 30 秒吗?

谢谢你, 托马斯。

最佳答案

抓取延迟告诉机器人对同一服务器的连续请求之间等待的秒数。

关于python - robots.txt抓取延迟也适用于子页面吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19834632/

相关文章:

seo - 交叉提交的站点地图

node.js - 使用 NodeJS 查找域上的所有页面

python - 从 View 中发出 websocket 消息

node.js - 如何只抓取 h3 标签的项目?

python - 通过 python virtualenvwrapper 链接到 brew openssl

html - 用 beautifulsoup 解析 <br> 标签

optimization - Ultraseek 5.7 的搜索引擎优化

tomcat - 如何为前端和后端 Web 服务器实现 robots.txt 文件?

python - 在字符串中查找数字并将其递减

python - Wagtail 自定义内联 PageChooser