我是 Scrapy 新手,我想知道如何让蜘蛛程序遵守 robots.txt 文件中两个或多个用户代理的规则(例如 Googlebot 和 Googlebot-Mobile)。
我目前正在使用 ROBOTSXTXT_USER_AGENT
,但该选项仅允许我指定一个用户代理字符串用于在 robots.txt 文件中进行匹配,并且我需要匹配至少两个用户代理。你知道有什么方法可以做到这一点吗?
最佳答案
我刚刚使用 /
来分隔用户代理以进行匹配,并且它有效:
"ROBOTSTXT_USER_AGENT": "Googlebot | Googlebot-Mobile | *"
关于python - 使用 Scrapy 匹配 robots.txt 中的多个用户代理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59826431/