python - 使用 Scrapy 匹配 robots.txt 中的多个用户代理

标签 python scrapy web-crawler robots.txt

我是 Scrapy 新手,我想知道如何让蜘蛛程序遵守 robots.txt 文件中两个或多个用户代理的规则(例如 Googlebot 和 Googlebot-Mobile)。

我目前正在使用 ROBOTSXTXT_USER_AGENT,但该选项仅允许我指定一个用户代理字符串用于在 robots.txt 文件中进行匹配,并且我需要匹配至少两个用户代理。你知道有什么方法可以做到这一点吗?

最佳答案

我刚刚使用 / 来分隔用户代理以进行匹配,并且它有效:

"ROBOTSTXT_USER_AGENT": "Googlebot | Googlebot-Mobile | *"

关于python - 使用 Scrapy 匹配 robots.txt 中的多个用户代理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59826431/

相关文章:

python - 如何使用saltstack安装和配置mysql

python - PyCharm 5.0.4 上的 python.exe 中的语法错误

python - scrapy 需要 python 2.7 但我已经有了

python - Server可以读取scrapy发送过来的Request.Meta数据吗?

ajax - 抓取 AJAX 请求

php - 仅抓取页面标题

python - 如何使用 Y 轴值将坐标值聚集到行中?

python - RabbitMq - pika - python - 发布时删除消息

python - CSS 或 xpath :select the first 2 elements

python - Scrapy - 每个项目都有不同的管道