我有一个功能齐全的 scrapy 脚本来从网站提取数据。在安装过程中,目标站点根据我的 USER_AGENT 信息禁止了我。我随后添加了一个 RotateUserAgentMiddleware 来随机旋转 USER_AGENT。这很好用。
但是,现在当我尝试使用 scrapy shell 测试 xpath 和 css 请求时,出现 403 错误。我确定这是因为 scrapy shell 的 USER_AGENT 默认为目标站点已列入黑名单的某个值。
问题:是否可以使用不同于默认值的 USER_AGENT 在 scrapy shell 中获取 URL?
fetch(' http://www.test ') [加点东西??更改 USER_AGENT]
谢谢
最佳答案
scrapy shell -s USER_AGENT='自定义用户代理' 'http://www.example.com'
关于python - Scrapy Shell - 如何更改 USER_AGENT,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25429671/