python - 使用scrapy抓取重定向的url

标签 python scrapy

我正在尝试使用 scrapy 抓取 www.mywebsite.com

www.mywebsite.com 托管在 URL www.mywebsite.freehost.com 的免费主机上。我正在将免费主机重定向到我的付费域名。

这里的问题是scrapy忽略了重定向,最终结果是0个页面被抓取。

如何告诉 scrapy 我需要它来抓取重定向的网址?我只需要它来抓取重定向的 url,而不是导出网站的其他 url(例如 facebook 页面等)

2016-11-27 14:48:42 [scrapy] INFO: Spider opened
2016-11-27 14:48:42 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-11-27 14:48:42 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-11-27 14:48:44 [scrapy] DEBUG: Crawled (200) <GET http://www.mywebsite.com/> (referer: None)
2016-11-27 14:48:44 [scrapy] DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net>
2016-11-27 14:48:44 [scrapy] INFO: Closing spider (finished)
2016-11-27 14:48:44 [scrapy] INFO: Dumping Scrapy stats:

最佳答案

日志显示您的请求正在被过滤:

DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net>

将该域 freehost.net 添加到您的 allowed_domains 列表,或从您的蜘蛛中删除 allowed_domains 以允许每个域。

关于python - 使用scrapy抓取重定向的url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40826506/

相关文章:

python - 凯拉斯导入错误 : cannot import name initializations

python - django上下文语法错误

scrapy - 在scrapy中使用请求有效负载发布请求

python - 使用 scrapy 获取链接和文本

python 检查 noee 异常

python - Numpy:从索引在另一个数组中的数组中获取值

python - 热图未加载 seaborn 和 pandas 数据框

python - 通过代理使用 TLSv1.0 的 Scrapy 握手失败

javascript - 执行 javascript 代码以接受条款并打开下一页

python - scrapy传输start_url到后续请求