python - Scrapy - 如何同时在S3和本地文件系统中保存json文件

标签 python json amazon-s3 scrapy

我已设置将 json 保存在 S3 存储桶中。但如果可能的话,我也想保存在我的本地计算机中。

我尝试了下面的配置,但是Scrapy仅保存在本地计算机中。

FEED_URI = 's3://bucket/scraped/file.jl'
FEED_URI = 'file:///tmp/file.jl'

我不太了解 Scrapy 文档 here 解释的设置

最佳答案

Scrapy 的 feed 导出扩展不支持同时将项目发送到两个地方。

设置中的

FEED_URI 只是一个 Python 变量,因此它仅保存在本地计算机中的原因是因为它被第二次覆盖。

您可以通过使用 FEED_URI 将项目发送到 S3 并编写一个在本地保存项目的管道来解决这个问题。

关于python - Scrapy - 如何同时在S3和本地文件系统中保存json文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33246308/

相关文章:

python - 如何在一张表中同时显示聚合计数和百分比

蟒 turtle : why centered square for odd size is uneven/distorted?

ruby-on-rails-3 - 如何将 Prawn PDF 文件存储到 Amazon S3 中

python网络爬虫下载文件

python - Jupyter 找不到 Python 类

jquery - 从 ajax JSON 响应构建数组

javascript - 如何在 Node js中解析JSON?

javascript - 获取 URL 并使用 JSON 模式引用对其进行操作

amazon-web-services - 为什么 AWS Lambda 函数会为单个事件多次调用?

java - 使用java上传文件到S3