python - 通过命令行调用scrapy的自定义导出器

标签 python web-scraping scrapy scrapy-pipeline scrapy-shell

在尝试resolve my problem时(按特定项目的字段输出有序 Json 数组),我已经 received an answer这建议我为这项工作创建一个自定义导出器。

我正在创建一个,但是...我发现的所有示例都建议通过管道调用它,但这对我来说似乎有点多余(我已经在个人导出器上定义了自定义行为...为什么我也应该使用管道进行自定义?)。

我搜索的是一种通过 scrapy shell 定义后调用自定义导出器的方法。例如,要输出 json,我将使用:

scrapy crawl myspider -o myjson.json

是否存在某种方式来指定我的自定义导出器以类似的方式写入文件?我发现了一个实验性功能 COMMANDS_MODULE对于自定义命令,但我不确定如何将其链接到我的自定义导出器。

最佳答案

您可以使用 FEED_EXPORTERS 激活导出器设置。

FEED_EXPORTERS = {
    'json': 'path.to.SortedJsonItemExporter',
}

关于python - 通过命令行调用scrapy的自定义导出器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48929331/

相关文章:

python - 密码重置功能 django 中的 NoReverseMatch 错误

python - 将 matlab 程序转换为等效的 python 代码

python - numpy - 在点网格上评估函数

r - 如何使用 R 在 html 中的注释标签内抓取表格?

python - 递归抓取页面

python - 无法使用 python scrapy 从 td 标签/元素中提取文本

python - 当是布局子项时启用 PyGTK Eventbox 运动通知事件

python - Selenium with/Firefox 88 更改为 navigator.webdriver

ruby - R 中 CAS 注册表到 Pubchem cid 标识符的转换

python - 简单的正则表达式,可选择的开始,可选择的结束