在发送 spider_closed 信号之前调用 Python Scrapy 函数?

标签 python signals scrapy web-crawler

我使用 scrapy 编写了一个蜘蛛程序,它向不同的站点发出一大堆 HtmlXPathSelector 请求。在(异步)满足每个请求后,它会在 .csv 文件中创建一行数据。不可能看到最后满足了哪个请求,因为如果还没有提取数据,请求就会重复(偶尔会丢失几次数据)。即使我从一个整洁的列表开始,输出也是困惑的,因为这些行是在提取数据后立即写入的。

现在我想根据一列对该列表进行排序,但在完成每个请求之后。 'spider_closed' 信号可以用来触发一个真正的函数吗? 如下所示,我尝试将信号与调度程序连接起来,但是这个函数似乎只打印出东西,而不是使用变量甚至调用其他功能。

def start_requests(self)
    ...  dispatcher.connect(self.spider_closed, signal=signals.engine_stopped) ....


def spider_closed(spider):
    print 'this gets printed alright'   # <-only if the next line is omitted...
    out = self.AnotherFunction(in)      # <-This doesn't seem to run

最佳答案

我拼凑了一条管道来为您解决这个问题。

文件:Project.middleware_module.SortedCSVPipeline

import csv
from scrapy import signals


class SortedCSVPipeline(object):

    def __init__(self):
        self.items = []
        self.file_name = r'YOUR_FILE_PATH_HERE'
        self.key = 'YOUR_KEY_HERE'

    @classmethod
    def from_crawler(cls, crawler):
        pipeline = cls()
        crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)
        return pipeline

    def spider_closed(self, spider):
        for item in sorted(self.items, key=lambda k: k[self.key]):
            self.write_to_csv(item)

    def process_item(self, item, spider):
        self.items.append(item)
        return item

    def write_to_csv(self, item):
       writer = csv.writer(open(self.file_name, 'a'), lineterminator='\n')
       writer.writerow([item[key] for key in item.keys()])

文件:settings.py

ITEM_PIPELINES = {"Project.middleware_module.SortedCSVPipeline.SortedCSVPipeline" : 1000}

运行此程序时,您将不再需要使用项目导出器,因为此管道将为您编写 csv。此外,您设置中的管道条目中的 1000 需要比您要在此管道之前运行的所有其他管道更高的值。我在我的项目中对此进行了测试,结果生成了一个按我指定的列排序的 csv 文件!

干杯

关于在发送 spider_closed 信号之前调用 Python Scrapy 函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13047120/

相关文章:

Python:多维字典

python - 在 Kivy 中构建一个简单的进度条或加载动画?

python - 使用 h2o 实现决策树

c++ - 无法捕获 CLion 发送的 SIGINT

csv - scrapy如何将项目导出为每个项目单独的csv文件

html - 使用 scrapy 和 css 从 HTML 中提取特定值

python - 在 python 中应该用什么替换与 False 的比较?

c - 为什么我的第一个子进程没有收到他 parent 的信号

c 每n秒检查一次信号

python - 你能用 Scrapy 检测网站上的新内容或页面吗?