python - Scrapy-deploy 到 Scrapyd 不会安装 setup.py 中指出的要求

标签 python scrapy setuptools scrapy-spider scrapyd

我有一个用 Scrapy 编写的项目。这个蜘蛛在 setup.py 中有很多要求。这是一个简单的示例。我跑

scrapyd-deploy

并有以下输出

Packing version 1506254163
Deploying to project "quotesbot" in http://localhost:6800/addversion.json
Server response (200):
......................... [CUTTED TRACEBACK] ...........
\"/private/var/folders/xp/c949vlsd14q8xm__dv0dx8jh0000gn/T/quotesbot-1506254163-e50lmcfx.egg/quotesbot/spiders/toscrape-css.py\",
 line 4, in <module>\n
ModuleNotFoundError: No module named 'sqlalchemy'\n"}

但是

setup.py in the same directory:

# Automatically created by: scrapyd-deploy

from setuptools import setup, find_packages

setup(
    name         = 'quotesbot',
    version      = '1.0',
    packages     = find_packages(),
    entry_points = {'scrapy': ['settings = quotesbot.settings']},
    install_requires=[
        'scrapy-splash',
         [ SOME REQUIREMENTS]
        'sqlalchemy'
    ],
)

最佳答案

我检查了 scrapyd 源代码,它没有运行您项目的 setup.py。它只是解压包含依赖信息但不包含依赖本身的 egg。下面是addversion api的代码

class AddVersion(WsResource):

    def render_POST(self, txrequest):
        project = txrequest.args[b'project'][0].decode('utf-8')
        version = txrequest.args[b'version'][0].decode('utf-8')
        eggf = BytesIO(txrequest.args[b'egg'][0])
        self.root.eggstorage.put(eggf, project, version)
        spiders = get_spider_list(project, version=version)
        self.root.update_projects()
        UtilsCache.invalid_cache(project)
        return {"node_name": self.root.nodename, "status": "ok", "project": project, "version": version, \
            "spiders": len(spiders)}

self.root.eggstorage.put(eggf, project, version) 基本上只是提取了 egg,它直接运行 spiders = get_spider_list(project, version=version),因此没有这样的设置。

所以要么你的 egg 需要包含所有依赖项,这意味着你不会使用 scrapyd-deploy 构建 egg。我找不到太多文档来查看是否可行

所以您看到的是因为 srapyd 缺少实现。您应该在 http://github.com/scrapy/scrapyd/ 打开错误或增强请求

关于python - Scrapy-deploy 到 Scrapyd 不会安装 setup.py 中指出的要求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46389882/

相关文章:

python - 从python队列中提取

python - 使用 dpkt 从 DNS 响应中读取 IP 地址和 TTL

python - Scrapy:为什么我不能从地下天气中提取我的目标数据?

python - SQL 优化以使用 Scrapy 增加批量插入

python - 在 Python 中以编程方式确定 distutils 数据文件的位置

python - 在 Django 中检查已发送电子邮件的状态

python - 如何在 scrapy python 中使用蜘蛛名称动态创建 csv 文件

python distutils/setuptools : how to exclude a module, 或 honor svn:ignore flag

python - 如何在不破坏其他包的情况下声明构建时依赖项?

python - 使用自动重建索引将 Series 插入 DataFrame