python - Scrapy部署算法

标签 python mysql cron scrapy scrapyd

请帮我理清思路:

我想在 EC2 上为我的项目设置爬网。我使用 Scrapy 和 MySQL 来获取结果。另外,我想实现 cron 来进行预定的爬行(例如每天);所以我的理解是:我使用所有必要的包(python、mysql、scrapy 等)设置了 EC2;然后我创建我的蜘蛛,测试它们;当它们工作时,我设置了 cron 以便在没有我的情况下进行爬行。

我是对的还是我可能遗漏了一些东西?我需要使用 Scrapyd 还是它只是一个选项?

最佳答案

您需要一个可以为您运行 Scrapy 的程序。您可以使用 scrapy 命令或编写自己的脚本,也可以使用 scrapyd。我个人喜欢 scrapyd,因为它让事情变得更容易(包括一个不错的 API )。

关于python - Scrapy部署算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42466188/

相关文章:

python - Windows下Python如何限制内存和CPU使用?

python - 获取数字列表的列表并将它们显示为网格中的字符串

php - 当 PHP/SQL 查询不起作用或无效时如何收到通知?

php - 在父服务器上运行虚拟容器的数据收集脚本

ruby-on-rails - 即使在 Resque 作业成功完成后,Redis 键也没有被删除

python - 在 python 中生成组合

python - 用于控制 Jupyter 仪表板的多个单元格的小部件

java - Intent 崩溃。安卓工作室

mysql - Percona 的 my.cnf 文件在哪里?

linux - 从 crontab 执行时,sudo 密码自动化没有按预期工作?