请帮我理清思路:
我想在 EC2 上为我的项目设置爬网。我使用 Scrapy 和 MySQL 来获取结果。另外,我想实现 cron 来进行预定的爬行(例如每天);所以我的理解是:我使用所有必要的包(python、mysql、scrapy 等)设置了 EC2;然后我创建我的蜘蛛,测试它们;当它们工作时,我设置了 cron 以便在没有我的情况下进行爬行。
我是对的还是我可能遗漏了一些东西?我需要使用 Scrapyd 还是它只是一个选项?
最佳答案
您需要一个可以为您运行 Scrapy 的程序。您可以使用 scrapy
命令或编写自己的脚本,也可以使用 scrapyd。我个人喜欢 scrapyd,因为它让事情变得更容易(包括一个不错的 API )。
关于python - Scrapy部署算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42466188/