mysql - 分布式爬虫和一致性

标签 mysql perl redis web-crawler data-consistency

情况是我们有多个服务器(40 多台)同时抓取一个相同的 URL(以确保我们有最小的遗留)并将数据保存到数据库(MySQL)中。

现在的问题是:数据来回切换。例如,由于爬虫/数据库的遗留问题,内容将在几秒钟内变为 A <-> B <-> A <-> B <-> A。

有什么好的方法可以预防吗?我们正在用 Perl 编写爬虫,但任何语言都适合我们,因为我们可以借鉴背后的想法。

任何提示将不胜感激。雷迪斯? ZeroMQ?

谢谢

最佳答案

关于mysql - 分布式爬虫和一致性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56445790/

相关文章:

python - 是否可以与 MySQL docker 容器建立 pymysql 连接?

mysql查询从一个ID列显示多个表

sinatra - 如何在 sinatra 中使用 redis-rb

mysql - Redis和mysql的qps是多少

python - 在 redis 作业上存储 "meta"数据不起作用?

javascript - 如何右键单击 <tr>,运行 php 来检索数据,并在警报中显示结果?

php - 导出 csv 文件以使用 PHP 从 mysql 下载

perl - 对 SQLite 数据库的仅内存修改

perl - XML::Parser 拒绝安装

regex - 仅在特定列之后替换文本文件中的 CR/LF