Java集群,只运行一次任务

标签 java multithreading jakarta-ee cluster-computing apache-commons-vfs

我们有一个 java 进程,它使用 apache commons vfs 监听文件系统上的目录 X。每当将新文件导出到此目录时,我们的流程就会启动。我们首先将文件重命名为 filename.processing 并解析文件名,从文件中获取一些信息并插入表中,然后将此文件发送到文档管理系统。这是每个集群的单线程应用程序。 现在考虑在集群环境中运行,我们有 5 台服务器。因此,5 个不同的虚拟机正在尝试访问同一文件。整个实现的基础是,在给定时间只有一个进程可以将文件重命名为.processing,因为操作系统不允许多个进程同时修改该文件。一旦集群获取并将文件重命名为.processing,其他集群将忽略格式为.processing的文件。

一年多以来,该功能一直运行良好,但刚刚我们发现了一些重复项。看起来多个集群都掌握了该文件,在这种情况下,集群 a、b、c 可以访问文件 f.pdf,并且同时将其重命名为 f.pdf.processing,(我仍然感到困惑)操作系统如何允许同时修改文件)。结果,集群 a、b、c 处理了该文件并将其发送到文档管理系统。所以现在有 3 个重复文件。

简而言之,我正在寻找的是在集群环境中仅运行一次任务的方法。我还希望它有一个故障转移机制,这样如果集群出现问题,另一个集群就会接手任务。我们不想设置 env 变量,例如在一台机器上设置 master=true,因为这会将其限制为只有一个集群,并且不会处理故障转移。

感谢任何形式的帮助。

最佳答案

请参阅以下有关文件锁定的帖子:How do filesystems handle concurrent read/write?

正如您所假设的那样,文件的读写操作(包括重命名)不是原子的,也不是进程之间良好同步的 - 至少在大多数操作系统上并非如此。

但是,创建新文件通常是一个原子操作。您可以利用它来发挥自己的优势。这个概念称为整个文件锁定。

关于Java集群,只运行一次任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34233260/

相关文章:

java - 如何确保所有生成的线程都已完成以便处理可以继续?

Java XMLInputFactory - 使用 .getData() 读取数据时截断文本

c# - 在不锁定集合的情况下从通用集合中获取 Count 值是安全的吗?

java - JAAS有什么意义

java - 在Struts1中的struts-config中提供action参数值

Java Swing 项目/库/模板存储库

java - Mongo Jackson Mapper 按 id 结果删除

python - 2个for循环可以同时运行,一个接一个循环吗?

c++ - 在等待之前必须检查 std::condition_variable 谓词吗?

java - 如何控制表单刷新时的提交