java - Spring Batch - Manager 中的远程分区 - Worker 环境 - CSV 文件

标签 java parallel-processing spring-batch distributed-system spring-batch-job-monitoring

我有一个要求,需要处理存储在目录/GCP 中的 400 多个 CSV 文件(每个文件 100 到 500MB)。

对于每个文件,我需要从数据库获取有效帐号并将其保存在内存中,根据内存中的数据验证文件的每一行并将有效记录写入另一个 CSV 文件(列格式更改)并将生成的文件导出到AWS。将来,希望支持来自 MQ 的请求,流程保持不变。

要求是在分布式系统中实现这一点。

我计划使用 Spring Batch 来满足此要求,但我无法找到使用不同系统作为 Manager - Worker 进行远程分区的良好示例/代码。我想了解如何配置 Manager、Worker、如何启动它们以及如何将文件元数据作为请求和响应传递。

我得到了单个 JVM 上分区的示例,因此仅使用示例代码寻找 Manager-Worker 示例。

任何建议/引用都将受到高度赞赏,并提前致谢。

最佳答案

I am planning to use Spring Batch for this requirement, But i am unable to find good example / code of Remote partitioning using different systems as Manager - Worker.

此处通过代码示例和图表详细解释了远程分区:https://docs.spring.io/spring-batch/docs/4.2.x/reference/html/spring-batch-integration.html#remote-partitioning

您还可以找到:

关于java - Spring Batch - Manager 中的远程分区 - Worker 环境 - CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62378730/

相关文章:

java - 在 Java 中确定 BigInteger 是否为素数

java - 在 Velocity 中,如何使模板将空值、空指针和索引越界异常呈现为空白?

java - 如何在图像按钮下显示网页 View ?

performance - Haskell——产生更少 Spark 的平行映射

c# - ASP.NET 单工作线程? (在内存 session 中)

java - 如何设置以根据优先级运行批处理作业?

java - 我可以在 Spring Boot 应用程序中运行长任务吗?

java - 如何在 Android 测试中创建模拟服务?

linux - HPC 集群上并行作业的 CPU 使用率波动

java - 带有 StepScope 注释的 PoiItemReader 不读取 Excel 文件