我有一个要求,需要处理存储在目录/GCP 中的 400 多个 CSV 文件(每个文件 100 到 500MB)。
对于每个文件,我需要从数据库获取有效帐号并将其保存在内存中,根据内存中的数据验证文件的每一行并将有效记录写入另一个 CSV 文件(列格式更改)并将生成的文件导出到AWS。将来,希望支持来自 MQ 的请求,流程保持不变。
要求是在分布式系统中实现这一点。
我计划使用 Spring Batch 来满足此要求,但我无法找到使用不同系统作为 Manager - Worker 进行远程分区的良好示例/代码。我想了解如何配置 Manager、Worker、如何启动它们以及如何将文件元数据作为请求和响应传递。
我得到了单个 JVM 上分区的示例,因此仅使用示例代码寻找 Manager-Worker 示例。
任何建议/引用都将受到高度赞赏,并提前致谢。
最佳答案
I am planning to use Spring Batch for this requirement, But i am unable to find good example / code of Remote partitioning using different systems as Manager - Worker.
此处通过代码示例和图表详细解释了远程分区:https://docs.spring.io/spring-batch/docs/4.2.x/reference/html/spring-batch-integration.html#remote-partitioning
您还可以找到:
关于java - Spring Batch - Manager 中的远程分区 - Worker 环境 - CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62378730/