java - 如何在 Apache Flink 中正确初始化任务状态?

标签 java initialization apache-flink

我正在研究基于 Apache Flink 的金融反欺诈系统。我需要根据金融交易计算许多不同的总量。我使用Kafka作为流数据源。例如,在平均交易金额计算中,我使用 MapState 来存储总交易数和每张卡的总金额。聚合数据存储在 Apache Accumulo 中。我知道 Flink 中的持久状态,但这不是我需要的。有没有办法在计算开始之前将初始数据加载到 Flink 中?是否可以通过使用两个连接的流以及来自 Accumulo 的数据以及最新计算的聚合和事务流来完成?交易流是无限的,聚合流不是无限的。我该往哪边挖?如有任何帮助,我们将不胜感激。

我考虑过 AsyncIO,但状态不能与异步函数一起使用。我的想法是:检查内存状态下的聚合。如果这里没有卡的数据 - 代码调用存储服务,从中获取数据,执行计算并更新内存状态,因此,该卡的下一笔交易不需要通过调用外部数据服务来处理。但我认为这是一个很大的瓶颈。

最佳答案

你可以尝试这样:

TASK::setInitialState
    TASK::invoke
        create basic utils (config, etc) and load the chain of operators
        setup-operators
        task-specific-init
        initialize-operator-states
        open-operators
        run
        close-operators
        dispose-operators
        task-specific-cleanup
        common-cleanup

关于java - 如何在 Apache Flink 中正确初始化任务状态?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45759137/

相关文章:

apache-flink - Flink 用于无状态处理

java - 弗林克 IOException : Insufficient number of network buffers

java - 在每个构建上从 Jenkins email-ext 向提交者发送电子邮件

java - 通过同步方法返回值同步块(synchronized block)的跨度

c++ - 如何初始化此结构?

c++ - 从 std::shared_ptr<void> 初始化 std::shared_ptr<T>

java - 在屏幕中将耗时显示为 Score java libgdx

java - 将基本数组中的值添加到 Set<String>

c++ - 将 int 矩阵数组放入 C++ 对象时出现问题

java - Flink 作业 : Getting InvalidClassException: com. fastxml.jackson.databind.ObjectMapper