spring - ElasticsearchItemReader 不断读取相同的记录

我真的是 Spring 的初学者，我必须使用 spring-batch 开发一个应用程序。该应用程序必须从elasticsearch索引中读取并将所有记录写入文件中。

当我运行该程序时，没有收到任何错误，并且应用程序读取记录并将其正确写入文件中。问题是应用程序永远不会停止，并且不断地读取、处理和写入数据。在下图中，您可以看到相同的记录被处理多次。

我认为我的代码或我的软件设计一定有问题，所以我在下面附上了我的代码中最重要的部分。

我开发了以下 ElasticsearchItemReader:

public class ElasticsearchItemReader<T> extends AbstractPaginatedDataItemReader<T> implements InitializingBean {

private final Logger logger;

private final ElasticsearchOperations elasticsearchOperations;

private final SearchQuery query;

private final Class<? extends T> targetType;

public ElasticsearchItemReader(ElasticsearchOperations elasticsearchOperations, SearchQuery query, Class<? extends T> targetType) {
    setName(getShortName(getClass()));
    logger = getLogger(getClass());
    this.elasticsearchOperations = elasticsearchOperations;
    this.query = query;
    this.targetType = targetType;
}

@Override
public void afterPropertiesSet() throws Exception {
    state(elasticsearchOperations != null, "An ElasticsearchOperations implementation is required.");
    state(query != null, "A query is required.");
    state(targetType != null, "A target type to convert the input into is required.");
}

@Override
@SuppressWarnings("unchecked")
protected Iterator<T> doPageRead() {

    logger.debug("executing query {}", query.getQuery());

    return (Iterator<T>)elasticsearchOperations.queryForList(query, targetType).iterator();
}
}

我还编写了以下 ReadWriterConfig:

@Configuration
public class ReadWriterConfig {

@Bean
public ElasticsearchItemReader<AnotherElement> elasticsearchItemReader() {

    return new ElasticsearchItemReader<>(elasticsearchOperations(), query(), AnotherElement.class);
}


@Bean
public SearchQuery query() {

    NativeSearchQueryBuilder builder = new NativeSearchQueryBuilder()
            .withQuery(matchAllQuery());

    return builder.build();
}

@Bean
public ElasticsearchOperations elasticsearchOperations()  {

    Client client = null;
    try {
        Settings settings = Settings.builder()
                .build();

        client = new PreBuiltTransportClient(settings)
                .addTransportAddress(new TransportAddress(InetAddress.getByName("localhost"), 9300));
        return new ElasticsearchTemplate(client);
    } catch (UnknownHostException e) {
        e.printStackTrace();
        return null;
    }


}
}

我编写了批处理配置，在其中调用读取器、写入器和处理器:

@Configuration
@EnableBatchProcessing
public class BatchConfiguration {

@Autowired
public JobBuilderFactory jobBuilderFactory;

@Autowired
public StepBuilderFactory stepBuilderFactory;

// tag::readerwriterprocessor[]
@Bean
public ElasticsearchItemReader<AnotherElement> reader() {
    return  new ReadWriterConfig().elasticsearchItemReader();
}

@Bean
public PersonItemProcessor processor() {
    return new PersonItemProcessor();
}

@Bean
public FlatFileItemWriter itemWriter() {
    return  new FlatFileItemWriterBuilder<AnotherElement>()
            .name("itemWriter")
            .resource(new FileSystemResource("target/output.txt"))
            .lineAggregator(new PassThroughLineAggregator<>())
            .build();
}

// end::readerwriterprocessor[]

// tag::jobstep[]
@Bean
public Job importUserJob(JobCompletionNotificationListener listener, Step stepA) {
    return jobBuilderFactory.get("importUserJob")
            .flow(stepA)
            .end()
            .build();
}



@Bean
public Step stepA(FlatFileItemWriter<AnotherElement> writer) {
    return stepBuilderFactory.get("stepA")
            .<AnotherElement, AnotherElement> chunk(10)
            .reader(reader())
            .processor(processor())
            .writer(itemWriter())
            .build();
}
// end::jobstep[]

}

我附上了我编写此代码的一些网站:

https://github.com/spring-projects/spring-batch-extensions/blob/master/spring-batch-elasticsearch/README.md

https://spring.io/guides/gs/batch-processing/

最佳答案

您的阅读器应该为每次调用 doPageRead() 返回一个 Iterator，通过它可以迭代数据集的一页。由于您没有将 Elasticsearch 查询的结果拆分为页面，而是一步查询整个集合，因此您将在第一次调用 doPageRead() 时返回整个结果集的迭代器。然后，在下一次调用中，您再次返回同一结果集的迭代器。

因此，您必须跟踪是否已返回迭代器，例如:

public class ElasticsearchItemReader<T> extends AbstractPaginatedDataItemReader<T> implements InitializingBean {

    // leaving out irrelevant parts

    boolean doPageReadCalled = false;

    @Override
    @SuppressWarnings("unchecked")
    protected Iterator<T> doPageRead() {

        if(doPageReadCalled) {
            return null;
        }

        doPageReadCalled = true

        return (Iterator<T>)elasticsearchOperations.queryForList(query, targetType).iterator();
    }
}

在第一次调用时，您将标志设置为true，然后返回迭代器，在下一次调用时，您会看到您已经返回了数据并返回null。

这是一个非常基本的解决方案，根据您从 Elasticsearch 获取的数据量，最好使用滚动 api 进行查询并返回页面，直到所有数据都得到处理。

关于spring - ElasticsearchItemReader 不断读取相同的记录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56976893/

spring - ElasticsearchItemReader 不断读取相同的记录

上一篇：audio - C++ 读取 wav 文件，subchunk1size = 65536？

下一篇：elasticsearch - 我想从jsont_prehh的Value = 0的嵌套JSON数据中获取所有实体