python - 我可以使用以并行方式读取文件的迭代器吗?

标签 python elasticsearch

目前,我有一个函数可以分块读取文件,执行一些工作(解析、格式化),然后以elasticsearch批量加载器的格式生成数据。 .

目前我正在使用streaming_bulk ,但我想知道是否可以使用 parallel_bulk相反?

parallel_bulk意味着它同时向 elasticsearch 发送数据,还是意味着它同时调用迭代器?

基本上,parallel_bulk 使用额外线程到底有何用途?

最佳答案

简短回答:parallel_bulk 同时将数据发送到elasticsearch。

来自代码片段here :我们看到parallel_bulk同时向elasticsearch发送操作 block 。 它使用 python multiprocessing.dummy模块。
数据被分块,每个 block 都传递给池中的线程

关于python - 我可以使用以并行方式读取文件的迭代器吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38897373/

相关文章:

elasticsearch - 如何在 Elasticsearch 中首先获得最受欢迎的结果

spring-boot - Logstash与Spring Cloud数据流,哪个适合数据预处理?

python - Django.db.utils.OperationalError : (2013, 'Lost connection to MySQL server during query' )

elasticsearch - 在 netty 中将 HTTP 请求重定向到 HTTPS

python - 使用 Mechanize 修改表单

python - django打印元组键控字典

amazon-web-services - 如何使用弹性 java 客户端与 aws elasticsearch 服务通信?

java - Elasticsearch postfiler 取消过滤器

python - 通过 Web 连接到 API 与 Python

python - 使用starflut在flutter中导入python模块