目前,我有一个函数可以分块读取文件,执行一些工作(解析、格式化),然后以elasticsearch
批量加载器的格式生成数据。 .
目前我正在使用streaming_bulk
,但我想知道是否可以使用 parallel_bulk
相反?
是parallel_bulk
意味着它同时向 elasticsearch
发送数据,还是意味着它同时调用迭代器?
基本上,parallel_bulk
使用额外线程到底有何用途?
最佳答案
简短回答:parallel_bulk
同时将数据发送到elasticsearch。
来自代码片段here :我们看到parallel_bulk同时向elasticsearch发送操作 block 。
它使用 python multiprocessing.dummy模块。
数据被分块,每个 block 都传递给池中的线程
关于python - 我可以使用以并行方式读取文件的迭代器吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38897373/