python - 如何从用于弹性插入的python代码改进parallel_bulk？

我得到了一些文档(大小约为 300o/doc)，我想使用 python 库将它们插入到我的 ES 索引中，我在代码和使用 curl 之间有巨大的时间差异。很明显是正常的，但是我想知道时间是否可以提高(相对于时间的比例)

curl选项大约需要 20 秒 插入和整个时间 10 秒 (用于打印 ES 结果但在插入 20 秒数据后)

curl -H "Content-Type: application/json" -XPOST 
        "localhost:9200/contentindex/doc/_bulk?" --data-binary @superfile.bulk.json

与 python选项，我到达了 1 分 20 至少，使用设置 10000/16/16 ( chunk/thread/queue )

import codecs
from collections import deque
from elasticsearch import Elasticsearch
from elasticsearch.helpers import parallel_bulk

es = Elasticsearch()

def insert_data(filename, indexname):
    with codecs.open(filename, "r", encoding="utf-8", errors="ignore") as fic:
        for line in fic:        
            json_line = {}
            json_line["data1"] = "random_foo_bar1"
            json_line["data2"] = "random_foo_bar2"
            # more fields ...        
            yield {
                "_index": indexname,
                "_type": "doc",
                "_source": json_line
            }

if __name__ == '__main__':
 pb = parallel_bulk(es, insert_data("superfile.bulk.json", "contentindex"), 
                       chunk_size=10000, thread_count=16, queue_size=16)
 deque(pb, maxlen=0)

事实

我有一台配备 2 个处理器至强 8 核和 64GB 内存的机器

我为每个 [100-50000]/[2-24]/[2-24] 尝试了多个值

问题

我还能改进时间吗？

如果没有，我应该想办法将数据写入文件，然后使用进程为curl命令？

如果我只尝试解析部分，则需要 15 秒:

tm = time.time()
array = []

pb = insert_data("superfile.bulk.json", "contentindex") 
for p in pb:
   array.append(p)
print(time.time() - tm)            # 15

pb = parallel_bulk(es, array, chunk_size=10000, thread_count=16, queue_size=16)
dequeue(pb, maxlen = 0)
print(time.time() - tm)              # 90

最佳答案

经过我的测试:

curl 比 python 客户端工作得更快，显然 curl 实现得更好。

经过更多的测试和使用参数，我可以得出结论:

Elasticsearch 索引性能取决于索引和整个集群的配置。您可以通过将字段正确映射到索引来获得更高的性能。

我最好的方法是在 8 个线程和 10000 个项目块上。这取决于 index.index_concurrency 的配置，默认为 8。

我认为使用具有单独主节点的多节点集群应该可以提高性能。

有关更多信息，您可以阅读我发现的一篇很棒的两部分文章:here和 here

关于python - 如何从用于弹性插入的python代码改进parallel_bulk？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54962685/

python - 如何从用于弹性插入的python代码改进parallel_bulk？

上一篇：Powershell 跳过数组中的元素，如果它为空

下一篇：powershell - If 语句在它应该的时候从不评估 false