python - Elasticsearch 不提供页面大小较大的数据

标签 python elasticsearch pyelasticsearch

要获取的数据大小:约 20,000

问题:在 python 中使用以下命令搜索 Elastic Search 索引数据

但没有得到任何结果。

from pyelasticsearch import ElasticSearch
es_repo = ElasticSearch(settings.ES_INDEX_URL)
search_results = es_repo.search(
            query, index=advertiser_name, es_from=_from, size=_size)

如果我给定的大小小于或等于 10,000,它可以正常工作,但如果我给定的大小为 20,000,则不行 请帮我找到最佳解决方案。

PS:深入研究 ES 发现此消息错误:

结果窗口太大,from + size 必须小于或等于:[10000] 但为 [19999]。请参阅滚动 API,了解请求大型数据集的更有效方法。

最佳答案

对于实时使用,最好的解决方案是使用 search after query 。您只需要一个日期字段和另一个唯一标识文档的字段 - 一个 _id 字段或一个 _uid 字段就足够了。 尝试这样的操作,在我的示例中,我想提取属于单个用户的所有文档 - 在我的示例中,用户字段具有关键字数据类型:

from elasticsearch import Elasticsearch


es = Elasticsearch()
es_index = "your_index_name"
documento = "your_doc_type"

user = "Francesco Totti"

body2 = {
        "query": {
        "term" : { "user" : user } 
            }
        }

res = es.count(index=es_index, doc_type=documento, body= body2)
size = res['count']


body = { "size": 10,
            "query": {
                "term" : {
                    "user" : user
                }
            },
            "sort": [
                {"date": "asc"},
                {"_uid": "desc"}
            ]
        }

result = es.search(index=es_index, doc_type=documento, body= body)
bookmark = [result['hits']['hits'][-1]['sort'][0], str(result['hits']['hits'][-1]['sort'][1]) ]

body1 = {"size": 10,
            "query": {
                "term" : {
                    "user" : user
                }
            },
            "search_after": bookmark,
            "sort": [
                {"date": "asc"},
                {"_uid": "desc"}
            ]
        }




while len(result['hits']['hits']) < size:
    res =es.search(index=es_index, doc_type=documento, body= body1)
    for el in res['hits']['hits']:
        result['hits']['hits'].append( el )
    bookmark = [res['hits']['hits'][-1]['sort'][0], str(result['hits']['hits'][-1]['sort'][1]) ]
    body1 = {"size": 10,
            "query": {
                "term" : {
                    "user" : user
                }
            },
            "search_after": bookmark,
            "sort": [
                {"date": "asc"},
                {"_uid": "desc"}
            ]
        }

然后你会发现所有附加到结果变量中的文档

如果您想使用滚动查询 - doc here :

from elasticsearch import Elasticsearch, helpers

es = Elasticsearch()
es_index = "your_index_name"
documento = "your_doc_type"

user = "Francesco Totti"

body = {
        "query": {
        "term" : { "user" : user } 
             }
        }

res = helpers.scan(
                client = es,
                scroll = '2m',
                query = body, 
                index = es_index)

for i in res:
    print(i)

关于python - Elasticsearch 不提供页面大小较大的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49320599/

相关文章:

elasticsearch - Elasticsearch Dedupe结果,每个 “field value”返回1个文档

python - Elasticsearch Python API 的简单查询结果为 "search() missing 1 required positional argument"

python numpy range() 和 sum(-1)

Python:如何跨模块使用变量

Python kdtree 查找 "n"最近邻组(坐标)

elasticsearch - 从 ESIntegTestCase 抛出 NullPointerException

python - 使用 numpy 或 scipy 的 sympy 代码的运行时优化

elasticsearch - logstash的elasticsearch index date从哪里来?

python - 使用python脚本连接ES