java - 如何从Elasticsearch读取数据到Spark？

标签 java python scala elasticsearch apache-spark

我正在尝试通过 python 将数据从 ElasticSearch 读取到 Apache Spark。

以下是从官方文档复制的代码。

$ ./bin/pyspark --driver-class-path=/path/to/elasticsearch-hadoop.jar
conf = {"es.resource" : "index/type"}    
rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat",    "org.apache.hadoop.io.NullWritable", "org.elasticsearch.hadoop.mr.LinkedMapWritable", conf=conf)
rdd.first()

上面可以从相应的索引中读取数据，但它是读取整个索引。

能告诉我如何使用查询来限制读取范围吗？

此外，我没有找到太多关于此的文档。例如，conf 字典似乎控制读取范围，但 ES 文档只是说它是 Hadoop 配置，仅此而已。我去Hadoop配置没有找到关于ES的相应键和值。您知道关于此的一些更好的文章吗？

最佳答案

您可以将 es.query 设置添加到您的配置中，如下所示: