apache-spark - 加载表时从 phoenix 过滤

标签 apache-spark pyspark apache-phoenix

我想知道这是怎么回事,

df = sqlContext.read \
          .format("org.apache.phoenix.spark") \
          .option("table", "TABLE") \
          .option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
          .load()

如果这是加载整个表,或者它会延迟加载以了解是否应用过滤。

第一种情况,如何告诉phoenix在加载spark dataframe之前过滤表格?

谢谢

最佳答案

在您执行需要它的操作之前,不会加载数据。中间应用所有过滤器:

df.where($"foo" === "bar").count

如果可能,将被 Spark 下推。您可以通过运行 explain()

查看谓词下推的结果

关于apache-spark - 加载表时从 phoenix 过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40870475/

相关文章:

java - 如何创建一个类标签来用java构建广播变量spark?

pyspark - 如何在 AWS Glue 中指定连接类型?

java - 从 Windows 运行时出现 Phoenix CsvBulkLoadTool 错误

scala - 如何根据另一个数据帧过滤一个 Spark 数据帧

java - 在 Spring Boot 可执行 jar 中包含 Hortonworks 存储库

java - 如何基于第二个 DataFrame (Java) 在 Spark DataFrame 中创建新列?

hadoop - 为什么 hbase KeyValueSortReducer 需要对所有 KeyValue 进行排序

python - PySpark RDD 过滤掉的元素返回

apache-spark - Spark 是否在内部跨节点分发数据帧?

c++ - 我们如何将 Phoenix Singleton 放在同一个地址? C++