apache-spark - 加载表时从 phoenix 过滤

我想知道这是怎么回事，

df = sqlContext.read \
          .format("org.apache.phoenix.spark") \
          .option("table", "TABLE") \
          .option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
          .load()

如果这是加载整个表，或者它会延迟加载以了解是否应用过滤。

第一种情况，如何告诉phoenix在加载spark dataframe之前过滤表格？

谢谢

最佳答案

在您执行需要它的操作之前，不会加载数据。中间应用所有过滤器:

df.where($"foo" === "bar").count

如果可能，将被 Spark 下推。您可以通过运行 explain()

查看谓词下推的结果

关于apache-spark - 加载表时从 phoenix 过滤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40870475/

上一篇：image-processing - 选择矩阵中感兴趣区域中的数据(使用 Mathematica)

下一篇：react-native - 如何正确导入 'NavigatorIOS'

相关文章：

java - 如何创建一个类标签来用java构建广播变量spark？

pyspark - 如何在 AWS Glue 中指定连接类型？

java - 从 Windows 运行时出现 Phoenix CsvBulkLoadTool 错误

scala - 如何根据另一个数据帧过滤一个 Spark 数据帧

java - 在 Spring Boot 可执行 jar 中包含 Hortonworks 存储库

java - 如何基于第二个 DataFrame (Java) 在 Spark DataFrame 中创建新列？

hadoop - 为什么 hbase KeyValueSortReducer 需要对所有 KeyValue 进行排序

python - PySpark RDD 过滤掉的元素返回

apache-spark - Spark 是否在内部跨节点分发数据帧？

c++ - 我们如何将 Phoenix Singleton 放在同一个地址？ C++