我想知道这是怎么回事,
df = sqlContext.read \
.format("org.apache.phoenix.spark") \
.option("table", "TABLE") \
.option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
.load()
如果这是加载整个表,或者它会延迟加载以了解是否应用过滤。
第一种情况,如何告诉phoenix在加载spark dataframe之前过滤表格?
谢谢
最佳答案
在您执行需要它的操作之前,不会加载数据。中间应用所有过滤器:
df.where($"foo" === "bar").count
如果可能,将被 Spark 下推。您可以通过运行 explain()
关于apache-spark - 加载表时从 phoenix 过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40870475/