这是我非常简单的 Spark 工作的主体...
def hBaseRDD = sc.newAPIHadoopRDD(config, TableInputFormat.class, ImmutableBytesWritable.class, Result.class)
println "${hBaseRDD.count()} records counted"
def filteredRDD = hBaseRDD.filter({ scala.Tuple2 result ->
def val = result._2.getValue(family, qualifier)
val ? new String(val) == 'twitter' : false
} as Function<Result, Boolean>)
println "${filteredRDD.count()} counted from twitter."
println "Done!"
我在 Spark-Submit 输出中注意到,它似乎去了 HBase 两次。第一次是在 hBaseRDD
上调用 count 时,第二次是在调用 filter 来创建 filteredRDD
时。有没有办法让它在 hBaseRDD 中缓存 newAPIHadoopRDD 调用的结果,以便过滤器仅在内存中的数据副本上工作?
最佳答案
在计数之前
hbaseRDD.cache()
就可以了。
文档详细介绍了这些选项:http://spark.apache.org/docs/1.2.0/programming-guide.html#rdd-persistence
关于java - Spark过滤会重新加载数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28972195/