使用Spark表现良好。我想知道通过SQLContext
使用sql查询是否很好,或者通过df.select()
这样的DataFrame函数进行查询是否更好。
任何想法? :)
最佳答案
没有任何性能差异。两种方法都使用完全相同的执行引擎和内部数据结构。归根结底,所有这些都归结为个人喜好。
DataFrame
查询更容易以编程方式构造,并提供最小的类型安全性。 HiveContext
,这些还可以用于公开某些功能,这些功能可能无法通过其他方式访问(例如,没有Spark包装程序的UDF)。 关于sql - Spark SQL查询与DataFrame函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35222539/