Spark newb 问题:我在 spark-sql
中进行完全相同的 Spark SQL 查询并在 spark-shell
. spark-shell
版本大约需要 10 秒,而 spark-sql
版本大约需要 20。
spark-sql REPL 直接获取查询:
spark-sql> SELECT .... FROM .... LIMIT 20
spark-shell REPL 命令是这样的:
scala> val df = sqlContext.sql("SELECT ... FROM ... LIMIT 20 ")
scala> df.show()
在这两种情况下,它是完全相同的查询。此外,由于显式
LIMIT 20
,查询仅返回几行。 .从不同的 CLI 执行相同查询的方式有何不同?
如果有帮助,我正在 Hortonworks 沙箱 VM (Linux CentOS) 上运行。
最佳答案
我认为更多的是关于两个部分,
top
进行检查。您会发现 spark-shell 的实际启动速度比 spark-sql 快。 关于apache-spark - spark-sql 与 spark-shell REPL 中的 Spark SQL 性能差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35342390/