sql - Spark SQL查询与DataFrame函数

标签 sql performance apache-spark dataframe apache-spark-sql

使用Spark表现良好。我想知道通过SQLContext使用sql查询是否很好,或者通过df.select()这样的DataFrame函数进行查询是否更好。

任何想法? :)

最佳答案

没有任何性能差异。两种方法都使用完全相同的执行引擎和内部数据结构。归根结底,所有这些都归结为个人喜好。

  • 可以说DataFrame查询更容易以编程方式构造,并提供最小的类型安全性。
  • 普通的SQL查询可以更加简洁和易于理解。它们也是便携式的,可以在不对每种支持的语言进行任何修改的情况下使用。使用HiveContext,这些还可以用于公开某些功能,这些功能可能无法通过其他方式访问(例如,没有Spark包装程序的UDF)。
  • 关于sql - Spark SQL查询与DataFrame函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35222539/

    相关文章:

    performance - 对于产品属性的索引,更多的短文本字段与更少的字段以及更多的单词

    scala - 无法通过 Elasticsearch-hadoop 库在多个 spark 节点上的 RDD 上应用映射

    sql - 有没有更好的方法来调试 SQL?

    mysql - 如何从重复计数大于但保留一个的表中删除

    sql - 为多个表创建公共(public)相关表是好方法吗?

    c# - DataTable 使用列号而不是列名排序

    php - 将 CSV 文件加载到 MySQL 中返回错误

    PHP MySQL 加载搜索查询需要 0.8 秒到 3 秒,如何加快速度

    pandas - 将字符串转换为标识正确年份的准确日期

    apache-spark - Spark 数据帧中模式(最常见元素)的聚合