apache-spark - Spark 目录元数据存储在哪里?

标签 apache-spark hive bigdata

一直在尝试准确了解 Spark 的目录 API 如何存储元数据。

我找到了一些资源,但没有答案:

我看到一些教程认为 Hive Metastore 的存在是理所当然的。

  • Hive Metastore 是否可能包含在 Spark 发行版中?
  • Spark 集群可以是短暂的,但 Hive Metastore 显然需要长期存在

除了目录功能之外,编写 DF 时的分区和排序功能似乎也依赖于 Hive...因此,在谈论持久化 DF 的关键 Spark 功能时,“每个人”似乎都认为 Hive 是理所当然的。

最佳答案

hive-site.xml 提供时,Spark 会意识到 Hive MetaStore,它通常位于 $SPARK_HOME/conf 下。每当在创建 SparkSession 时使用 enableHiveSupport() 方法时,Spark 都会找到在哪里以及如何 与 Hive Metastore 建立联系。因此,Spark 不会显式存储 Hive 设置。

关于apache-spark - Spark 目录元数据存储在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52764503/

相关文章:

r - 在 sparklyr 中创建虚拟变量?

hadoop - 如何控制配置单元作业名称但保留阶段信息?

hadoop - Hive进程内存大小

angularjs - 集成 Hive 和 AngularJS?

sql - Hive 填充前导零

hadoop - 大数据 - Hadoop(文件系统)

c++ - 使用 C++ 中的可选输入文件命令行解析方法在大文件中查找 X 最大值

apache-spark - 登录 spark 结构化流

scala - Spark中的groupByKey是否保留原始顺序?

apache-spark - Spark + Parquet + Snappy : Overall compression ratio loses after spark shuffles data