apache-spark - Spark 目录元数据存储在哪里？

一直在尝试准确了解 Spark 的目录 API 如何存储元数据。

我找到了一些资源，但没有答案:

我看到一些教程认为 Hive Metastore 的存在是理所当然的。

Hive Metastore 是否可能包含在 Spark 发行版中？
Spark 集群可以是短暂的，但 Hive Metastore 显然需要长期存在

除了目录功能之外，编写 DF 时的分区和排序功能似乎也依赖于 Hive...因此，在谈论持久化 DF 的关键 Spark 功能时，“每个人”似乎都认为 Hive 是理所当然的。

最佳答案

当 hive-site.xml 提供时，Spark 会意识到 Hive MetaStore，它通常位于 $SPARK_HOME/conf 下。每当在创建 SparkSession 时使用 enableHiveSupport() 方法时，Spark 都会找到在哪里以及如何与 Hive Metastore 建立联系。因此，Spark 不会显式存储 Hive 设置。

关于apache-spark - Spark 目录元数据存储在哪里？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52764503/

上一篇：amazon-web-services - Athena 中 YYYY-MM-DD 日期格式的字符串

下一篇：Terraform iam_policy_document - 差异。资源与委托(delegate)人

相关文章：

r - 在 sparklyr 中创建虚拟变量？

hadoop - 如何控制配置单元作业名称但保留阶段信息？

hadoop - Hive进程内存大小

angularjs - 集成 Hive 和 AngularJS？

sql - Hive 填充前导零

hadoop - 大数据 - Hadoop(文件系统)

c++ - 使用 C++ 中的可选输入文件命令行解析方法在大文件中查找 X 最大值

apache-spark - 登录 spark 结构化流

scala - Spark中的groupByKey是否保留原始顺序？

apache-spark - Spark + Parquet + Snappy : Overall compression ratio loses after spark shuffles data