一直在尝试准确了解 Spark 的目录 API 如何存储元数据。
我找到了一些资源,但没有答案:
- https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-Catalog.html
- https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-CatalogImpl.html
- https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/catalog/Catalog.html
我看到一些教程认为 Hive Metastore 的存在是理所当然的。
- Hive Metastore 是否可能包含在 Spark 发行版中?
- Spark 集群可以是短暂的,但 Hive Metastore 显然需要长期存在
除了目录功能之外,编写 DF 时的分区和排序功能似乎也依赖于 Hive...因此,在谈论持久化 DF 的关键 Spark 功能时,“每个人”似乎都认为 Hive 是理所当然的。
最佳答案
当 hive-site.xml
提供时,Spark 会意识到 Hive MetaStore,它通常位于 $SPARK_HOME/conf
下。每当在创建 SparkSession
时使用 enableHiveSupport()
方法时,Spark 都会找到在哪里以及如何
与 Hive Metastore 建立联系。因此,Spark 不会显式存储 Hive 设置。
关于apache-spark - Spark 目录元数据存储在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52764503/