apache-spark - 三角洲湖上的 hive 表

标签 apache-spark hive delta-lake

我是 Spark 和三角洲湖的新手。我正在增量表的顶部创建配置单元表。我有必要的 jar delta-core-shaded-assembly_2.11-0.1.0.jar, hive-delta_2.11-0.1.0.jar;在 hive 类路径中。设置以下属性。

SET hive.input.format=io.delta.hive.HiveInputFormat;
SET hive.tez.input.format=io.delta.hive.HiveInputFormat;

但是在创建表时

CREATE EXTERNAL TABLE hive_table(col1 INT, col2 STRING)
STORED BY 'io.delta.hive.DeltaStorageHandler'
LOCATION '/path/to/my/delta/table'

得到以下异常:

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.spark.network.util.JavaUtils.byteStringAs(Ljava/lang/String;Lorg/apache/spark/network/util/ByteUnit;)J

两个表匹配的架构。堆栈详情:
Spark :2.4.4
hive :1.2.1

任何帮助深表感谢。提前致谢。

最佳答案

Hive with delta Lake 仅支持 spark 3.0 和 delta 版本 0.7.0。

<dependency>
  <groupId>io.delta</groupId>
  <artifactId>delta-core_2.12</artifactId>
  <version>0.7.0</version>
</dependency>

关于apache-spark - 三角洲湖上的 hive 表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62452360/

上一篇：python - 如何使用 Python/pandas 获取带有行摘要的分钟/小时财务数据？

下一篇：reactjs - 如何使用 redux-toolkit 访问 redux 中另一个切片的状态？

java - 不使用 CachedRowSetImpl.execute() 复制 ResultSet

hadoop - 从 HDFS 导入数据到 Hive 表

hadoop - hive中如何自动加载数据

python - PySpark 解压文件 : Which is a good approach for unzipping files and storing the csv files into a Delta Table?

apache-spark-sql - 优化用于进行使用 GROUP BY 的查询的增量表

apache-spark - Spark 数据集连接性能

apache-spark - PySpark 错误 : "Input path does not exist"

python - 评估两个数据帧中行的所有组合

azure - 如何使用 Spring Boot 建立 Microsoft azure databricks 增量表连接，就像 mysql、sql server 一样