我有一个需要以PARQUET格式创建的HIVE表(测试)。我将使用一堆SEQUENCE文件来创建并插入到表中。
创建表后,有没有办法转换为PARQUET?我的意思是说我知道我们可以做到
CREATE TABLE default.test( user_id STRING, location STRING)
PARTITIONED BY ( dt INT ) STORED AS PARQUET
首先创建表本身。但是,在我的情况下,我被迫首先使用SEQUENCE文件创建表,因为它是我必须开始使用的格式,并且不能直接转换为PARQUET。
创建表并插入数据后,有什么方法可以转换成 Parquet 吗?
最佳答案
要将表单序列文件转换为Parquet,您需要将数据(CTAS)加载到新表中。
这个问题被标记为presto
,所以我为此给你Presto syntax。我包括分区,因为问题中的示例包含分区。
CREATE TABLE test_parquet WITH(format='PARQUET', partitioned_by=ARRAY['dt']) AS
SELECT * FROM test_sequencefile;
关于hadoop - 如何将序列文件转换为拼花格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58314902/