hadoop - 我们可以使用带有Snappy压缩的Hive表使用TEXT FILE格式吗?

标签 hadoop hive bigdata

我在HDFS中有一个配置单元外部表,我试图在其上方创建配置单元托管表。我正在使用文本文件格式进行快速压缩,但是我想知道它如何帮助该表。

CREATE TABLE standard_cd 
(
    last_update_dttm         TIMESTAMP,
    last_operation_type     CHAR (1) ,
    source_commit_dttm   TIMESTAMP,
    transaction_dttm         TIMESTAMP ,
    transaction_type    CHAR (1)          
) 

PARTITIONED BY (process_dt DATE)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '|' 
STORED AS TEXTFILE
TBLPROPERTIES  ("orc.compress" = "SNAPPY");

让我知道使用这种格式创建时是否存在任何问题。

最佳答案

因此,它们在创建时没有问题。
但特性不同:

创建并存储为TEXTFILE的表:

enter image description here

创建并存储为ORC的表:

enter image description here

尽管加载某些数据后,两个表的大小相同。

还检查有关ORC file format的文档

关于hadoop - 我们可以使用带有Snappy压缩的Hive表使用TEXT FILE格式吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41583807/

相关文章:

hadoop - 建立在 HDFS 之上的 Apache HAWQ 安装

azure - 我可以将 Avro 序列化数据附加到现有的 Azure blob 中吗?

regex - Hive - 过滤不同的名称

hadoop - Apache Spark上的Apache Hive

hadoop - Mac 操作系统 Hadoop : Exception in thread "main" java. io.FileNotFoundException

php - 如何将Apache Phoenix与laravel或PHP集成?

apache-spark - 首先,我可以定义比可用内核更多的执行程序吗?

java - Hbase客户端连接不上本地hbase服务器

java - HADOOP - 作为映射器输出生成的输出文件数

postgresql - 在 Docker 中使用 Sqoop 导入 PostgreSQL