apache-spark - 查找 Hive/Impala 表的压缩详细信息

标签 apache-spark hive pyspark codec impala

我将表格从一种格式转换为另一种格式,从未压缩格式转换为压缩格式(Snappy、Gzip 等)。

我想我可以依赖 describe [formatted|extended] tblname 直到我读到这篇文章。 DESCRIBE Statement

它说

The Compressed field is not a reliable indicator of whether the table contains compressed data. It typically always shows No, because the compression settings only apply during the session that loads data and are not stored persistently with the table metadata.

我如何知道一个表是否被压缩以及使用了什么编解码器?我不介意使用 Spark 获取该信息。

最佳答案

回答我的问题:

对于 Avro 数据文件:avro-tools getmeta filename

对于 Parquet 数据文件:parquet-tools 元文件名

关于apache-spark - 查找 Hive/Impala 表的压缩详细信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48381794/

相关文章:

python - 在使用 pyspark 和预定义的结构模式读取嵌套的 JSON 时,如何将缺失的列添加为 null

java - 将 jdbc 连接传递给 Spark 读取

linux - 从安装 Zeppelin 的本地计算机到 Docker Spark 集群的连接

java - "Lambdifying"Java中的scala函数

hadoop - 如何在配置单元中设置限制子句的范围

mysql - sqoop导出mysql分区

hadoop - HIVE varchar 中的解析错误

python - 在 Python Jupyter Notebook 中显示所有错误输出行

azure - 如何使用 Azure Synapse 删除 Databricks 上的表或行?

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点