hadoop - 如何在 Parquet 模式定义中指定列描述

我正在使用级联将 Text Delimited 转换为 parquet & avro 文件。我无法像 Avro 那样为 Parquet 元数据中的列提供描述。当任何人使用数据集来获取有关数据集本身字段的一些描述时，这将很有帮助。

下面是 Parquet 架构:

message LaunchApplication {
   required int field1;
   required binary field2;
   optional binary field3;
   required binary field4;
 }

下面是 avro 模式:

{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
  {"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
  {"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
  {"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
  {"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."}  ]
}

我如何在 parquet 中跟踪 avro 文件中的“doc”部分？

最佳答案

实际上 Parquet 也支持 Avro 模式。如果您使用 Avro 架构，Parquet 将从中推断出 Parquet 架构并且还将 Avro 架构存储在元数据中。

关于hadoop - 如何在 Parquet 模式定义中指定列描述，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34212332/

上一篇：hadoop - Pig 脚本使用 HCatalog 标志？

下一篇：scala - Spark 集群无法从远程 Scala 应用程序分配资源

相关文章：

hadoop - 实时设置环境变量。谷歌大查询

apache-spark - Spark SQL - gzip 与 snappy 与 lzo 压缩格式之间的区别

apache-spark - 如何将行rdd转换为类型化rdd

hadoop - Microstrategy - HBase 连接

hadoop - 如何使用 Hadoop MapReduce 索引一个非常大的图？

java - 为什么 Hadoop API FSDataInputStream 读取小于缓冲区大小？

amazon-web-services - 在EMR集群上如何进入/etc/hadoop/conf这个路径？

python - Pandas 将数据框写入带有附加的 Parquet 格式

apache-spark - 了解使用 parquet-tools "meta"命令打印的 Parquet 文件的元数据信息

pandas - dask 读取 Parquet 并指定架构