hadoop - 使用 Parquet-tools.jar 从 Parquet 文件转储特定列

标签 hadoop parquet

我想使用 parquet-tools-1.8.1.jar 仅转储某些文本文件中的特定列。但无法这样做。我正在尝试以下命令。请注意我的列名有正斜杠。

parquet-tools-1.8.1.jar dump --column 'dir1/log1/job12121' '/hdfs-path/to/parquet file with space.parquet' > /home/local/parquet/output.text

最佳答案

运行

hadoop jar parquet-tools-1.8.1.jar parquet.tools.Main dump --column 'dir1/log1/job12121' '/hdfs-path/to/parquet file with space.parquet' > /home/local/parquet/output.text

关于hadoop - 使用 Parquet-tools.jar 从 Parquet 文件转储特定列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38478383/

相关文章:

mongodb - Hive 需要很长时间才能进行 limit 1 查询

hadoop - Oozie Hadoop 流媒体

apache-spark - 如何处理 Spark 结构化流中的小文件问题?

python-3.x - 为什么索引名称总是出现在用pandas 创建的parquet 文件中?

hadoop - hdfs中的两个文件比较

hadoop 并行处理示例或文档

google-cloud-dataflow - 通过 Apache Beam 使用 ParquetIO 读写 parquet 文件的示例

scala - 在 Flink 的 DataStream API 中将 Parquet 文件作为数据流进行连续处理

hadoop - Cassandra CQL3 复合 key 不是由 Hadoop reducer 编写的

apache-spark - Parquet 如何处理 SparseVector 列?