java - 如何使用 Java 在 HDFS 中创建和填充 Parquet 文件?

标签 java hadoop hdfs parquet

在没有 Hive 或 Impala 库支持的情况下,使用 Java 在 HDFS 中创建和填充 Parquet 文件的最佳方法是什么?

我的目标是将一个简单的 csv 记录(字符串)写入位于 HDFS 中的 Parquet 文件。

之前提出的所有问题/答案都令人困惑。

最佳答案

好像parquet-mr是要走的路。他们提供 Thrift 和 Avro 的实现。自己的实现应该基于ParquetOutputFormat可能看起来类似于 AvroParquetOutputFormatAvroWriteSupport进行实际转换。

关于java - 如何使用 Java 在 HDFS 中创建和填充 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42886196/

相关文章:

java - 如何阻止 Payara 中的字符串被解释为日期时间?

java - 出于 OSGI 目的将 jfxrt 移至 lib/ext

java - 获取辅助监视器的位置。 (小学的右侧或/左侧)

java - Android 上的 AES 128 加密

sql-server - Sqoop 导出到 Sql Server VS 批量插入到 SQL Server

macos - UnknownHostException-在Mac OSX Mavericks上格式化HDFS

hadoop - 在hadoop中合并小文件

apache - Flume:没有引发任何错误,但是Flume无法完全传输文件

json - Sqoop 支持表字段的 json 数据类型吗?

hadoop - 使用hadoop时报错 "Failed to retrieve data from/webhdfs/v1/?op=LISTSTATUS: Server Error"