hdfs - 如何在 Apache Flink 中使用 BucketingSink 写入 ORC 文件?

标签 hdfs apache-flink orc

我正在开发一个 Flink 流程序,该程序读取 kafka 消息并将消息转储到 AWS s3 上的 ORC 文件。我发现没有关于Flink的BucketingSink和ORC file writer集成的文档。并且没有这样的ORC文件编写器实现可以在BucketingSink中使用。

我被困在这里,有什么想法吗?

最佳答案

我同意,ORC 文件的 BucketingSink 编写器将是一个很棒的功能。不过,它还没有贡献给 Flink。您必须自己实现这样的编写器。

如果您考虑将其贡献给 Flink,我确信 Flink 社区会帮助设计和审查该编写器。

关于hdfs - 如何在 Apache Flink 中使用 BucketingSink 写入 ORC 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47669729/

相关文章:

scala - SparkSQL - 直接读取 Parquet 文件

hadoop - 在本地运行 Hadoop,在 VM 中访问 HDFS。找不到本地文件

hadoop - 当目录存在时 hdfs moveFromLocal 中的奇怪行为

java - 如何在 Apache Flink 中平面映射到数据库?

java - 计算总数并在 flink 中定期发出

apache-flink - 如何获取Flink中所有并行度的指标?

hdfs - 如何使用presto查询hdfs文件

java - 在 Java 中读取 ORC 文件

csv - 如何将本地 ORC 文件转换为 CSV?

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据