hdfs - 如何在 Apache Flink 中使用 BucketingSink 写入 ORC 文件？

我正在开发一个 Flink 流程序，该程序读取 kafka 消息并将消息转储到 AWS s3 上的 ORC 文件。我发现没有关于Flink的BucketingSink和ORC file writer集成的文档。并且没有这样的ORC文件编写器实现可以在BucketingSink中使用。

我被困在这里，有什么想法吗？

最佳答案

我同意，ORC 文件的 BucketingSink 编写器将是一个很棒的功能。不过，它还没有贡献给 Flink。您必须自己实现这样的编写器。

如果您考虑将其贡献给 Flink，我确信 Flink 社区会帮助设计和审查该编写器。

关于hdfs - 如何在 Apache Flink 中使用 BucketingSink 写入 ORC 文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47669729/

相关文章：

scala - SparkSQL - 直接读取 Parquet 文件