apache-spark - 数据流 SparkPipelineRunner - 有可用的示例吗？

有人有使用 Cloudera SparkPipielineRunner 执行(在集群上)使用 Dataflow SDK 编写的管道的工作示例吗？

我在 Dataflow 中看不到任何内容或Spark-Dataflow github 存储库。

我们正在尝试评估在 Spark 集群上运行管道是否会比在 GCP Dataflow 服务上运行管道带来任何性能提升。

最佳答案

Beam 站点上有使用 Beam Spark Runner 的示例:https://beam.apache.org/documentation/runners/spark/ .

您想要的依赖项是:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-spark</artifactId>
  <version>0.3.0-incubating</version>
</dependency>

要针对独立集群运行，只需运行:

spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner

关于apache-spark - 数据流 SparkPipelineRunner - 有可用的示例吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32964905/