有人有使用 Cloudera SparkPipielineRunner
执行(在集群上)使用 Dataflow SDK 编写的管道的工作示例吗?
我在 Dataflow 中看不到任何内容或Spark-Dataflow github 存储库。
我们正在尝试评估在 Spark 集群上运行管道是否会比在 GCP Dataflow 服务上运行管道带来任何性能提升。
最佳答案
Beam 站点上有使用 Beam Spark Runner 的示例:https://beam.apache.org/documentation/runners/spark/ .
您想要的依赖项是:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-spark</artifactId>
<version>0.3.0-incubating</version>
</dependency>
要针对独立集群运行,只需运行:
spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner
关于apache-spark - 数据流 SparkPipelineRunner - 有可用的示例吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32964905/