apache-spark - 数据流 SparkPipelineRunner - 有可用的示例吗?

标签 apache-spark google-cloud-platform google-cloud-dataflow

有人有使用 Cloudera SparkPipielineRunner 执行(在集群上)使用 Dataflow SDK 编写的管道的工作示例吗?

我在 Dataflow 中看不到任何内容或Spark-Dataflow github 存储库。

我们正在尝试评估在 Spark 集群上运行管道是否会比在 GCP Dataflow 服务上运行管道带来任何性能提升。

最佳答案

Beam 站点上有使用 Beam Spark Runner 的示例:https://beam.apache.org/documentation/runners/spark/ .

您想要的依赖项是:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-spark</artifactId>
  <version>0.3.0-incubating</version>
</dependency>

要针对独立集群运行,只需运行:

spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner

关于apache-spark - 数据流 SparkPipelineRunner - 有可用的示例吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32964905/

相关文章:

apache-spark - 如何识别 Spark Dataframe 中的离散状态(振荡)?

python - 作业完成后 spark-submit 继续挂起

node.js - 不满意的需求错误 : Node on app engine flex environment

python - FAILED_PRECONDITION : Error: SavedModel directory gs://mybucket1/is expected contain exactly one of [saved_model. pb,saved_model.pbtxt]

gradle - 在直接运行器上正常运行时,光束管道不会在Google Dataflow中移动

google-cloud-dataflow - 是否可以将自定义计算机用于数据流实例?

scala - Apache Spark SQL 标识符预期异常

scala - 值 toDF 不是 org.apache.spark.rdd.RDD 的成员

python - 如何使用 Google Cloud Vision API 返回特定标签置信度最高的图像?

google-cloud-platform - GCP数据流: print PCollection data