python - Airflow DataProcPySparkOperator 不考虑全局区域以外的集群

标签 python airflow google-cloud-dataproc

我正在使用 DataProcPySparkOperator 执行一些操作。此运算符仅将集群名称作为参数,没有指定区域的选项,默认情况下它会考虑具有全局区域的集群。 对于region不是global的集群,会出现如下错误:

googleapiclient.errors.HttpError: https://dataproc.googleapis.com/v1/projects//regions/global/jobs:submit?alt=json returned "No current cluster for project id '' with name ''`

我是否遗漏了这些运算符的任何内容或它的局限性?

最佳答案

这些 DataProc{PySpark|Spark|Hive|Hadoop|..}Operators 今天根本不支持区域参数, Airflow issue已创建,我将在接下来的几天内提交修复。

关于python - Airflow DataProcPySparkOperator 不考虑全局区域以外的集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46067848/

相关文章:

python-3.x - 如何在自定义 dataproc 镜像中安装可选组件(anaconda、jupyter)

hadoop - 如何从hadoop ResourceManager获取内存使用率指标

python - 如何让 Pandas 读取 SPSS 文件?

python - 写入文本文件的私有(private)变量

python - 监控 Rsync 进度

airflow - 云 Composer Airflow 插件使用

Airflow 在远程网络服务器上运行带参数的 dag

python - django - 一个内联多个模型

sqlalchemy - Airflow 1.10 - 调度程序启动失败

pyspark - 带有 pySpark 的 GraphFrames