pyspark - 如何提交依赖于 google dataproc 集群的 pyspark 作业

标签 pyspark google-cloud-dataproc

我正在使用 google dataproc 集群来运行 spark 作业,脚本是用 python 编写的。

当只有一个脚本(例如test.py)时,我可以使用以下命令提交作业:

gcloud dataproc jobs submit pyspark --cluster analyse ./test.py

但是现在test.py从自己写的其他脚本中导入模块,如何在命令中指定依赖?

最佳答案

您可以使用提到的 --py-files 选项 here .

关于pyspark - 如何提交依赖于 google dataproc 集群的 pyspark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36784677/

相关文章:

google-cloud-platform - Apache Phoenix - GCP 数据处理

mysql - 从sparklyr和/或pyspark连接到mysql

apache-spark - 使用pyspark,如何将文件中一行上的多个JSON文档读入数据框?

apache-spark - Pyspark - 圆时间表示为最接近刻钟(15 分钟)的整数

apache-spark - 如何在 Spark 执行器上设置 Python 的优化模式(-O)?

google-cloud-dataproc - 无法参数化 placement.managedCluster.config 下的任何值

hive - Google DataProc Hive 和 Presto 查询不起作用

python - 如何使用 Apache Spark Dataframes 执行 Switch 语句 (Python)

apache-spark - 将多个系统属性传递给 google dataproc 集群作业

python - 尝试使用 DataProcSparkOperator 任务加载 DAG 的 AttributeError