我正在使用 google dataproc 集群来运行 spark 作业,脚本是用 python 编写的。
当只有一个脚本(例如test.py)时,我可以使用以下命令提交作业:
gcloud dataproc jobs submit pyspark --cluster analyse ./test.py
但是现在test.py从自己写的其他脚本中导入模块,如何在命令中指定依赖?
最佳答案
您可以使用提到的 --py-files
选项 here .
关于pyspark - 如何提交依赖于 google dataproc 集群的 pyspark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36784677/