我们有一个主要工作,我们称之为 main.py,
在 main.py 作业中,我们还有存储在 s3 中的其他 python 库。称之为test1.py、test2.py
当我提交到spark来运行main.py但它无法获取test1.py和test2.py时。在 s3 中。
如何配置才能获取 test1.py 和 test2.py?
最佳答案
如果您有访问 s3 存储桶的正确权限,则可以使用 --py-files
将它们包含在 spark-submit
命令中,如下所示
spark-submit --py-files s3a://bucket/you-folder/test1.py,s3a://bucket/you-folder/test2.py main.py
此外,您还可以使用复制步骤将文件下载到 emr 节点。
关于python - EMR Pyspark作业,如何在s3中导入python库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65149913/