python - EMR Pyspark作业，如何在s3中导入python库

我们有一个主要工作，我们称之为 main.py，

在 main.py 作业中，我们还有存储在 s3 中的其他 python 库。称之为test1.py、test2.py

当我提交到spark来运行main.py但它无法获取test1.py和test2.py时。在 s3 中。

如何配置才能获取 test1.py 和 test2.py？

最佳答案

如果您有访问 s3 存储桶的正确权限，则可以使用 --py-files 将它们包含在 spark-submit 命令中，如下所示

spark-submit --py-files s3a://bucket/you-folder/test1.py,s3a://bucket/you-folder/test2.py main.py

此外，您还可以使用复制步骤将文件下载到 emr 节点。

关于python - EMR Pyspark作业，如何在s3中导入python库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65149913/

相关文章：

python - 查找多个 DataFrame Python 中数字的最大值