python - EMR Pyspark作业,如何在s3中导入python库

标签 python apache-spark pyspark amazon-emr

我们有一个主要工作,我们称之为 main.py,

在 main.py 作业中,我们还有存储在 s3 中的其他 python 库。称之为test1.py、test2.py

当我提交到spark来运行main.py但它无法获取test1.py和test2.py时。在 s3 中。

如何配置才能获取 test1.py 和 test2.py?

最佳答案

如果您有访问 s3 存储桶的正确权限,则可以使用 --py-files 将它们包含在 spark-submit 命令中,如下所示

spark-submit --py-files s3a://bucket/you-folder/test1.py,s3a://bucket/you-folder/test2.py main.py

此外,您还可以使用复制步骤将文件下载到 emr 节点。

关于python - EMR Pyspark作业,如何在s3中导入python库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65149913/

相关文章:

python - 查找多个 DataFrame Python 中数字的最大值

hadoop - 一个巨大的DataStructure可以直接交给MapReduce处理而不加载到HDFS上吗?

java - 将 JavaPairDStream<String, Integer> 转换为 JavaPairDStream<Integer, String>,切换元组中的值 (Java Spark)

apache-spark - 使用 pyspark 在数据 block 中实现 FileNotFound 异常

python - 如何在 Pyspark 中迭代数组(字符串)以进行空/空白值检查

python - 用于检查 VM 是否具有公共(public) IP 的 Azure Python API

Python 主函数不工作

apache-spark - Spark 应用程序中的持久计数器

python - 如何修复 bs4 选择错误 : 'TypeError: __init__() keywords must be strings'

hadoop - 是否应在客户端安装HBase? sqoop是API吗? Drill是API吗?