我有一个 python 脚本,正在使用 Spark-shell 在主节点上执行。该脚本使用一些用户定义的模块,特别是另一个脚本。但是当我在本地系统上运行脚本并导入模块时,它不会抛出任何类型的异常。但是当我在 Spark 环境中执行脚本时,它会抛出异常,例如找不到模块。我也尝试过类似下面的方法,但这也不适用于 Spark 集群。 sys.path.append('') 导入
有人可以帮助我如何解决 pyspark 中的模块吗? 我使用的是 python 2.7 版本。
最佳答案
您的代码依赖项在执行器中不可用。您需要指示 pyspark 分发源文件,以便它们可用。您可以使用上下文的方法 addPyFile
包含单个文件。检查此处的文档:http://spark.apache.org/docs/2.1.0/api/python/pyspark.html
关于python - 如何从pyspark中的特定目录加载模块,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52997311/