python - 如何从pyspark中的特定目录加载模块

标签 python pyspark

我有一个 python 脚本,正在使用 Spark-shell 在主节点上执行。该脚本使用一些用户定义的模块,特别是另一个脚本。但是当我在本地系统上运行脚本并导入模块时,它不会抛出任何类型的异常。但是当我在 Spark 环境中执行脚本时,它会抛出异常,例如找不到模块。我也尝试过类似下面的方法,但这也不适用于 Spark 集群。 sys.path.append('') 导入

有人可以帮助我如何解决 pyspark 中的模块吗? 我使用的是 python 2.7 版本。

最佳答案

您的代码依赖项在执行器中不可用。您需要指示 pyspark 分发源文件,以便它们可用。您可以使用上下文的方法 addPyFile 包含单个文件。检查此处的文档:http://spark.apache.org/docs/2.1.0/api/python/pyspark.html

关于python - 如何从pyspark中的特定目录加载模块,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52997311/

相关文章:

python - 如何在 PySpark MLlib 中将分类特征传递给线性回归建模?

apache-spark - Databricks 中的 Spark 设置驱动程序内存配置

python - 稀疏矩阵 : how to get nonzero indices for each row

python - 是否可以在 nbviewer 中使用 jupyter_contrib_nbextensions?

apache-spark - 内存不足错误: Java heap space in Spark

hadoop - 在Spark中充分利用内存

python - 在 PySpark ML 中创建自定义 Transformer

python - 通过在 Windows7 64 位上复制 'lib' 文件夹来安装 PyCrypto

python - 如何将 Python bool 对象转换为 C int(或 C++ bool 值)(Python C API)

python - 在分层数据框上添加带有 groupby 的列