除了正确导入包之外,pyspark
实际上在做什么?是否可以使用常规的 jupyter notebook
然后导入所需的内容?
最佳答案
是的,这是可能的,但可能会很痛苦。虽然单独使用 Python 不是问题,您只需设置 $SPARK_HOME
,添加 $SPARK_HOME/python
(如果无法访问,则添加 $SPARK_HOME/python/lib/py4j-[VERSION]-src.zip
) PySpark 脚本也处理 JVM 设置 (--packages
, --jars
-- conf
等)。
这可以使用 PYSPARK_SUBMIT_ARGS
变量或使用 $SPARK_HOME/conf
来处理(参见示例 How to load jar dependenices in IPython Notebook)。
有一个旧的blog post from Cloudera它描述了示例配置,据我所知,它仍然有效。
关于apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35684856/