apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包

标签 apache-spark pyspark jupyter-notebook

除了正确导入包之外,pyspark 实际上在做什么?是否可以使用常规的 jupyter notebook 然后导入所需的内容?

最佳答案

是的,这是可能的,但可能会很痛苦。虽然单独使用 Python 不是问题,您只需设置 $SPARK_HOME,添加 $SPARK_HOME/python(如果无法访问,则添加 $SPARK_HOME/python/lib/py4j-[VERSION]-src.zip) PySpark 脚本也处理 JVM 设置 (--packages, --jars -- conf 等)。

这可以使用 PYSPARK_SUBMIT_ARGS 变量或使用 $SPARK_HOME/conf 来处理(参见示例 How to load jar dependenices in IPython Notebook)。

有一个旧的blog post from Cloudera它描述了示例配置,据我所知,它仍然有效。

关于apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35684856/

相关文章:

scala - 在 Spark 中,出现 EOF 异常的原因是什么,寻找过去的文件结尾?

python - 按组合并以填充时间序列

python - 将数据插入数据库时​​PySpark NoSuchMethodError : sun. nio.ch.DirectBuffer.cleaner

python - 属性错误 : 'API' object has no attribute 'followers_ids'

apache-spark - JavaPackage 对象不可调用错误 : Pyspark

machine-learning - 使用哪种 Spark MLIB 算法?

r - 如何使用 spark_apply_bundle

python - 从 python 实现 R 包 TSdist

python - 在 Jupyter 中切换内核

apache-spark -/usr/lib/spark/conf 和/etc/spark/conf 的区别