apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包

标签 apache-spark pyspark jupyter-notebook

除了正确导入包之外，pyspark 实际上在做什么？是否可以使用常规的 jupyter notebook 然后导入所需的内容？

最佳答案

是的，这是可能的，但可能会很痛苦。虽然单独使用 Python 不是问题，您只需设置 $SPARK_HOME，添加 $SPARK_HOME/python(如果无法访问，则添加 $SPARK_HOME/python/lib/py4j-[VERSION]-src.zip) PySpark 脚本也处理 JVM 设置 (--packages, --jars -- conf 等)。

这可以使用 PYSPARK_SUBMIT_ARGS 变量或使用 $SPARK_HOME/conf 来处理(参见示例 How to load jar dependenices in IPython Notebook)。

有一个旧的blog post from Cloudera它描述了示例配置，据我所知，它仍然有效。

关于apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35684856/

上一篇：sql - 如何从 SQL 表中删除相反的行

下一篇：perl - 在 perl 中使运行时变量名称成为全局变量

python - 按组合并以填充时间序列

python - 将数据插入数据库时PySpark NoSuchMethodError : sun. nio.ch.DirectBuffer.cleaner

python - 属性错误 : 'API' object has no attribute 'followers_ids'

apache-spark - JavaPackage 对象不可调用错误 : Pyspark

machine-learning - 使用哪种 Spark MLIB 算法？

r - 如何使用 spark_apply_bundle

python - 从 python 实现 R 包 TSdist

python - 在 Jupyter 中切换内核

apache-spark -/usr/lib/spark/conf 和/etc/spark/conf 的区别