apache-spark - 如何使用 jupyter notebook 运行 pyspark?

标签 apache-spark pyspark pyspark-sql

当我在控制台中运行命令 pyspark 时,我试图启动 jupyter notebook。当我现在输入它时,它只会在控制台中启动和交互式 shell。但是,这不方便键入长代码行。有没有办法将 jupyter notebook 连接到 pyspark shell?谢谢。

最佳答案

我假设您已经安装了 spark 和 jupyter 笔记本,并且它们可以完美地相互独立地工作。

如果是这种情况,请按照以下步骤操作,您应该能够启动带有 (py)spark 后端的 jupyter 笔记本。

  • 转到您的 spark 安装文件夹,那里应该有一个 bin 目录:/path/to/spark/bin
  • 创建一个文件,我们称之为 start_pyspark.sh
  • 打开 start_pyspark.sh 并编写如下内容:
        #!/bin/bash
    
    
    export PYSPARK_PYTHON=/path/to/anaconda3/bin/python
    export PYSPARK_DRIVER_PYTHON=/path/to/anaconda3/bin/jupyter
    export PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.open_browser=False --NotebookApp.ip='*' --NotebookApp.port=8880"
    
    pyspark "$@"
    


  • /path/to ... 分别替换为您安装 python 和 jupyter 二进制文件的路径。
  • 这一步很可能已经完成,但以防万一
    通过添加以下行来修改您的 ~/.bashrc 文件

    # Spark
    导出路径="/path/to/spark/bin:/path/to/spark/sbin:$PATH"
    export SPARK_HOME="/path/to/spark"
    导出 SPARK_CONF_DIR="/path/to/spark/conf"

  • 运行 source ~/.bashrc 就可以了。

    继续尝试 start_pyspark.sh
    您还可以为脚本提供参数,例如start_pyspark.sh --packages dibbhatt:kafka-spark-consumer:1.0.14

    希望可以帮助你。

    enter image description here

    关于apache-spark - 如何使用 jupyter notebook 运行 pyspark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48915274/

    相关文章:

    apache-spark - 如何在spark集群环境下高效训练word2vec模型?

    sql-server - 我可以更改作为表加载到 SQL Server 的 Spark 数据框列的数据类型吗?

    python - 使用 pandas_udf 和 Parquet 序列化时内存泄漏?

    performance - 有什么方法可以提高 PySpark 输出的效率吗?

    multithreading - 使用 spark-submit,--total-executor-cores 选项的行为是什么?

    apache-spark - 在 Spark 中计算逐点互信息

    python - pyspark:返回不完整的 URI 错误

    python - 如何使用 .createDataFrame() 读取标题?

    apache-spark - 如何查看 SPARK 发送到我的数据库的 SQL 语句?

    apache-spark - Hadoop 3和spark.sql:与HiveWarehouseSession和spark.sql一起使用