python - 从 Spark 1.0 开始,不推荐通过 'pyspark' 运行 python 应用程序

标签 python pyspark

基本上,我有如下 pyspark 脚本(在 spark_example.py 中说):

import os
from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName('example_app').setMaster('local[8]')
sc = SparkContext(conf=conf)

if __name__ == '__main__':
    ls = range(100)
    ls_rdd = sc.parallelize(ls, numSlices=100)
    ls_out = ls_rdd.map(lambda x: x+1).collect()
    print('output!: ', ls_out)

配置如下

export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6
export export PYSPARK_PYTHON=~/anaconda3/bin/python 
export PYSPARK_DRIVER_PYTHON=~/anaconda3/bin/ipython

我可以运行以下脚本 ~/spark-1.6.0-bin-hadoop2.6/bin/pyspark spark_example.py我收到如下警告

WARNING: Running python applications through 'pyspark' is deprecated as of Spark 1.0.

我想知道如何为 Spark 正确运行 python 脚本(即不使用 import pyspark)。

最佳答案

从 Spark 1.0 开始,您应该使用 spark-submit 启动 pyspark 应用程序。

pyspark 将启动交互式 shell,spark-submit 允许您在各种集群管理器上轻松启动 spark 作业。

我建议您阅读 spark 文档。

关于python - 从 Spark 1.0 开始,不推荐通过 'pyspark' 运行 python 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37082853/

相关文章:

python - 无法在 pyspark 中加载模型并使用 grpc 提供服务

python - pandas - 计算列中值的使用

pandas - 属性错误: 'StructType' object has no attribute 'encode'

python - 无法将 RDD 转换为 DataFrame(RDD 有数百万行)

python - 如何将 dict 类型直接加载到 rdd

python - 从 Pyspark LDA 模型中提取文档主题矩阵

python - 获取单个模型的多个查询集列表

javascript - 如何将js脚本从html连接到Django静态

python - 将 HTML 转换为 PDF 的模块与 Bootstrap 和 Flask 兼容

python - PySide2 和支持 addToJavaScriptWindowObject