基本上,我有如下 pyspark 脚本(在 spark_example.py
中说):
import os
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName('example_app').setMaster('local[8]')
sc = SparkContext(conf=conf)
if __name__ == '__main__':
ls = range(100)
ls_rdd = sc.parallelize(ls, numSlices=100)
ls_out = ls_rdd.map(lambda x: x+1).collect()
print('output!: ', ls_out)
配置如下
export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6
export export PYSPARK_PYTHON=~/anaconda3/bin/python
export PYSPARK_DRIVER_PYTHON=~/anaconda3/bin/ipython
我可以运行以下脚本 ~/spark-1.6.0-bin-hadoop2.6/bin/pyspark spark_example.py
我收到如下警告
WARNING: Running python applications through 'pyspark' is deprecated as of Spark 1.0.
我想知道如何为 Spark 正确运行 python 脚本(即不使用 import pyspark
)。
最佳答案
从 Spark 1.0 开始,您应该使用 spark-submit
启动 pyspark 应用程序。
pyspark
将启动交互式 shell,spark-submit
允许您在各种集群管理器上轻松启动 spark 作业。
我建议您阅读 spark 文档。
关于python - 从 Spark 1.0 开始,不推荐通过 'pyspark' 运行 python 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37082853/