我正在尝试使用 pycharm 为 pyspark 创建一些脚本。 虽然我找到了有关如何连接它们的多种解释(例如 How to link PyCharm with PySpark? ),但并非一切正常。
我所做的基本上是正确设置环境变量:
echo $PYTHONPATH
:/usr/local/spark/python:/usr/local/spark/python/lib/py4j-0.9-src.zip
echo $SPARK_HOME
/usr/local/spark
在我的代码中:
appName = "demo1"
master = "local"
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
问题是许多数据帧聚合函数显示为错误。例如我有以下几行:
from pyspark.sql import functions as agg_funcs
maxTimeStamp = base_df.agg(agg_funcs.max(base_df.time)).collect()
然而 pycharm 声称:无法在functions.py中找到引用“max” 大多数聚合函数(例如 col、count)都会出现类似的错误
我该如何解决这个问题?
最佳答案
pycharm -> 设置 -> 项目 -> 项目结构 -> 添加根内容
从spark安装文件夹中选择以下路径
spark/python/lib/py4j....sr.zip
spark/python/lib/pyspark.zip
关于apache-spark - 在 pycharm 上使用 pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35173275/