apache-spark - 在 pycharm 上使用 pyspark

我正在尝试使用 pycharm 为 pyspark 创建一些脚本。虽然我找到了有关如何连接它们的多种解释(例如 How to link PyCharm with PySpark? )，但并非一切正常。

我所做的基本上是正确设置环境变量:

echo $PYTHONPATH 
:/usr/local/spark/python:/usr/local/spark/python/lib/py4j-0.9-src.zip
echo $SPARK_HOME 
/usr/local/spark

在我的代码中:

appName = "demo1"
master = "local"
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

问题是许多数据帧聚合函数显示为错误。例如我有以下几行:

from pyspark.sql import functions as agg_funcs
maxTimeStamp = base_df.agg(agg_funcs.max(base_df.time)).collect()

然而 pycharm 声称:无法在functions.py中找到引用“max” 大多数聚合函数(例如 col、count)都会出现类似的错误

我该如何解决这个问题？

最佳答案

pycharm -> 设置 -> 项目 -> 项目结构 -> 添加根内容

从spark安装文件夹中选择以下路径

关于apache-spark - 在 pycharm 上使用 pyspark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35173275/

相关文章：

java - 在 Pyspark 中访问 JavaRDD