apache-spark - 在 pycharm 上使用 pyspark

标签 apache-spark pycharm pyspark

我正在尝试使用 pycharm 为 pyspark 创建一些脚本。 虽然我找到了有关如何连接它们的多种解释(例如 How to link PyCharm with PySpark? ),但并非一切正常。

我所做的基本上是正确设置环境变量:

echo $PYTHONPATH 
:/usr/local/spark/python:/usr/local/spark/python/lib/py4j-0.9-src.zip
echo $SPARK_HOME 
/usr/local/spark

在我的代码中:

appName = "demo1"
master = "local"
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

问题是许多数据帧聚合函数显示为错误。例如我有以下几行:

from pyspark.sql import functions as agg_funcs
maxTimeStamp = base_df.agg(agg_funcs.max(base_df.time)).collect()

然而 pycharm 声称:无法在functions.py中找到引用“max” 大多数聚合函数(例如 col、count)都会出现类似的错误

我该如何解决这个问题?

最佳答案

pycharm -> 设置 -> 项目 -> 项目结构 -> 添加根内容

从spark安装文件夹中选择以下路径

  1. spark/python/lib/py4j....sr.zip

  2. spark/python/lib/pyspark.zip

关于apache-spark - 在 pycharm 上使用 pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35173275/

相关文章:

java - 在 Pyspark 中访问 JavaRDD

docker - Docker解释器出现“No module named math”(及其他)错误,但执行和断点有效

pycharm - 如何停止 Pycharm 笔记本中的 Jupyter 服务器

django - 运行单元测试时,Django无法找到设置文件

python - 使用结构化流(PySpark)运行链式查询

apache-spark - Spark - 是否可以控制分区到节点的放置?

java - 如何为 Spark 编译 Java?

ssl - 无法使用 pySpark 从 Presto SQL (Trino) 获取数据

apache-spark - 在 Databricks 集群中使用 hdf 文件

java - 使用 Scala Flume Sink 到 Spark