pyspark - 用 pip install pyspark 安装时是否有spark-defaults.conf

标签 pyspark jupyter-notebook config heap-memory

我使用 pip 安装了 pyspark。 我在 jupyter 笔记本中编写代码。一切正常,但导出大型 .csv 文件时出现 java 堆空间错误。 Here有人建议编辑 spark-defaults.config。同样在 Spark 文档中,它说

"Note: In client mode, this config must not be set through the SparkConf directly in your application, because the driver JVM has already started at that point. Instead, please set this through the --driver-memory command line option or in your default properties file."

但是用pip安装pyspark时恐怕没有这个文件。 我是我没错吧?我该如何解决这个问题?

谢谢!

最佳答案

我最近也遇到了这个问题。如果您查看 Classpath Entries 下的 Spark UI,第一个路径可能是配置目录,例如 /.../lib/python3.7/site-packages/pyspark/conf/.当我查找该目录时,它不存在;据推测它不是 pip 安装的一部分。但是,您可以轻松创建它并添加您自己的配置文件。例如,

mkdir /.../lib/python3.7/site-packages/pyspark/conf
vi /.../lib/python3.7/site-packages/pyspark/conf/spark-defaults.conf

关于pyspark - 用 pip install pyspark 安装时是否有spark-defaults.conf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57025924/

相关文章:

pyspark - 如何一次(在多个Jupyter Notebook中)运行多个Spark 2.0实例?

python - 在 PySpark 数据框中添加列总和作为新列

python-3.x - 如何摆脱 Python Pandas 中的斜体并获取纯文本?

android - 更改 Android 模拟器麦克风的默认设置

git - 如何配置 Git 在使用 "git pull"时自动从当前分支 pull ?

python - 当连接键以列表形式给出时,如何修改 Spark 数据框中连接的列?

if-statement - IF声明Pyspark

css - IPython笔记本设置笔记本面板(网页)的宽度

python - 我如何告诉 Yolov5 忽略权重和偏差、ClearML 和其他第 3 方应用程序?

php - Symfony 配置 : Array node or null