python - 如何使用pycharm在远程spark集群中运行应用

标签 python apache-spark pyspark pycharm

我已经在本地系统上安装了 PyCharm,并将其配置为在 Windows 中以本地模式运行 spark 应用程序。

我的 spark 集群位于远程 Ubuntu 盒子中。

如何从本地安装的 Windows 上的 PyCharm 运行 Ubuntu 上的远程 spark 集群中的 spark 应用程序?

我的目标是在远程集群中运行应用程序,因此也欢迎使用变通方法。

最佳答案

PyCharm 已经为此设置好了。理想情况下,您希望为您的设置设置一个部署 和一个远程解释器,最好是通过ssh

这允许您将您的代码库上传到集群(以便 pyspark 驱动程序可以访问它),但可以从您的笔记本电脑上运行它。然后,远程解释器负责解决集群上的依赖关系。 看这里https://www.jetbrains.com/help/pycharm/configuring-remote-interpreters-via-ssh.html在这里 https://www.jetbrains.com/help/pycharm/creating-a-remote-server-configuration.html .

注意:在开始配置远程解释器之前,最好在集群上安装 venvconda 并创建一个虚拟环境,这样您就没有任何依赖项或过时的包。然后将远程解释器配置指向环境的 python 二进制文件,例如 /app/anaconda3/envs/my_env/bin/python

关于python - 如何使用pycharm在远程spark集群中运行应用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58880817/

相关文章:

python - 以时间间隔连续安排脚本

python - 在 Python pandas 中拆分列

sql - 将 Hive 查询推送到数据库级别

java - 在 Spark 中排序时出现 NotSerializableException

python - 在 pyspark 中关闭强制 UTF8 编码

pandas - 将 pyspark 数据帧转换为 pandas 数据帧

python - parse_args 命名空间中不包含 None 值

python - 使用列的长度过滤 DataFrame

python - 从 PySpark 中 Groupby 之后的另一列的值获取最小值和最大值

python - Pandas 在 groupby 之后获取所有行的最小值和最大值