python - 如何使用pycharm在远程spark集群中运行应用

我已经在本地系统上安装了 PyCharm，并将其配置为在 Windows 中以本地模式运行 spark 应用程序。

我的 spark 集群位于远程 Ubuntu 盒子中。

如何从本地安装的 Windows 上的 PyCharm 运行 Ubuntu 上的远程 spark 集群中的 spark 应用程序？

我的目标是在远程集群中运行应用程序，因此也欢迎使用变通方法。

最佳答案

PyCharm 已经为此设置好了。理想情况下，您希望为您的设置设置一个部署和一个远程解释器，最好是通过ssh。

这允许您将您的代码库上传到集群(以便 pyspark 驱动程序可以访问它)，但可以从您的笔记本电脑上运行它。然后，远程解释器负责解决集群上的依赖关系。看这里https://www.jetbrains.com/help/pycharm/configuring-remote-interpreters-via-ssh.html在这里 https://www.jetbrains.com/help/pycharm/creating-a-remote-server-configuration.html .

注意:在开始配置远程解释器之前，最好在集群上安装 venv 或 conda 并创建一个虚拟环境，这样您就没有任何依赖项或过时的包。然后将远程解释器配置指向环境的 python 二进制文件，例如 /app/anaconda3/envs/my_env/bin/python。

关于python - 如何使用pycharm在远程spark集群中运行应用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58880817/

相关文章：

python - 以时间间隔连续安排脚本