python - Databricks 连接测试在 "The system cannot find the path specified."上无限期挂起

标签 python pyspark azure-databricks databricks-connect

我已按照本页上的说明在 Windows 10、Python 3.8、databricks 版本 9.1 上安装 databricks-connect,以连接到 Azure Databricks 群集:

https://towardsdatascience.com/get-started-spark-with-databricks-and-pyspark-72572179bd03

当我运行时:

databricks-connect test

我收到此错误:

* PySpark is installed at C:\Users\brend\miniconda3\envs\try-databricks-7.3\lib\site-packages\pyspark
* Checking SPARK_HOME
* Checking java version
java version "1.8.0_311"
Java(TM) SE Runtime Environment (build 1.8.0_311-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.311-b11, mixed mode)
* Skipping scala command test on Windows
* Testing python command
The system cannot find the path specified.

并且它无限期地挂起。进一步调查显示它卡在对spark-submit.cmd的调用中(因此调用spark-submit2.cmd)。

我本地没有任何其他 Spark 安装。

该问题已在 databricks 7.3 和 9.1 上重现

我可以做什么来进一步诊断问题?

最佳答案

我遇到此错误是因为我错误地附加了 \bin安装Java SE后JAVA_HOME环境变量的路径末尾。正确的 JAVA_HOME 应该类似于 C:\java\Java\jre1.8.0_321 ,Spark 脚本将向其附加 \bin靠自己。

要确定这是否适合您,您需要将打印语句添加到几个脚本中,以查看 Windows 在您的脚本中找不到哪个程序。

从这里开始:

根据命令输出,转到文件夹 C:\Users\brend\miniconda3\envs\try-databricks-7.3\lib\site-packages\pyspark\bin并打开脚本spark-submit2.cmd在文本编辑器中。第一行说@echo off 。在此行下方,添加一个新行 @echo on 。运行你的databricks-connect test再次查看失败之前屏幕上打印的最后一个命令是什么。

就我而言,我看到该脚本正在调用一堆其他脚本,最终调用 C:\java\Java\jre1.8.0_321\bin\bin\java ,导致Windows无法找到Java。

修复错误后,请随时删除所有 @echo on您添加的语句。

关于python - Databricks 连接测试在 "The system cannot find the path specified."上无限期挂起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70183411/

相关文章:

python - 使用 Pipenv 安装 TensorFlow 出现错误

python - 使用python子进程的调用函数,但没有获取输出文件

databricks - 使用服务主体从 Databricks 访问 blob 存储

python - Databricks API 2.0 - 创建 secret 范围 - TEMPORARILY_UNAVAILABLE

azure - 从 Azure databricks 向 MS Onelake 写入数据时出错

python - 使用 boto3 进行 Cloudformation 通配符搜索

python - Pygments 的语法突出显示因 Liquid 模板字符串错误而失败

python - 高效查找包含某个单词的所有 n 元语法

apache-spark - 更改 spark _temporary 目录路径

python - Pyspark:将CSV转换为嵌套JSON