azure - 无法从azure databricks读取文件

标签 azure databricks azure-databricks delta-lake

我正在运行此命令以从普通集群(未安装 hadoop)中的 Azure databricks 读取数据。

spark-submit --packages io.delta:delta-core_2.12:0.7.0 \
  --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \
  --conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog" \
  --conf "spark.delta.logStore.class=org.apache.spark.sql.delta.storage.HDFSLogStore" \
  Test_write_to_DL.py

我收到此错误

: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2595)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3269)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3301)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:124)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3352)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3320)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:479)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:361)
    at org.apache.spark.sql.delta.DeltaTableUtils$.findDeltaTableRoot(DeltaTable.scala:163)
    at org.apache.spark.sql.delta.sources.DeltaDataSource$.parsePathIdentifier(DeltaDataSource.scala:259)

您能否建议我需要安装什么 jar 才能使其正常工作

最佳答案

参见达美航空 documentation详情:

  1. 首先,您需要使用 org.apache.spark.sql.delta.storage.AzureLogStore,而不是 org.apache.spark.sql.delta.storage.HDFSLogStore
  2. 您需要将 hadoop-azure 包 ( maven coordinates ) 包含到 --packages
  3. 您还需要提供凭据等。

关于azure - 无法从azure databricks读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66456043/

相关文章:

apache-spark - 如何使用UDF处理大的增量表?

azure - 读取流 .meta 文件期间通配符的行为?

azure - 找不到类型 Microsoft.WindowsAzure.Commands.SqlDatabase.Services.ImportExportRequest

.net - Azure Active Directory B2C 通过静态链接访问配置文件错误

apache-spark - 在 Spark 中显示 <IPython.core.display.HTML object>

azure - Delta Lake RESTORE 问题 (Databricks)

Azure Databricks 作业通知电子邮件

azure - 用于获取 azure 中虚拟机 IP 地址的 REST URI

azure - Microsoft Azure DocumentDb 最大存储容量

azure - 作业终止后,如何将生成的文件从 Azure Databricks 导出到 Azure DevOps?