python - databricks 之外是否有另一种/类似的 Spark.read.format.load 方法？

我正在尝试将 avro 文件加载到 Sparks 数据框中，以便我可以将其转换为 pandas 并最终转换为字典。我想使用的方法:

df = spark.read.format("avro").load(avro_file_in_memory)

(注意:我尝试加载到数据帧中的 avro 文件数据已经在内存中作为来自 python 请求的请求响应的响应)

但是，此函数使用 databricks 环境中原生的 Spark，而我并未在该环境中工作(我在 pysparks 中查找了类似的函数/代码，但我自己看不到任何内容)。

是否有任何类似的函数可以在数据 block 之外使用来产生相同的结果？

最佳答案

Databricks 库是开源的，但实际上已在 2.4 中添加到 Spark 核心(尽管仍然是外部库)

无论如何，都有一个原生的 avro Python 库以及 fastavro，所以我不完全确定您是否想要启动 JVM(因为您正在使用 Spark)，只是为了将 Avro 数据加载到一本字典。除此之外，Avro 文件由多个记录组成，因此它至少是一个字典列表

基本上，我认为您最好使用上一个问题中的方法，但首先将 Avro 数据写入磁盘，因为这似乎是您当前的问题

否则，也许多搜索一下您要查找的内容就可以解决此问题 XY problem你有

关于python - databricks 之外是否有另一种/类似的 Spark.read.format.load 方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56496674/