apache-spark - EMR : class "io.netty.buffer.ArrowBuf"' 上的 Pandas udf 错误

标签 apache-spark pyspark amazon-emr pyarrow

我尝试在 AWS EMR 上的 Jupyter 笔记本上使用 pandas udf 但无济于事。 首先,我尝试使用我做的一个功能,但我无法让它工作,所以我尝试了一些我在这里找到的其他问题的答案示例,但我仍然无法让它工作。 我试过这段代码:

from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *
import pyspark.sql.functions as F
import pyarrow

df = spark.createDataFrame([
    (1, "A", "X1"),
    (2, "B", "X2"),
    (3, "B", "X3"),
    (1, "B", "X3"),
    (2, "C", "X2"),
    (3, "C", "X2"),
    (1, "C", "X1"),
    (1, "B", "X1"),
], ["id", "type", "code"])

schema = StructType([
    StructField("code", StringType()),
])


@F.pandas_udf(schema, F.PandasUDFType.GROUPED_MAP)
def dummy_udaf(pdf):
    pdf = pdf[['code']]
    return pdf

df.groupBy('type').apply(dummy_udaf).show()

我得到这个错误:

Caused by: java.lang.SecurityException: class "io.netty.buffer.ArrowBuf"'s signer information does not match signer information of other classes in the same package

我尝试不使用 import pyarrow,但我得到了同样的错误。我还使用了有关该主题的答案中的其他代码,结果是一样的。

在 bootstrap shell 脚本中,我有一个 pip 安装行,如下所示:

sudo python3 -m pip install pandas==0.24.2 pyarrow==0.14.1

我试过使用 pyarrow 0.15.1,但没有任何改变。 你知道是什么导致了这个错误吗?谢谢!

最佳答案

设置以下版本

sudo python3 -m pip install pyarrow==0.14 pandas==1.1.4

关于apache-spark - EMR : class "io.netty.buffer.ArrowBuf"' 上的 Pandas udf 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65325178/

相关文章:

apache-spark - NiFi 流式传输到 EMR 上的 Spark

apache-spark - 如何使用UDF返回多列?

scala - 累加器未显示在 Spark UI 中

python - 是否应避免使用 DataFrame 函数 groupBy?

apache-spark-sql - 如何在 EMR 上调整 Spark 作业以在 S3 上快速写入大量数据

apache-spark - Spark,EMR 上主节点的大小重要吗?

apache-spark - 使用 Dispatcher 的 Spark Mesos 集群模式

scala - 使用spark解析NiFi数据包

apache-spark - 从 pyspark 数据帧中减去平均值

python - 如何在 Pyspark 数据框中将 ArrayType 的 2 列连接到 axis = 1 上?