pandas - 在 PySpark 的 pandas_udf 中使用外部库

标签 pandas apache-spark pyspark user-defined-functions valueerror

可以使用外部库,例如 textdistance在pandas_udf里面?我已经尝试过,但收到此错误:

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

我尝试过 Spark 版本 2.3.1。

最佳答案

您可以将 textdistance 与您自己的代码打包在一起(使用 setup.py 和 bdist_egg 构建 egg 文件),并指定运行 Spark 时使用选项 --py-files 的最终包。

顺便说一句,错误消息似乎与 textdistance 完全无关。

关于pandas - 在 PySpark 的 pandas_udf 中使用外部库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57706352/

相关文章:

python - 根据 pyspark RDD 检查列表中的项目

java - 如何在 Java 中将 DataFrame 转换为 Apache Spark 中的数据集?

python - 使用条件更改列值或附加新行的数据框更新 SQLite DB

python - 在 Pandas 中将多列分组为一列

python - 基于系列条件创建新的 pandas 列

python - 无法将 RDD 转换为 DataFrame(RDD 有数百万行)

apache-spark - 如何将流式查询的数据写入Hive?

python - 在 Pandas Python 中处理多重索引

scala - 如何使用 Avro 文件上的架构在 Spark 中加载 Avros?

python - PySpark:将不同的窗口大小应用于 pyspark 中的数据帧