可以使用外部库,例如 textdistance在pandas_udf里面?我已经尝试过,但收到此错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
我尝试过 Spark 版本 2.3.1。
最佳答案
您可以将 textdistance
与您自己的代码打包在一起(使用 setup.py 和 bdist_egg
构建 egg
文件),并指定运行 Spark 时使用选项 --py-files
的最终包。
顺便说一句,错误消息似乎与 textdistance
完全无关。
关于pandas - 在 PySpark 的 pandas_udf 中使用外部库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57706352/