我想在 Spark 应用程序中使用 Panda 的转换,如 Melt 等。
我将 Scala 用于 Spark,我必须使用一些功能,例如 Pandas 的 Melt,是否可以这样做?
pd.melt()
我已经看到 Pandas 和 PySpark 在 Notebooks 中携手并进。
最佳答案
(在没有更多细节的情况下很难提供示例,因此此答案仅包含指向文档等的链接。)
在最新版本的 Spark 中,支持所谓的 Pandas UDF,您可以在其中获取 Pandas 系列或数据帧作为参数并返回系列或参数,因此您可以执行 Pandas 函数以获取结果。由于优化了数据序列化等,Pandas UDF 比传统 Python UDF 快得多。参见 documentation和 this blog post更多细节。
另一种选择是使用 Koalas - Spark 库,它正在重新实现 Pandas API,但在 Spark 上进行。有一个implementation of the melt
as well ,但请务必阅读文档以了解可能的行为差异。
关于pandas - Spark 与 Scala 和 Pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65058672/