pandas - Spark 与 Scala 和 Pandas

标签 pandas scala apache-spark pyspark

我想在 Spark 应用程序中使用 Panda 的转换,如 Melt 等。
我将 Scala 用于 Spark,我必须使用一些功能,例如 Pandas 的 Melt,是否可以这样做?
pd.melt()
我已经看到 Pandas 和 PySpark 在 Notebooks 中携手并进。

最佳答案

(在没有更多细节的情况下很难提供示例,因此此答案仅包含指向文档等的链接。)
在最新版本的 Spark 中,支持所谓的 Pandas UDF,您可以在其中获取 Pandas 系列或数据帧作为参数并返回系列或参数,因此您可以执行 Pandas 函数以获取结果。由于优化了数据序列化等,Pandas UDF 比传统 Python UDF 快得多。参见 documentationthis blog post更多细节。
另一种选择是使用 Koalas - Spark 库,它正在重新实现 Pandas API,但在 Spark 上进行。有一个implementation of the melt as well ,但请务必阅读文档以了解可能的行为差异。

关于pandas - Spark 与 Scala 和 Pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65058672/

相关文章:

python - Pandas 删除每列 id 的前 n 行

pandas - 在 Pandas 数据框中创建一个包含 bool 列组合计数的方阵

scala - 安排 Akka actor 的重启

python - 为 pyspark 运行 nosetests

python - 需要在 Python Pandas 中过滤几列并更改其中一列的值

python - 将标题转换为行

scala - Spark Streaming - 批处理间隔与处理时间

scala - 关闭 Scala 秋千架

java - 从Spark Workers将数据从SparkStreaming保存到Cassandra是否可行

scala - 未能提交本地 jar 到 spark 集群 : java. nio.file.NoSuchFileException