pandas - Spark 与 Scala 和 Pandas

标签 pandas scala apache-spark pyspark

我想在 Spark 应用程序中使用 Panda 的转换，如 Melt 等。
我将 Scala 用于 Spark，我必须使用一些功能，例如 Pandas 的 Melt，是否可以这样做？
pd.melt()
我已经看到 Pandas 和 PySpark 在 Notebooks 中携手并进。

最佳答案

(在没有更多细节的情况下很难提供示例，因此此答案仅包含指向文档等的链接。)
在最新版本的 Spark 中，支持所谓的 Pandas UDF，您可以在其中获取 Pandas 系列或数据帧作为参数并返回系列或参数，因此您可以执行 Pandas 函数以获取结果。由于优化了数据序列化等，Pandas UDF 比传统 Python UDF 快得多。参见 documentation和 this blog post更多细节。
另一种选择是使用 Koalas - Spark 库，它正在重新实现 Pandas API，但在 Spark 上进行。有一个implementation of the melt as well ，但请务必阅读文档以了解可能的行为差异。

关于pandas - Spark 与 Scala 和 Pandas，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65058672/

上一篇：c# - 等待范围属性的初始化

下一篇：javascript - 只有一个使用 react-grid-layout 的 highcharts 可以调整大小

相关文章：

python - Pandas 删除每列 id 的前 n 行

pandas - 在 Pandas 数据框中创建一个包含 bool 列组合计数的方阵

scala - 安排 Akka actor 的重启

python - 为 pyspark 运行 nosetests

python - 需要在 Python Pandas 中过滤几列并更改其中一列的值

python - 将标题转换为行

scala - Spark Streaming - 批处理间隔与处理时间

scala - 关闭 Scala 秋千架

java - 从Spark Workers将数据从SparkStreaming保存到Cassandra是否可行

scala - 未能提交本地 jar 到 spark 集群 : java. nio.file.NoSuchFileException