python - Pyspark groupBy DataFrame 没有聚合或计数

它可以在没有聚合或计数的情况下遍历 Pyspark groupBy 数据帧吗？

例如 Pandas 中的代码:

for i, d in df2:
      mycode ....

^^ if using pandas ^^
Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?

最佳答案

当我们执行 GroupBy 时，我们最终会得到一个 RelationalGroupedDataset，这是一个 DataFrame 的奇特名称，它指定了一个分组，但需要用户在进一步查询之前指定一个聚合。

当您尝试在 Grouped 数据帧上执行任何功能时，它会引发错误

AttributeError: 'GroupedData' object has no attribute 'show'

关于python - Pyspark groupBy DataFrame 没有聚合或计数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59622573/

上一篇：pcf - ERROR Finalize failed with exception #<RuntimeError : No container can run this application. 请确保您已推送有效的 JVM 工件或

下一篇：python - 为纯 Python 包构建发行版的意义何在？

相关文章：

csv - 使用spark访问放置在hdfs中的csv文件

python - Spark 2.4.4 Avro Pyspark Shell 配置

apache-spark - Spark : Prevent shuffle/exchange when joining two identically partitioned dataframes

Python 文件，获取文件并查找平均值

python - Python 中的迭代器(循环变量)

python - 交叉编译 gcc 失败 (Python)

python - 如何将python函数编写为返回字典类型的udf

python - 有没有办法使用 pyodbc 向 sql server 2005 插入一个请求 scope_identity()

python - 转置 pyspark df 并返回 pyspark df

apache-spark - 在 pyspark[non pandas] 中为数据框的每一行调用一个函数