python - Pyspark groupBy DataFrame 没有聚合或计数

标签 python pyspark pyspark-dataframes

它可以在没有聚合或计数的情况下遍历 Pyspark groupBy 数据帧吗?

例如 Pandas 中的代码:

for i, d in df2:
      mycode ....

^^ if using pandas ^^
Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?

最佳答案

当我们执行 GroupBy 时,我们最终会得到一个 RelationalGroupedDataset,这是一个 DataFrame 的奇特名称,它指定了一个分组,但需要用户在进一步查询之前指定一个聚合。

当您尝试在 Grouped 数据帧上执行任何功能时,它会引发错误

AttributeError: 'GroupedData' object has no attribute 'show'

关于python - Pyspark groupBy DataFrame 没有聚合或计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59622573/

相关文章:

csv - 使用spark访问放置在hdfs中的csv文件

python - Spark 2.4.4 Avro Pyspark Shell 配置

apache-spark - Spark : Prevent shuffle/exchange when joining two identically partitioned dataframes

Python 文件,获取文件并查找平均值

python - Python 中的迭代器(循环变量)

python - 交叉编译 gcc 失败 (Python)

python - 如何将python函数编写为返回字典类型的udf

python - 有没有办法使用 pyodbc 向 sql server 2005 插入一个请求 scope_identity()

python - 转置 pyspark df 并返回 pyspark df

apache-spark - 在 pyspark[non pandas] 中为数据框的每一行调用一个函数