使用 pyspark dataframe,如何执行 Pandas 的等效操作 df['col'].unique()
。
我想列出 pyspark 数据框列中的所有唯一值。
不是 SQL 类型方式(注册模板,然后 SQL 查询不同的值)。
此外,我不需要 groupby
然后 countDistinct
,而是想检查该列中的不同值。
最佳答案
这应该有助于获取列的不同值:
df.select('column1').distinct().collect()
请注意,.collect()
对于可以返回的值数量没有任何内置限制,因此这可能会很慢 - 请使用 .show()
相反,或者在 .collect()
之前添加 .limit(20)
来管理它。
关于python - 在 pyspark 数据框中显示不同的列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39383557/