python - 在 pyspark 数据框中显示不同的列值

使用 pyspark dataframe，如何执行 Pandas 的等效操作 df['col'].unique()。

我想列出 pyspark 数据框列中的所有唯一值。

不是 SQL 类型方式(注册模板，然后 SQL 查询不同的值)。

此外，我不需要 groupby 然后 countDistinct，而是想检查该列中的不同值。

最佳答案

这应该有助于获取列的不同值:

df.select('column1').distinct().collect()

请注意，.collect() 对于可以返回的值数量没有任何内置限制，因此这可能会很慢 - 请使用 .show()相反，或者在 .collect() 之前添加 .limit(20) 来管理它。

关于python - 在 pyspark 数据框中显示不同的列值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39383557/

相关文章：

apache-spark - 运行比内核数量更多的分区是否有意义？