python - 在 pyspark 数据框中显示不同的列值

标签 python apache-spark pyspark apache-spark-sql

使用 pyspark dataframe,如何执行 Pandas 的等效操作 df['col'].unique()

我想列出 pyspark 数据框列中的所有唯一值。

不是 SQL 类型方式(注册模板,然后 SQL 查询不同的值)。

此外,我不需要 groupby 然后 countDistinct,而是想检查该列中的不同值。

最佳答案

这应该有助于获取列的不同值:

df.select('column1').distinct().collect()

请注意,.collect() 对于可以返回的值数量没有任何内置限制,因此这可能会很慢 - 请使用 .show()相反,或者在 .collect() 之前添加 .limit(20) 来管理它。

关于python - 在 pyspark 数据框中显示不同的列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39383557/

相关文章:

apache-spark - 运行比内核数量更多的分区是否有意义?

python - 如何在 SQL 和 Pandas 中获得相同的percent_rank?

python - 如何在 PySpark 中比较两个 LabeledPoint?

python - 如何使用 ruamel.yaml 添加节点

scala - 如何在spark的过滤条件中使用NOT IN子句

csv - 将 Spark 数据帧写为带有分区的 CSV

apache-spark - PySpark 无法 insertInto Hive 表,因为 "Can only write data to relations with a single path"

python - 回复 : How Can I Get Flask to Use GPIO Pins to Change the LED Brightness on Linux with a BeagleBone Black?

python - Python 方法 *argument* 的双下划线

python - 如何在 PyCharm 上获取自动完成 `super`