python - 如何在 PySpark 中只打印 DataFrame 的某一列?

标签 python apache-spark dataframe pyspark

是否可以使用操作collecttake 来仅打印DataFrame 的给定列?

这个

df.col.collect()

给出错误

TypeError: 'Column' object is not callable

还有这个:

df[df.col].take(2)

给予

pyspark.sql.utils.AnalysisException: u"filter expression 'col' of type string is not a boolean.;"

最佳答案

选择显示:

df.select("col").show()

selectflatMapcollect:

df.select("col").rdd.flatMap(list).collect()

括号符号 (df[df.col]) 仅用于逻辑切片和列本身 (df.col) 不是分布式数据结构,而是 SQL 表达式无法收集。

关于python - 如何在 PySpark 中只打印 DataFrame 的某一列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35913506/

相关文章:

apache-spark - PySpark-SparkContext : Error initializing SparkContext File does not exist

python - 如何汇总pandas数据框中列上的行

dataframe - 如何在 Julia 中将数组的数组转换为 DataFrame?

c++ - 我应该坚持使用哪种语言

apache-spark - Apache Sqoop 和 Spark

python - 随机生成更多比例的零python

scala - 方法参数是否触发 Spark 中的序列化?

python - Pandas 数据框 : Create additional column based on date columns comparison

python - 尝试查找最后插入行 ID;返回值已加密

python - “ super ”对象没有属性 '_get_type_value'