python - 属性错误 : 'RDD' object has no attribute 'show'

标签 python apache-spark pyspark

from pyspark import SparkContext, SparkConf, sql
from pyspark.sql import Row
sc = SparkContext.getOrCreate()
sqlContext = sql.SQLContext(sc)
df = sc.parallelize([ \
                 Row(nama='Roni', umur=27, tingi=168), \
                 Row(nama='Roni', umur=6, tingi=168),
                 Row(nama='Roni', umur=89, tingi=168),])

df.show()

error: Traceback (most recent call last):

File "ipython-input-24-bfb18ebba99e", line 8, in df.show()

AttributeError: 'RDD' object has no attribute 'show'

最佳答案

错误很明显,因为 df 是一个 rdd。您应该在以下代码中使用 toDF 将其更改为数据框:

df = df.toDF()
df.show()

关于python - 属性错误 : 'RDD' object has no attribute 'show' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53618990/

相关文章:

python os.system 阻止向后命令

python - 如何在RaspberryPi上运行TFLite模型

python - 尽管正确(?)xpath,Selenium Webdriver Python 仍找不到元素

python - 将字符串的子字符串转换为字节然后转换为python中的整数

pyspark - 如何可视化pyspark ml的LDA或其他聚类

apache-spark - 使用 PySpark 从字符串中获取倒数第二个单词

java - 如何将 Spark Row 的数据集转换成字符串?

java - 在 java Spark 中尝试 zipWithIndex 时出错

python - 我只需要附加那些在 pyspark 数据框中具有非空值的人

python-2.7 - pyspark 中的 RDD 到 DataFrame(来自 rdd 的第一个元素的列)