python - 如何在pyspark sql中保存一个表？

标签 python hadoop save pyspark pyspark-sql

我想将生成的表格保存到 csv、文本文件或类似文件中，以便能够使用 RStudio 执行可视化。

我正在使用 pyspark.sql 在 hadoop 设置中执行一些查询。我想将我的结果保存在 hadoop 中，然后将结果复制到我的本地驱动器中。

myTable = sqlContext.sql("SOME QUERIES")
myTable.show() # Show my result
myTable.registerTempTable("myTable") # Save as table
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop

这将返回:
AttributeError: 'DataFrame' 对象没有属性 'saveAsTextFile'

这就是我在仅使用 pyspark(即不使用 pyspark.sql)时通常的做法。

然后我复制到本地驱动器

hdfs dfs –copyToLocal SEARCH PATH

谁能帮帮我？

最佳答案

您可以将 DataFrameWriter 与一种受支持的格式一起使用。例如对于 JSON:

myTable.write.json(path)

关于python - 如何在pyspark sql中保存一个表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41069894/

上一篇：hadoop - Spark 作为Mapreduce 的存储层

下一篇：Hadoop - Hive 子查询 - Not In Clause

相关文章：

python - 为python脚本编写帮助

python - 如何在Python和其他语言之间共享内存映射文件？

r - 对代码块使用 magic.wand 函数

Android:在录制视频时将视频保存到 PC/笔记本电脑

Python 字符串递归，字符串索引超出范围

python - 在Python中处理二维列表边界检查的最佳方法？

hadoop - 如何将EMR生成的S3上的小文件与成千上万个reducer合并

bash - bash脚本中的直线查询

java - 保存 Android 应用程序状态

java - For 循环检查文件是否存在以及是否不创建文件