python - 在 pyspark 中读取 csv 时,SQLContext 对象没有读取属性

标签 python csv pyspark

我正在将一个 csv 文件加载到 pyspark 中,如下所示(在 pyspark shell 中):

>>> from pyspark.sql import SQLContext
>>> sqlContext = SQLContext(sc)
>>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv')

但是我收到这个错误:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'read'
>>> 

我正在使用 spark 1.3.1,我正在尝试使用 spark-csv

最佳答案

您正在尝试使用 Spark 1.4+ 语法。

对于 Spark 1.3

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
df.select("year", "model").save("newcars.csv", "com.databricks.spark.csv")

关于python - 在 pyspark 中读取 csv 时,SQLContext 对象没有读取属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32967805/

相关文章:

python - 从 CSV 文件中去除空格

linux - 如何使用 grep 命令打印列中搜索关键字产生的行,

Python:查找句子的所有字谜

Python:将所有函数包装在一个库中

python - 如何在 python 中导入 hbase?

dataframe - 在 Spark 中重新分区更改 Dataframe 的行顺序

Pyspark 显示/显示/收集显示无效数据

python - 并行处理单独模块中的函数

linux - 从 bash 脚本文件读取 csv 文件

python - 如何从列表列创建组合的 Pyspark Dataframe