python - 如何使用pyspark将bz2文件读入数据帧?

标签 python apache-spark pyspark apache-spark-sql

我可以使用以下命令将 json 文件读入 Pyspark 中的数据帧

spark = SparkSession.builder.appName('GetDetails').getOrCreate()
df = spark.read.json("path to json file")

但是,当我尝试将 bz2(压缩的 csv)读入数据帧时,它给了我一个错误。我在用:
spark = SparkSession.builder.appName('GetDetails').getOrCreate()
df = spark.read.load("path to bz2 file")

你能帮我纠正一下吗?

最佳答案

方法spark.read.load()有一个可选参数 format默认情况下是“ Parquet ”。
因此,要使您的代码正常工作,它应该如下所示:


df = spark.read.load("data.json.bz2", format="json")

另外,spark.read.json将完美地适用于压缩的 JSON 文件,例如:

df = spark.read.json("data.json.bz2")

关于python - 如何使用pyspark将bz2文件读入数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50689331/

相关文章:

Python 将单个位 append 到字节数组

python - 如何在交互式 PySpark session 中更改 SparkContext 属性

python - 以编程方式获取使用 Facebook Graph API 的访问 token

python - 如何以毫秒为单位使用 time.sleep()

r - Spark R : How to use a list in summarize

apache-spark - Spark : aggregate versus map and reduce

python - 如何计算 pyspark 数据框中每个不同值的计数?

python - 如何将类型 <class 'pyspark.sql.types.Row' > 转换为 Vector

pyspark - pyspark 数据框的区分大小写的列删除操作?

python - 如何使用协程在两个列表之间交替打印?