Python Pyspark 脚本在整个数据集上失败,但在单个文件上有效

标签 python apache-spark pyspark

enter image description here我写了一个 python pyspark 脚本,它从数据中提取特定的特征。该脚本在单个 file.json 上运行良好,并返回一个包含我所有功能的数据框作为输出。我的问题是我需要一次在整个数据集(一个包含我的 json 文件的文件夹)上运行脚本。任何人都可以建议一个好方法吗?谢谢<code>my output features_dataframe</code>

代码示例:

spark= SparkSession.builder.appName('mySparkKPIs').master('local').getOrCreate()
finalDF = spark.read.json('final.json')
finalDF.createOrReplaceTempView("final")
######
treatment of different dataframes##"
F=df1.join(df2, on="num", how="inner")\
    .join(df3, on="num", how="inner")\
        .join(df4, on="num", how="inner")\
            .show()

最佳答案

你可以像下面这样使用:

finalDF = spark.read.json('/path/to/json/directory/*.json')

关于Python Pyspark 脚本在整个数据集上失败,但在单个文件上有效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58640185/

相关文章:

python - Matplotlib - 在单元格中创建一个带有线图的表格?

scala - Spark hive udf : no handler for UDAF analysis exception

sql - 如何组合和聚合数据框行

python - 使用二进制文件保存图像文件 - pyspark

Pandas udf 遍历 PySpark 数据帧行

apache-spark - 使用 pyspark 将嵌套的 json 对象插入到 PostgreSQL

python - matplotlib 中的 TeX 渲染、大括号和字符串格式化语法

python - ValueError : Error when checking input: expected dense_151_input to have 3 dimensions, 但得到形状为 (2, 2100) 的数组

支持分块编码的 Python HTTP 服务器?

apache-spark - Spark 2.1 结构化流 - 使用 Kakfa 作为 Python 源 (pyspark)