apache-spark - Spark 错误阅读 Parquet

我们正在使用 apache spark，我们将 json 文件保存为 hdfs 中的 gzip 压缩 Parquet 文件。但是，当读回它们以生成数据帧时，某些文件(但不是全部)会引发以下异常:

ERROR Executor: Exception in task 2.0 in stage 72.0 (TID 88)
org.apache.parquet.io.ParquetDecodingException: Can not read value at 351 in 
block 0 in file file:/path/to/file [...]
Caused by: java.lang.ClassCastException: 
org.apache.spark.sql.catalyst.expressions.MutableLong cannot be cast to 
org.apache.spark.sql.catalyst.expressions.MutableDouble

非常感谢任何帮助!

最佳答案

当您尝试同时读取具有不同模式的 Parquet 文件时，会发生这种错误。尝试让/convert 所有源文件具有相同的架构或同时转换所有源文件。

关于apache-spark - Spark 错误阅读 Parquet ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51300978/

上一篇：angular - ag-grid cellRenderer 在值评估后渲染单元格失败

下一篇：protocol-buffers - 不同版本的google protobuf 可以一起使用吗？

相关文章：

java - 从 S3 读取 Spark 中的 parquet 文件

hadoop - Spark 将本地文件从主节点分发到节点

scala - 用平均值替换缺失值 - Spark Dataframe

scala - 如何解决错误 : value reduceByKey is not a member of org. apache.spark.rdd.RDD[(Int, Int)]？

apache-spark - S3 Select 会加速 Parquet 文件的 Spark 分析吗？

python - 将 dask 数据帧写入 parquet : 'TypeError'

apache-spark - Spark SQL - gzip 与 snappy 与 lzo 压缩格式之间的区别

hive - 设置 parquet snappy 输出文件大小是 hive？

scala - 为什么在使用 Spark sql 过滤特定聚合的行时出现类型不匹配？

python - 将带有时间增量的 Pandas 数据框写入 Parquet