hadoop - CorruptStatistics-使用Parquet文件时的警告消息

标签 hadoop hive parquet

在Hortonworks上的Hive中执行查询时,会收到大量这些消息。

INFO: org.apache.parquet.CorruptStatistics: Ignoring statistics because this file was created prior to 1.8.0, see PARQUET-251


  • 如何解决此问题?
  • 如果不固定,尽管有这些警告,但对我正确获得结果有什么影响?
  • 最佳答案

  • 您可以通过使用Parquet生产者重新编写文件来解决此问题,例如 hive ,正在使用更新的parquet-mr库。然后它将用正确的统计信息填充文件。
  • 您从该 Parquet 生成的结果是正确的。该警告仅通知您在对该文件进行处理时不能使用计算(图形)中的所有优化。先前的parquet-mr版本中存在一个错误计算统计信息。现在,此问题已修复,但要具有正确的统计信息(仅用于查询优化),您需要使用较新的版本重新编写所有文件。文件本身中的数据不受此错误影响。
  • 关于hadoop - CorruptStatistics-使用Parquet文件时的警告消息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44641464/

    相关文章:

    maven - 无法通过JDBC在Hive服务器2上执行查询

    hadoop - 将 parquet-tools 与 Kerberos CDH 结合使用

    json - 德鲁伊 Parquet 摄取性能差

    java - 从长转换为文本

    python - 检查用python编写的配置单元udf中的错误

    hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

    hadoop - Hive 中的多插入语句

    hadoop - 在独立模式下编写 Parquet 文件是可行的..多工作模式失败

    hadoop - 如果我停用集群中只有两个数据节点的数据节点之一怎么办?

    hadoop - 在 Cloudera 中扩展 HDFS 内存