hadoop - hdfs 日志文件太大

标签 hadoop hdfs

在对 hdfs 进行了大量的读写操作之后,(我不知道导致这个问题的确切操作)。 这两个文件: dncp_block_verification.log.curr , dncp_block_verification.log.prev 每个都超过 200 000 000 000 字节。

对 hdfs 进行哪些操作可能会导致这些文件快速增长?

从互联网上我知道我可以关闭 hdfs 并删除日志,但这不是好的解决方案。 如何避免这个问题?非常感谢你

最佳答案

block 扫描器是导致文件增长的原因。这是解释该行为的文章的链接:http://aosabook.org/en/hdfs.html (第 8.3.5 节)。

bug这导致这已在 HDFS 2.6.0 中修复

关于hadoop - hdfs 日志文件太大,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25259202/

相关文章:

hadoop - 如何将PDF文件从HDFS索引到Solr

mysql - 无法通过节俭获取配置单元远程 Metastore 表信息

hadoop - 如何在hive中展示完美的表格格式数据?

hadoop - 小文件和 hadoop/spark - 每个原始文件都是一个计算单元

python - 在 AWS Glue 中使用纯 python 外部库时 HDFS 中的权限错误

hadoop - Hive:处理存储在 HDFS 中的数据中的负数

hadoop - CDH 5.4.4 Oozie 无法运行 Sqoop 操作 - ClassNotFound SqoopMain

scala - java.lang.NoSuchMethodError 当 rdd.saveAsTextFile 由 spark-shell

hadoop - 创建一个 HIVE 表并将其保存到一个制表符分隔的文件中?

azure - HDInsight 客户端缺少库