hadoop - hdfs 核心节点磁盘已满，调查？

标签 hadoop apache-spark hdfs cluster-computing diskspace

我们在 aws 上的 hdfs 之上有一个 spark 集群，具有 2 个核心节点和 1 个主节点。最近我发现所有作业都失败了，因为两个核心节点上的磁盘都已满。经过进一步调查发现:

/data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/* 已满。我能够看到数据，但我想弄清楚是哪个作业实际创建了这些文件，这些文件占用了近 600-700GB 的空间，因此我们可以防止将来发生这种情况。有人可以告诉我在哪里/如何开始调查吗？

最佳答案

检查 4040 上作业的用户界面....您可能会找到一些东西。否则，请告诉更多有关工作、数据和环境的详细信息。

关于hadoop - hdfs 核心节点磁盘已满，调查？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33135911/

上一篇：xml - 如何在 HBase 中存储 XML 文件？

下一篇：maven - Oozie 4.2.0 使用 Java 1.8 使用 Hadoop 2.7 构建错误

hadoop - HDFS复制因子

hadoop - 在 HDFS 的联邦中将数据从本地磁盘复制到 HDFS

bash - 使用 bash 脚本在 hadoop 中压缩不同的目录

hadoop - 有没有办法批量重命名配置单元表？

java - 使用拦截器运行 flume agent 时出错

Hadoop 安装 + 启用虚拟化 64 位 CPU

hadoop - 在Amazon EC2中以集群模式在Spark中读取文件

hadoop - java.io.IOException :java. lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.io.Writable

scala - 如何使用连接的 RDD