hadoop - hdfs 核心节点磁盘已满,调查?

标签 hadoop apache-spark hdfs cluster-computing diskspace

我们在 aws 上的 hdfs 之上有一个 spark 集群,具有 2 个核心节点和 1 个主节点。最近我发现所有作业都失败了,因为两个核心节点上的磁盘都已满。经过进一步调查发现:

/data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/* 已满。我能够看到数据,但我想弄清楚是哪个作业实际创建了这些文件,这些文件占用了近 600-700GB 的空间,因此我们可以防止将来发生这种情况。有人可以告诉我在哪里/如何开始调查吗?

最佳答案

检查 4040 上作业的用户界面....您可能会找到一些东西。 否则,请告诉更多有关工作、数据和环境的详细信息。

关于hadoop - hdfs 核心节点磁盘已满,调查?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33135911/

相关文章:

apache-spark - 为具有大量输入文件的 Spark SQL 作业加速 InMemoryFileIndex

hadoop - HDFS复制因子

hadoop - 在 HDFS 的联邦中将数据从本地磁盘复制到 HDFS

bash - 使用 bash 脚本在 hadoop 中压缩不同的目录

hadoop - 有没有办法批量重命名配置单元表?

java - 使用拦截器运行 flume agent 时出错

Hadoop 安装 + 启用虚拟化 64 位 CPU

hadoop - 在Amazon EC2中以集群模式在Spark中读取文件

hadoop - java.io.IOException :java. lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.io.Writable

scala - 如何使用连接的 RDD