hadoop - 当要插入hdfs的数据大于datanode的容量时会发生什么

标签 hadoop mapreduce hdfs

我知道上传到hdfs中的数据会在hadoop集群中的数据节点之间作为块进行复制。我的问题是,当群集中所有数据节点的容量不足时会发生什么?例如我有3个数据节点,每个数据节点具有10GB的数据容量(总共30GB),并且我想在同一群集的hdfs中插入大小为60GB的数据。我不知道如何将60GB的数据拆分为块(通常为〜64MB)以供datanode容纳?

谢谢

最佳答案

我尚未对其进行测试,但是它应该会因存储空间不足消息而失败。将每个数据块写入HDFS时,都会经历复制因子过程。您的上传将大约完成一半,然后消失。

话虽如此,您可能会在上传之前将数据gzip(高压缩率)并压缩到其中,具体取决于数据的可压缩性。

关于hadoop - 当要插入hdfs的数据大于datanode的容量时会发生什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22365129/

相关文章:

mongodb - MongoDB Map-Reduce 中的完成步骤

java - 在多个map()和reduce()调用之间共享数据

csv - 无法将HDFS中的.csv数据加载到Hadoop中的Hive表中

hadoop - Hiveserver2 无法在直线中打开新 session

hadoop - 如何在 Apache pig 中给出方程式

sql-server - 使用jtds驱动程序从hdfs到SQL Server 2005的Sqoop导出失败

hadoop - 使用 tera gen 时从 kv.local/172.20.12.168 调用 localhost :8020 failed on connection exception,

hadoop - Cucumber-Hadoop:如何从HDFS位置读取 cucumber 功能文件?

hadoop - Hive 当前日期函数

java - 迭代器不允许使用 reducer