我知道上传到hdfs中的数据会在hadoop集群中的数据节点之间作为块进行复制。我的问题是,当群集中所有数据节点的容量不足时会发生什么?例如我有3个数据节点,每个数据节点具有10GB的数据容量(总共30GB),并且我想在同一群集的hdfs中插入大小为60GB的数据。我不知道如何将60GB的数据拆分为块(通常为〜64MB)以供datanode容纳?
谢谢
最佳答案
我尚未对其进行测试,但是它应该会因存储空间不足消息而失败。将每个数据块写入HDFS时,都会经历复制因子过程。您的上传将大约完成一半,然后消失。
话虽如此,您可能会在上传之前将数据gzip(高压缩率)并压缩到其中,具体取决于数据的可压缩性。
关于hadoop - 当要插入hdfs的数据大于datanode的容量时会发生什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22365129/