hadoop - 当要插入hdfs的数据大于datanode的容量时会发生什么

标签 hadoop mapreduce hdfs

我知道上传到hdfs中的数据会在hadoop集群中的数据节点之间作为块进行复制。我的问题是，当群集中所有数据节点的容量不足时会发生什么？例如我有3个数据节点，每个数据节点具有10GB的数据容量(总共30GB)，并且我想在同一群集的hdfs中插入大小为60GB的数据。我不知道如何将60GB的数据拆分为块(通常为〜64MB)以供datanode容纳？

谢谢

最佳答案

我尚未对其进行测试，但是它应该会因存储空间不足消息而失败。将每个数据块写入HDFS时，都会经历复制因子过程。您的上传将大约完成一半，然后消失。

话虽如此，您可能会在上传之前将数据gzip(高压缩率)并压缩到其中，具体取决于数据的可压缩性。

关于hadoop - 当要插入hdfs的数据大于datanode的容量时会发生什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22365129/

上一篇：hadoop - 从本地计算机连接配置单元时，HA群集上的java.net.UnknownHostException:<CLUSTER_NAME>

下一篇：hadoop - MapReduce中的max如何从中获取其值，它们代表什么？

相关文章：

mongodb - MongoDB Map-Reduce 中的完成步骤

java - 在多个map()和reduce()调用之间共享数据

csv - 无法将HDFS中的.csv数据加载到Hadoop中的Hive表中

hadoop - Hiveserver2 无法在直线中打开新 session

hadoop - 如何在 Apache pig 中给出方程式

sql-server - 使用jtds驱动程序从hdfs到SQL Server 2005的Sqoop导出失败

hadoop - 使用 tera gen 时从 kv.local/172.20.12.168 调用 localhost :8020 failed on connection exception,

hadoop - Cucumber-Hadoop:如何从HDFS位置读取 cucumber 功能文件？

hadoop - Hive 当前日期函数

java - 迭代器不允许使用 reducer