如果我在单个表中有更多分区,将会发生什么问题。我计划在配置单元中创建一个历史记录表,其中将包含7至8年的数据,并且我计划使用日期键对表进行分区。在这种情况下,我的表将具有大约2500到3500个分区。这个过度分区会给我的namenode和datanode造成问题吗?每个条目分区条目将在namenode中占用多少内存?由于过度分区,我将面临什么问题?如果我将遇到内存问题,请给我建议解决方案。如果您发现任何有关此的好文章,请给我链接。
有没有其他替代方法可以解决此问题?
谢谢
文卡狄珊E
最佳答案
我认为您不必为分区过多而苦苦挣扎,3.5K听起来还是可以的。分区数量较大的唯一问题是查询开始运行之前的时间,我认为这是因为从metastore接收分区元数据。我们在10k分区上遇到了实际的速度下降,3.5k应该适合您
关于hadoop - 如何解决Hive中过多的分区问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36135899/