hadoop - 如何解决Hive中过多的分区问题

标签 hadoop hive bigdata

如果我在单个表中有更多分区,将会发生什么问题。我计划在配置单元中创建一个历史记录表,其中将包含7至8年的数据,并且我计划使用日期键对表进行分区。在这种情况下,我的表将具有大约2500到3500个分区。这个过度分区会给我的namenode和datanode造成问题吗?每个条目分区条目将在namenode中占用多少内存?由于过度分区,我将面临什么问题?如果我将遇到内存问题,请给我建议解决方案。如果您发现任何有关此的好文章,请给我链接。
有没有其他替代方法可以解决此问题?

谢谢
文卡狄珊E

最佳答案

我认为您不必为分区过多而苦苦挣扎,3.5K听起来还是可以的。分区数量较大的唯一问题是查询开始运行之前的时间,我认为这是因为从metastore接收分区元数据。我们在10k分区上遇到了实际的速度下降,3.5k应该适合您

关于hadoop - 如何解决Hive中过多的分区问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36135899/

相关文章:

hadoop - 问题:将表从hadoop导出到mysql

json - 配置单元:解析 JSON 包含\"

hadoop - 如何在hive-site.xml中映射Hive仓库路径?

即使我设置了路径,也找不到 hadoop 命令

hadoop - pig udf计算博客中的时间差

hadoop - Pentaho Hadoop 文件输入

mysql - 没有在 swing UI 中获取 Hive 数据库详细信息

hadoop - Hive 中的分桶未优化

mysql - MySQL 的 ElasticSearch 用于聚合数千万条非常简单的记录

hadoop - Phoenix sql 查询不适用于大型数据集