hadoop - 如何解决Hive中过多的分区问题

标签 hadoop hive bigdata

如果我在单个表中有更多分区，将会发生什么问题。我计划在配置单元中创建一个历史记录表，其中将包含7至8年的数据，并且我计划使用日期键对表进行分区。在这种情况下，我的表将具有大约2500到3500个分区。这个过度分区会给我的namenode和datanode造成问题吗？每个条目分区条目将在namenode中占用多少内存？由于过度分区，我将面临什么问题？如果我将遇到内存问题，请给我建议解决方案。如果您发现任何有关此的好文章，请给我链接。
有没有其他替代方法可以解决此问题？

谢谢
文卡狄珊E

最佳答案

我认为您不必为分区过多而苦苦挣扎，3.5K听起来还是可以的。分区数量较大的唯一问题是查询开始运行之前的时间，我认为这是因为从metastore接收分区元数据。我们在10k分区上遇到了实际的速度下降，3.5k应该适合您

关于hadoop - 如何解决Hive中过多的分区问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36135899/

上一篇：mongodb - MongoDB Container Dockerfile没有可访问的服务器

下一篇：docker - 无法使用 Digital Ocean 创建 docker 机器

相关文章：

hadoop - 问题:将表从hadoop导出到mysql

json - 配置单元:解析 JSON 包含\"

hadoop - 如何在hive-site.xml中映射Hive仓库路径？

即使我设置了路径，也找不到 hadoop 命令

hadoop - pig udf计算博客中的时间差

hadoop - Pentaho Hadoop 文件输入

mysql - 没有在 swing UI 中获取 Hive 数据库详细信息

hadoop - Hive 中的分桶未优化

mysql - MySQL 的 ElasticSearch 用于聚合数千万条非常简单的记录

hadoop - Phoenix sql 查询不适用于大型数据集