hadoop - Hbase 中的区域拆分

标签 hadoop hbase bulk-load

一个区域服务器可以服务多少个区域?基本上我得到了一个 hadoop 工作,它在 hbase 中进行批量加载,但查看 hbase master UI,我可以看到整个数据流量正在转移到单个区域服务器。因为单个区域服务器正在重载,而其他服务器是理想的。我想跨区域服务器分布这些区域以保持集群平衡。

我不太确定,但我假设应该有一些配置来定义每个区域服务器的区域数量。如果我在这里错了,请纠正我。

目前我正在为我的 hbase 表使用默认的自动拆分策略。

请告诉我如何确定这个或任何其他处理区域分布的方法?

谢谢

最佳答案

我假设您创建了一个拆分表,然后它会根据您的数据大小自动拆分。 Hbase balance table splits according to split number of per region server,所以如果你想让多个region server服务多个splits,你应该根据一些逻辑预先拆分你的表,或者在用户界面中点击拆分当使用有一些数据时 table 。

您可以阅读这篇详细的好文章http://hortonworks.com/blog/apache-hbase-region-splitting-and-merging/

如果有人知道如何根据该表的负载分配拆分,那就太好了。

关于hadoop - Hbase 中的区域拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30571839/

相关文章:

linux - 结合 HBase 和 HDFS 导致 makeDirOnFileSystem 异常

mysql - Sqoop使用Java API导入Hbase表

hadoop - 将数据从 HBase 迁移到文件系统。 (将 Reducer 输出写入本地或 Hadoop 文件系统)

shell - hbase shell 命令 - 扫描和过滤

cassandra - 稳定加载程序。错误 : could not achieve replication factor 2 (found 1 replicas only), 检查您的 key 空间复制设置

java - 多节点 hadoop 集群中的 Apache Spark Sql 问题

hadoop - 画面 : Error while using Impala to connect to Cloudera Hadoop

hadoop - Hbase 区域服务器关闭

sql - 批量插入: Using Single vs.多条语句

hadoop - Last Reducer 从最近 24 小时开始运行,用于 200 GB 的数据集