<分区>
它可以是在创建表时或在使用其他查询(如在表上插入、更新、删除)时。 我知道使用 BloomFilter、BlockCache 等选项会产生影响。但我想知道其他可以提高整体吞吐量的技术。任何人都可以展示如何在 Hbase 表上添加 BloomFilter。我想尝试一下练习。
感谢任何帮助。
<分区>
它可以是在创建表时或在使用其他查询(如在表上插入、更新、删除)时。 我知道使用 BloomFilter、BlockCache 等选项会产生影响。但我想知道其他可以提高整体吞吐量的技术。任何人都可以展示如何在 Hbase 表上添加 BloomFilter。我想尝试一下练习。
感谢任何帮助。
最佳答案
你的问题太笼统了。为了知道如何在 HBase 中正确构建 DataStore,您应该了解其存储的内部逻辑以及数据如何跨区域分布。这可能是开始的主要地方。我建议您熟悉 LSM-tree 以及 HBase 如何在 this 中实现它文章。在此之后,我建议您阅读有关数据模式的正确设计的信息 here因为它将在您的表现中发挥主要作用。具有良好 key 的正确模式将使您的数据正确分布在节点之间,并避免您拥有 hotspotting 之类的东西。 .然后,您可以开始研究优化技术,例如 blume 过滤器、BlockCache、自定义二级索引和其他东西。
关于hadoop - HBASE有哪些性能提升技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42491708/
相关文章:
hbase - 在 hbase shell 上做 ValueFilter 或 ColumnFilter
java - 发现 nn/hadoop-kerberos@HADOOP-KERBEROS 不支持的 key 类型 (8)
hadoop - 在Hive中运行删除或更新时遇到间歇性问题
hadoop - 在 Hive 查询中显示前一个日期的日期名称?
java - 使用版本 0.98.0-hadoop2 写入 HBase 表
php - 如何将 JSON 请求中的过滤器参数发送到 HBase REST API?