hadoop - HBASE有哪些性能提升技术?

标签 hadoop hbase

<分区>

它可以是在创建表时或在使用其他查询(如在表上插入、更新、删除)时。 我知道使用 BloomFilter、BlockCache 等选项会产生影响。但我想知道其他可以提高整体吞吐量的技术。任何人都可以展示如何在 Hbase 表上添加 BloomFilter。我想尝试一下练习。

感谢任何帮助。

最佳答案

你的问题太笼统了。为了知道如何在 HBase 中正确构建 DataStore,您应该了解其存储的内部逻辑以及数据如何跨区域分布。这可能是开始的主要地方。我建议您熟悉 LSM-tree 以及 HBase 如何在 this 中实现它文章。在此之后,我建议您阅读有关数据模式的正确设计的信息 here因为它将在您的表现中发挥主要作用。具有良好 key 的正确模式将使您的数据正确分布在节点之间,并避免您拥有 hotspotting 之类的东西。 .然后,您可以开始研究优化技术,例如 blume 过滤器、BlockCache、自定义二级索引和其他东西。

关于hadoop - HBASE有哪些性能提升技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42491708/

相关文章:

hbase - 在 hbase shell 上做 ValueFilter 或 ColumnFilter

java - 发现 nn/hadoop-kerberos@HADOOP-KERBEROS 不支持的 key 类型 (8)

hadoop - 计划的数据加载到 Hadoop 中

hadoop - 在Hive中运行删除或更新时遇到间歇性问题

hadoop - 在 Hive 查询中显示前一个日期的日期名称?

java - 使用版本 0.98.0-hadoop2 写入 HBase 表

php - 如何将 JSON 请求中的过滤器参数发送到 HBase REST API?

scala - 线程 “main”中的异常java.lang.IllegalArgumentException:实例化 'org.apache.spark.sql.hive.HiveSessionState'时出错:

hadoop - 调度具有输入参数的HBase Hadoop MR作业

hadoop - Exasol 与 HBase