hadoop - 同一 HBase 集群内的随机读取和扫描

标签 hadoop hbase hadoop-yarn

我们有这样的情况,我们为以下目的托管数据:

  • MapReduce/Spark 作业(通过顺序读取访问磁盘)
  • 随机读取。 (通过搜索访问的磁盘)

都在同一个集群/表中。

使用 YARN,我们可以管理 CPU 和 RAM 等资源,但在密集扫描期间,HDD 可能成为瓶颈,并可能降低随机读取性能。如何管理该资源

通常如何处理这种情况?

最佳答案

由于mapreduce一般不需要活数据,所以人们经常对hbase表进行备份,在备份的数据表上运行mapreduce。或者做一个表的快照并运行 mp。在上面。

关于hadoop - 同一 HBase 集群内的随机读取和扫描,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34151022/

相关文章:

hadoop - 通过Reducer Hadoop中的值进行两次迭代

ubuntu - 安装 Hadoop 后无法从 Hue 访问 Hadoop 服务

java - 不是主机 :port while connecting hbase using java

hadoop - 为 Hbase 设计复合行键

Hadoop 2.6.0 官方实例 : Yarn (MR2) much slower than Map Reduce (MR1) in single node setup

hadoop - 关于不调用基础MapReduce作业的Hive命令

java - 具有 namespace 的Hbase Kundera表不起作用

HBase:列族 TTL

hadoop - Hive:使用脚本添加的资源在 Hortonworks 中被清除了吗?

java - Hadoop MapReduce 环境变量