hadoop - 同一 HBase 集群内的随机读取和扫描

标签 hadoop hbase hadoop-yarn

我们有这样的情况，我们为以下目的托管数据:

MapReduce/Spark 作业(通过顺序读取访问磁盘)
随机读取。 (通过搜索访问的磁盘)

都在同一个集群/表中。

使用 YARN，我们可以管理 CPU 和 RAM 等资源，但在密集扫描期间，HDD 可能成为瓶颈，并可能降低随机读取性能。如何管理该资源

通常如何处理这种情况？

最佳答案

由于mapreduce一般不需要活数据，所以人们经常对hbase表进行备份，在备份的数据表上运行mapreduce。或者做一个表的快照并运行 mp。在上面。

关于hadoop - 同一 HBase 集群内的随机读取和扫描，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34151022/

上一篇：shell - Oozie 在随机节点上运行 shell 脚本

下一篇：hadoop - 启动 hadoop 守护进程时出错(ConnectionRefused 和 ExitCodeException)

相关文章：

hadoop - 通过Reducer Hadoop中的值进行两次迭代

ubuntu - 安装 Hadoop 后无法从 Hue 访问 Hadoop 服务

java - 不是主机 :port while connecting hbase using java

hadoop - 为 Hbase 设计复合行键

Hadoop 2.6.0 官方实例 : Yarn (MR2) much slower than Map Reduce (MR1) in single node setup

hadoop - 关于不调用基础MapReduce作业的Hive命令

java - 具有 namespace 的Hbase Kundera表不起作用

HBase:列族 TTL

hadoop - Hive:使用脚本添加的资源在 Hortonworks 中被清除了吗？

java - Hadoop MapReduce 环境变量

©2024 IT工具网联系我们