我们有这样的情况,我们为以下目的托管数据:
- MapReduce/Spark 作业(通过顺序读取访问磁盘)
- 随机读取。 (通过搜索访问的磁盘)
都在同一个集群/表中。
使用 YARN,我们可以管理 CPU 和 RAM 等资源,但在密集扫描期间,HDD 可能成为瓶颈,并可能降低随机读取性能。如何管理该资源
通常如何处理这种情况?
最佳答案
由于mapreduce一般不需要活数据,所以人们经常对hbase表进行备份,在备份的数据表上运行mapreduce。或者做一个表的快照并运行 mp。在上面。
关于hadoop - 同一 HBase 集群内的随机读取和扫描,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34151022/