在 mapreduce 处理期间,我需要在一次 map 执行中多次查找 hbase。这正在成为一个瓶颈,因为 hbase 变得非常慢。 一个map过程中会多次查找,例如每一行包含多个员工id,员工信息存储在hbase中。
什么可以替代这个?对于这样的处理,hbase 应该很慢吗?将 Hbase 作为 hdfs 文本然后进行连接而不是查找是否更好。
最佳答案
如果不确切知道您的 MR 工作在做什么,很难给出一个完美的答案,但我会考虑使用 TableInputFormatBase
(使用 MultipleInputs
将 HBase 表与其他数据一起读入映射器),然后加入员工 ID。这可能意味着您现在需要两个 MR 作业,但它可能比多个查找更快,而且肯定应该更好地扩展。
关于hadoop - 在映射期间替换为 HBase 查找以进行 mapreduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35961338/