hadoop - 在映射期间替换为 HBase 查找以进行 mapreduce

在 mapreduce 处理期间，我需要在一次 map 执行中多次查找 hbase。这正在成为一个瓶颈，因为 hbase 变得非常慢。一个map过程中会多次查找，例如每一行包含多个员工id，员工信息存储在hbase中。

什么可以替代这个？对于这样的处理，hbase 应该很慢吗？将 Hbase 作为 hdfs 文本然后进行连接而不是查找是否更好。

最佳答案

如果不确切知道您的 MR 工作在做什么，很难给出一个完美的答案，但我会考虑使用 TableInputFormatBase (使用 MultipleInputs 将 HBase 表与其他数据一起读入映射器)，然后加入员工 ID。这可能意味着您现在需要两个 MR 作业，但它可能比多个查找更快，而且肯定应该更好地扩展。

关于hadoop - 在映射期间替换为 HBase 查找以进行 mapreduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35961338/

上一篇：hadoop - 判断hadoop集群中slave节点是否被分配任务

下一篇：hadoop - yarn模式提交spark应用时出现异常

Hadoop HDFS 和序列文件

hadoop - HBase聚合、Get And Put操作、Bulk操作

sql - 创建指向 HBase 表的外部 Hive 表

java - 使用Yarn的注册表错误:Service RegistryOperations处于错误状态:INITED

java.lang.NoClassDefFoundError : ./oozie-setup.sh sharelib 创建-fs hdfs://localhost:9000

hadoop - 无法启动 NFS 网关 - Hadoop

apache-spark - spark-submit与我位于hdfs中的jar不兼容

hadoop - 为嵌套的CSV数据创建配置单元表