hadoop - 在映射期间替换为 HBase 查找以进行 mapreduce

标签 hadoop hbase hdfs

在 mapreduce 处理期间,我需要在一次 map 执行中多次查找 hbase。这正在成为一个瓶颈,因为 hbase 变得非常慢。 一个map过程中会多次查找,例如每一行包含多个员工id,员工信息存储在hbase中。

什么可以替代这个?对于这样的处理,hbase 应该很慢吗?将 Hbase 作为 hdfs 文本然后进行连接而不是查找是否更好。

最佳答案

如果不确切知道您的 MR 工作在做什么,很难给出一个完美的答案,但我会考虑使用 TableInputFormatBase (使用 MultipleInputs 将 HBase 表与其他数据一起读入映射器),然后加入员工 ID。这可能意味着您现在需要两个 MR 作业,但它可能比多个查找更快,而且肯定应该更好地扩展。

关于hadoop - 在映射期间替换为 HBase 查找以进行 mapreduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35961338/

相关文章:

java - 为什么在 Java NIO Selector 中使用 iterator.remove() 迭代 SelectionKey

Hadoop HDFS 和序列文件

hadoop - HBase聚合、Get And Put操作、Bulk操作

sql - 创建指向 HBase 表的外部 Hive 表

java - 使用Yarn的注册表错误:Service RegistryOperations处于错误状态:INITED

java.lang.NoClassDefFoundError : ./oozie-setup.sh sharelib 创建-fs hdfs://localhost:9000

hadoop - 无法启动 NFS 网关 - Hadoop

apache-spark - spark-submit与我位于hdfs中的jar不兼容

hadoop - 为嵌套的CSV数据创建配置单元表