hadoop - 映射从hbase表中减少特定区域的数据

标签 hadoop hbase

我是Hadoop和Hbase的新手。我想知道是否有一种方法可以对hbase表中的某些选定数据区域进行Map Reduce。我的意思是,有没有一种方法可以指定Map减少的表区域,而不是选择完整的表并根据区域数拆分任务。一些代码片段将有很大的帮助。

非常感谢。

最佳答案

您可以设置处理的开始行和结束行。如果执行一次,则可以在HBase Web UI中获得该区域的开始和停止键。
可以使用TableMapReduceUtil来完成,它接受扫描作为参数。在内部(我认为)它将setStartRow和setStopRow调用为TableInputFormat)
在这里您可以找到示例:
http://massapi.com/class/org/apache/hadoop/mapreduce/Job.java.html(在页面中搜索setStartRow)。

关于hadoop - 映射从hbase表中减少特定区域的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11201129/

相关文章:

java - 确定 EMR 作业在 Map 与 Reduce 任务上花费了多少时间的最佳方法是什么?

hadoop - 大数据分析选择技术栈

java - 我在Windows中安装了Hadoop,但是当我运行hadoop示例失败时

hadoop - 从 HDFS 导入数据到 HBase (cdh3u2)

hbase - 从HBase Shell中的扫描获取输出

java - 如何在 Debug模式下运行配置单元

hadoop - 失败:SemanticException org.apache.hadoop.hive.ql.metadata.HiveException

hadoop - completebulkload 执行 'copy' StoreFiles 而不是 'cut'

hbase - HBase 1.X 和 2.X 版本有什么区别

linux - java.lang.RuntimeException : java. lang.UnsatisfiedLinkError: 无法在 jar 文件中找到 stub 库