我正在通过 hadoop 多节点集群的 importsv 工具将 1000 万条记录加载到 Hbase 表中。现在这个任务需要 5 分钟。但我想知道如何提高它的性能。 importtsv 工具看起来根本不像使用缩减器。我想知道我是否可以强制它使用 reducer ,它可以提高性能或您认为可以提高性能的任何其他方式将不胜感激。
谢谢。
最佳答案
使用 HfileOutPutFormat、completeBulkLoadTool 尝试 Importtsv。
关于Hadoop/Hbase批量加载的性能提升,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11454019/