Hadoop/Hbase批量加载的性能提升

标签 hadoop mapreduce hbase

我正在通过 hadoop 多节点集群的 importsv 工具将 1000 万条记录加载到 Hbase 表中。现在这个任务需要 5 分钟。但我想知道如何提高它的性能。 importtsv 工具看起来根本不像使用缩减器。我想知道我是否可以强制它使用 reducer ，它可以提高性能或您认为可以提高性能的任何其他方式将不胜感激。
谢谢。

最佳答案

使用 HfileOutPutFormat、completeBulkLoadTool 尝试 Importtsv。

关于Hadoop/Hbase批量加载的性能提升，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11454019/

上一篇：hadoop - 如何标记来自不同目录的特定输入文件

下一篇：hadoop - 在 Hadoop 中找不到 "KeyValueInputFormat"

performance - 更高效的查询以避免 Hive 中的 OutOfMemoryError

java - 对于条目太多的目录，ABFS hadoop-azure AzureBlobFileSystem.listStatus(path) 花费太多时间(不返回)

hadoop - hadoop流获取最佳插槽数量

hadoop - Hadoop Streaming 的向后兼容性

java - HBase扫描操作缓存

java - FilterList with RowFilter 与 HBase 上的 MultiGet 之间的区别

hadoop - 了解TextInputFormat

regex - hive 中的功能regex_extract

hadoop - 我现在如何锁定 hbase？