hadoop - MultiTableInputFormat比较2个表大约需要80分钟

标签 hadoop mapreduce hbase

我正在使用Hbase MultiTableInputFormat比较2个表:Table1(700万个),Table2(3000万个)。

在驱动程序中,我正在传递扫描(没有任何过滤器)。在我的映射器中,我正在做一个比较,并在Reducer中编写摘要。

特定于此方案的任何设置都可以加快此过程。谢谢。

最佳答案

您是否使用过扫描仪缓存,它可以提高性能-
示例-scan.setCaching(1000);

关于hadoop - MultiTableInputFormat比较2个表大约需要80分钟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26726034/

相关文章:

MongoDB MapReduce : Global variables within map function instance?

c# - 如何使用 PLINQ 在 C# 中实现 MapReduce?

amazon-ec2 - 在 EC2 集群上安装 Hbase/Hadoop

java - 无法过滤hbase记录

mysql - 在Hadoop或MySQL中 reshape dcast表

hadoop - Hadoop MapReduce 是否重新处理整个数据集

hadoop - 映射器何时将其输出存储到本地硬盘?

java - HBase put [util.List [Put])不起作用

hadoop - 远程访问HDFS

r - 将 csv 转换为原生 hadoop 格式