hadoop - MultiTableInputFormat比较2个表大约需要80分钟

标签 hadoop mapreduce hbase

我正在使用Hbase MultiTableInputFormat比较2个表:Table1(700万个)，Table2(3000万个)。

在驱动程序中，我正在传递扫描(没有任何过滤器)。在我的映射器中，我正在做一个比较，并在Reducer中编写摘要。

特定于此方案的任何设置都可以加快此过程。谢谢。

最佳答案

您是否使用过扫描仪缓存，它可以提高性能-
示例-scan.setCaching(1000);

关于hadoop - MultiTableInputFormat比较2个表大约需要80分钟，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26726034/

上一篇：hadoop - Hadoop和Informatica是否相关？

下一篇：hadoop - ElasticMapReduce流式压缩输出

c# - 如何使用 PLINQ 在 C# 中实现 MapReduce？

amazon-ec2 - 在 EC2 集群上安装 Hbase/Hadoop

java - 无法过滤hbase记录

mysql - 在Hadoop或MySQL中 reshape dcast表

hadoop - Hadoop MapReduce 是否重新处理整个数据集

hadoop - 映射器何时将其输出存储到本地硬盘？

java - HBase put [util.List [Put])不起作用

hadoop - 远程访问HDFS

r - 将 csv 转换为原生 hadoop 格式